logo of bytedance

字节跳动大模型数据工程师-Seed

社招全职3年以上A00638地点:北京状态:招聘

任职要求


1、计算机及相关专业本科或本科以上学历,良好的沟通和团队协作能力;
2、扎实的编程基础、良好的编程风格,熟悉多线程编程、分布式计算、网络通信、内存管理、设计模式;
3、3年以上工程研发或者基础架构经验,熟练掌握C/C++PythonGolang等至少一种开发语言;
4、熟悉多项大数据处理/分析相关的工具/框架,例如HadoopHDFSHiveMapReduceSparkPrestoClickHouseRay、数据湖等;
5、具备分布式系统的研发经验,有优化系统性能问题的能力和经验。

具备以下一个或者多个条件者优先:
1、有前沿模型研发经验,涉及数据、评估、平台相关工作;
2、具有大规模分布式架构设计开发经验;
3、有K8s/Kubeflow/Airflow/Mlops研发或者应用经验;
4、熟悉PyTorch深度学习框架,了解常见的深度学习算法

工作职责


团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。
Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。

1、参与设计并实现高性能、可扩展、分布式大数据处理平台,通过数据驱动模型生产,支撑字节跳动智能语音相关业务算法生产与高效迭代;
2、与算法工程师密切配合,理解深度学习模型研发流程,负责/参与前沿模型研究中数据解决方案的设计、开发和维护;
3、持续提升平台数据生产效率、易用性、降低算法使用成本,探索业界前沿的多模态数据处理相关技术,设计并实现到数据平台中。
包括英文材料
学历+
多线程+
设计模式+
C+
C+++
Python+
Go+
Hadoop+
HDFS+
Hive+
MapReduce+
Spark+
Presto+
ClickHouse+
Ray+
分布式系统+
系统设计+
Kubernetes+
Kubeflow+
Airflow+
PyTorch+
深度学习+
算法+
相关职位

logo of bytedance
社招A176874

团队介绍:字节跳动豆包大模型团队(Seed)成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限,并探索新的交互。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 豆包大模型团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责公司大模型系统研发、训练数据架构,主要为公司提供底层通用的训练数据框架(Dataloader); 2、设计并实现高吞吐、高稳定、简单易用、可扩展、灵活可定制的Dataloader ; 3、深入了解业务场景,持续迭代升级架构以应对大模型技术发展对Dataloader不断涌现的新需求; 4、推动模型训练向更大规模、高可用方向不断进步。

更新于 2025-04-01
logo of bytedance
社招3年以上A170071

团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责千亿级别海量多模态数据的管理,包括视频、图像数据的存储,数据处理,数据安全,数据校验等等; 2、负责多模态数据链路基建的研发,追求极致的处理速度,达到百万QPS的处理能力; 3、大规模数据的分析以及可视化的建设,从数据中挖掘出影响模型训练结果的可能因素,从而帮助模型训练改进; 4、与算法同学深度合作,加速训练数据的获取,提升数据质量,支持模型结果数据评测,打造数据闭环; 5、支持多模态数据分析和数据可视化工作,降低数据的获取门槛,提升数据的使用价值。

更新于 2024-06-07
logo of bytedance
校招A45539

团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、GenMedia、AI for Science、机器人等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、参与设计并实现高可用、可扩展、分布式机器学习平台,支持语音、音乐、多模态相关算法高效迭代; 2、构建大规模数据存储、处理、分析系统,保障Pretrain/SFT/RL各个阶段的训练数据生产,持续提升数据的规模、质量、多样性; 3、与算法同学深度合作,优化数据处理依赖的基础模型,并参与大模型的训练评测,通过数据驱动模型效果提升; 4、负责数据和AI Infrastructure前瞻技术的调研和引入,持续加强提升部门关键技术竞争力。

更新于 2025-08-19
logo of bytedance
社招A242445

1、面向机器人应用场景探索多模态大模型技术,包括数据构建、指令微调、偏好对齐及模型优化等工作; 2、推动多模态大模型在机器人感知、定位、操作和交互等领域的创新应用,并致力于实现系统性能的极致优化。

更新于 2024-05-14