字节跳动大模型数据工程师-Seed

社招全职3年以上A006382023-08-30地点：北京状态：招聘

扫码手机上打开

任职要求

1、计算机及相关专业本科或本科以上学历，良好的沟通和团队协作能力；
2、扎实的编程基础、良好的编程风格，熟悉多线程编程、分布式计算、网络通信、内存管理、设计模式；
3、3年以上工程研发或者基础架构经验，熟练掌握C/C++、Python、Golang等至少一种开发语言；
4、熟悉多项大数据处理/分析相关的工具/框架，例如Hadoop、HDFS、Hive、MapReduce、Spark、P…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

团队介绍：字节跳动 Seed 团队成立于 2023 年，致力于寻找通用智能的新方法，追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等，在中国、新加坡、美国等地设有实验室和岗位。
Seed 团队在 AI 领域拥有长期愿景与决心，坚持深耕基础，期望成为世界一流的 AI 研究团队，为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力，支持豆包、扣子、即梦等超过 50 个应用场景。

1、参与设计并实现高性能、可扩展、分布式大数据处理平台，通过数据驱动模型生产，支撑字节跳动智能语音相关业务算法生产与高效迭代；
2、与算法工程师密切配合，理解深度学习模型研发流程，负责/参与前沿模型研究中数据解决方案的设计、开发和维护；
3、持续提升平台数据生产效率、易用性、降低算法使用成本，探索业界前沿的多模态数据处理相关技术，设计并实现到数据平台中。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

多线程+

设计模式+

C+

C+++

Python+

Go+

Hadoop+

HDFS+

Hive+

MapReduce+

还有更多 •••

登录查看完整学习资料

相关职位

大模型数据架构系统工程师-Seed

社招A176874

团队介绍：字节跳动豆包大模型团队（Seed）成立于 2023 年，致力于寻找通用智能的新方法，追求智能上限，并探索新的交互。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等，在中国、新加坡、美国等地设有实验室和岗位。豆包大模型团队在 AI 领域拥有长期愿景与决心，坚持深耕基础，期望成为世界一流的 AI 研究团队，为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力，支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责公司大模型系统研发、训练数据架构，主要为公司提供底层通用的训练数据框架（Dataloader）； 2、设计并实现高吞吐、高稳定、简单易用、可扩展、灵活可定制的Dataloader ； 3、深入了解业务场景，持续迭代升级架构以应对大模型技术发展对Dataloader不断涌现的新需求； 4、推动模型训练向更大规模、高可用方向不断进步。

更新于 2025-04-01北京

多模态数据服务工程师-Seed

社招3年以上A170071

团队介绍：字节跳动 Seed 团队成立于 2023 年，致力于寻找通用智能的新方法，追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等，在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心，坚持深耕基础，期望成为世界一流的 AI 研究团队，为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力，支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责千亿级别海量多模态数据的管理，包括视频、图像数据的存储，数据处理，数据安全，数据校验等等； 2、负责多模态数据链路基建的研发，追求极致的处理速度，达到百万QPS的处理能力； 3、大规模数据的分析以及可视化的建设，从数据中挖掘出影响模型训练结果的可能因素，从而帮助模型训练改进； 4、与算法同学深度合作，加速训练数据的获取，提升数据质量，支持模型结果数据评测，打造数据闭环； 5、支持多模态数据分析和数据可视化工作，降低数据的获取门槛，提升数据的使用价值。

更新于 2024-06-07北京

语音机器学习平台工程师-Seed

校招A45539

团队介绍：字节跳动 Seed 团队成立于 2023 年，致力于寻找通用智能的新方法，追求智能上限。团队研究方向涵盖 LLM、GenMedia、AI for Science、机器人等，在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心，坚持深耕基础，期望成为世界一流的 AI 研究团队，为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力，支持豆包、扣子、即梦等超过 50 个应用场景。 1、参与设计并实现高可用、可扩展、分布式机器学习平台，支持语音、音乐、多模态相关算法高效迭代； 2、构建大规模数据存储、处理、分析系统，保障Pretrain/SFT/RL各个阶段的训练数据生产，持续提升数据的规模、质量、多样性； 3、与算法同学深度合作，优化数据处理依赖的基础模型，并参与大模型的训练评测，通过数据驱动模型效果提升； 4、负责数据和AI Infrastructure前瞻技术的调研和引入，持续加强提升部门关键技术竞争力。

更新于 2025-08-19北京

机器人多模态大模型算法工程师-Seed

社招A242445

1、面向机器人应用场景探索多模态大模型技术，包括数据构建、指令微调、偏好对齐及模型优化等工作； 2、推动多模态大模型在机器人感知、定位、操作和交互等领域的创新应用，并致力于实现系统性能的极致优化。

更新于 2024-05-14北京