字节跳动大模型数据生产/分析实习生-Seed

实习兼职A181972A2026-03-23地点：北京状态：招聘

扫码手机上打开

任职要求

1、本科及以上学历在读，计算机、数据科学、统计等相关专业优先；
2、具备较强的数据分析能力，熟练使用Excel/SQL/Python中至少一种工具，能够独立完成数据清洗、分析和结论输出；
3、有A…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

日常实习：面向全体在校生，为符合岗位要求的同学提供为期3个月及以上的项目实践机会。
团队介绍：字节跳动 Seed 团队成立于 2023 年，致力于寻找通用智能的新方法，追求智能上限。团队研究方向涵盖 LLM、GenMedia、AI for Science、机器人等，在中国、新加坡、美国等地设有实验室和岗位。
Seed 团队在 AI 领域拥有长期愿景与决心，坚持深耕基础，期望成为世界一流的 AI 研究团队，为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力，支持豆包、扣子、即梦等超过 50 个应用场景。

1、负责大模型数据生产领域的运营分析工作，围绕供给、质量、效率等核心环节开展监控与诊断；
2、搭建并维护业务指标体系，输出日报、周报及专题分析报告，为资源策略制定和业务决策提供支持；
3、结合业务目标，分析专家资源配置、需求匹配效率、交付质量管控、流程转化效果等问题，推动策略优化；
4、参与大模型数据生产流程的设计与优化，提升整体运营效率；
5、协助搭建Agent或自动化工具，应用于数据生产、质检、分析提效等场景。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

数据科学+

数据分析+

Excel+

还有更多 •••

登录查看完整学习资料

相关职位

大模型数据生产/分析（通用方向）实习生-AI数据与安全

实习A161913A

日常实习：面向全体在校生，为符合岗位要求的同学提供为期3个月及以上的项目实践机会。团队介绍：AI数据与安全团队为Seed基座模型及AI原生应用提供跨模态数据服务，覆盖数据生产全流程，包含模型评估标准的制定、数据规模化生产、数据飞轮搭建，不断提升数据质量，支持模型快速迭代。团队由产品经理、数据工程、数据运营等跨职能人才组成，并通过与Seed研究员、行业专家、全球顶尖数据供应商紧密合作，从真实场景中收集反馈并分析模型表现数据，解决AI前沿突破过程中的复杂数据问题，推动模型性能与用户体验的双重提升。我们既是帮助模型技术迭代的一线贡献者，也是模型和AI产品的一手用户。 1、这个职位是连接前沿AI技术与深度专业知识的桥梁，你将不再仅仅是知识的创造者，而是整个知识增强项目的核心枢纽，负责管理从需求理解到数据交付的全链路流程，确保大模型在人文社科领域的认知与推理能力得到高效、高质量的提升； 2、与算法、产品团队紧密协作，深入理解大模型在特定领域的能力短板与迭代目标，将模糊的"模型能力提升需求"精准转化为清晰、可执行的数据生产任务与项目目标； 3、负责高质量数据生产项目的全生命周期管理，包括制定项目计划、定义数据标准、监控生产进度与风险，设计并优化数据生产的工作流，探索并落地可规模化、高效率的数据生产模式，确保项目按时、按质、按量交付； 4、建立并执行严格的数据验收标准与质检流程，对产出的结构化资料、评测数据集进行专业评估与验收，对数据质量问题进行归因分析，形成反馈闭环，持续指导和优化数据生产策略，推动数据质量的迭代提升； 5、负责领域专家资源的招募、培训与日常管理，构建并维护高质量的外部专家智库，为专家提供清晰的任务指引和必要的赋能培训，确保他们能够高效、准确地产出符合要求的数据，并对专家工作质量进行评估与管理。

更新于 2026-05-28北京

大模型数据研发工程师

实习阿里巴巴2027

1.参与大模型训练数据体系的构建，协助设计高质量、大规模数据的采集、清洗、评估与迭代机制； 2.探索多模态（文本、图像、音频、视频等）数据的内容理解、质量建模与特征提取方法，支持数据驱动的大模型优化； 3.参与Prompt工程相关技术研发，包括结构化指令设计、自动化生成策略及效果验证框架的实现； 4.协助开发可扩展的数据处理工具链，结合分布式计算与AI技术，提升全模态数据生产效率与一致性； 5.与算法、工程及产品团队协作，将前沿数据方法落地到实际训练流程中，并持续跟踪效果反馈。

更新于 2026-05-19北京|杭州

大模型数据开发工程师-【可灵AI专项】

社招3-5年J0011

1、参与超大规模 AIGC 训练数据生产体系建设，覆盖图片、视频、文本、音频等多模态数据的全生命周期管理，支撑世界领先的多模态生成模型训练需求； 2、与算法团队、AI infra团队深度协作，深入理解业务场景，持续迭代数据生产系统的稳定性、易用性，不断提升交付效率； 3、针对多模态训练数据的打标和训练特征的离线推理场景，优化推理吞吐和性能； 4、参与数据生产过程的资源整体利用率优化，包括异构资源调度、算力动态规划、弹性扩缩容等，降低单位数据生产成本。

更新于 2026-06-09北京

大模型数据工程师

社招3年以上核心本地商业-基

1、设计和开发分布式大模型数据平台，提供高性能、可扩展的数据处理链路，支撑LongCat基座、语言模型和多模态大模型的高效训练迭代； 2、构建海量数据的全生命周期管理体系，提供元信息、数据血缘、存储治理、可视化与可观测能力；探索数据实验和数据发版的工程上限； 3、深入理解大模型训练流程和数据策略，抽象并开发高效、可靠的数据加工框架，显著提升算法团队的数据工程效率； 4、与算法工程师紧密配合，设计数据策略解决方案，用工程能力放大数据对模型效果的杠杆作用。

更新于 2026-04-14北京