字节跳动大模型数据生产/分析实习生-Seed
任职要求
1、本科及以上学历在读,计算机、数据科学、统计等相关专业优先; 2、具备较强的数据分析能力,熟练使用Excel/SQL/Python中至少一种工具,能够独立完成数据清洗、分析和结论输出; 3、有A…
工作职责
日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、GenMedia、AI for Science、机器人等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责大模型数据生产领域的运营分析工作,围绕供给、质量、效率等核心环节开展监控与诊断; 2、搭建并维护业务指标体系,输出日报、周报及专题分析报告,为资源策略制定和业务决策提供支持; 3、结合业务目标,分析专家资源配置、需求匹配效率、交付质量管控、流程转化效果等问题,推动策略优化; 4、参与大模型数据生产流程的设计与优化,提升整体运营效率; 5、协助搭建Agent或自动化工具,应用于数据生产、质检、分析提效等场景。
团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限,为科技和社会发展作出贡献。 Seed 团队在 AI 领域拥有长期愿景与决心,团队研究方向涵盖 MLLM、GenMedia、AI for Science、机器人等,在中国、新加坡、美国等地设有实验室和岗位。目前,团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、即梦、TRAE 等超过 50 个应用场景,并通过火山引擎开放给企业客户。第三方数据显示,豆包 App 用户量在中国市场排名第一,豆包大模型日均 Token 调用量行业领先。 1、参与设计并实现高性能、可扩展、分布式大数据处理平台,通过数据驱动模型生产,支撑字节跳动智能语音相关业务算法生产与高效迭代; 2、与算法工程师密切配合,理解深度学习模型研发流程,负责/参与前沿模型研究中数据解决方案的设计、开发和维护; 3、持续提升平台数据生产效率、易用性、降低算法使用成本,探索业界前沿的多模态数据处理相关技术,设计并实现到数据平台中。
ByteIntern:面向2027届毕业生(2026年9月-2027年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:AI数据与安全团队为Seed基座模型及AI原生应用提供跨模态数据服务,覆盖数据生产全流程,包含模型评估标准的制定、数据规模化生产、数据飞轮搭建,不断提升数据质量,支持模型快速迭代。 团队由产品经理、数据工程、数据运营等跨职能人才组成,并通过与Seed研究员、行业专家、全球顶尖数据供应商紧密合作,从真实场景中收集反馈并分析模型表现数据,解决AI前沿突破过程中的复杂数据问题,推动模型性能与用户体验的双重提升。我们既是帮助模型技术迭代的一线贡献者,也是模型和AI产品的一手用户。 1、深入理解AI大模型视频通话场景,负责多模态对话、联网、Function Call等方向的数据采集、标注、质检与策略运营工作; 2、与产品研发团队紧密配合,快速沉淀多模态大模型数据理想态和标准,积极为模型后训提供数据策略和建议; 3、针对模型突出问题进行专项攻坚,通过设计PE策略、Workflow工作流等,探索更高效的数据生产方式。
ByteIntern:面向2027届毕业生(2026年9月-2027年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:AI数据与安全团队为Seed基座模型及AI原生应用提供跨模态数据服务,覆盖数据生产全流程,包含模型评估标准的制定、数据规模化生产、数据飞轮搭建,不断提升数据质量,支持模型快速迭代。 团队由产品经理、数据工程、数据运营等跨职能人才组成,并通过与Seed研究员、行业专家、全球顶尖数据供应商紧密合作,从真实场景中收集反馈并分析模型表现数据,解决AI前沿突破过程中的复杂数据问题,推动模型性能与用户体验的双重提升。我们既是帮助模型技术迭代的一线贡献者,也是模型和AI产品的一手用户。 1、负责大模型自动化评测研发工作,将各类评测集在内部平台集成开发,助力模型在各垂类方向的能力提升; 2、负责训练数据的有效性验证工作,通过模型训练、构建Agent等方式,判别有效训练数据,助力模型能力提升; 3、调研公开文献、公开评测集、训练方法,参与自建评测集等探索类工作,优秀成果可以支持学术论文发表; 4、探索智能、高效的模型评估和训练方案,主导开发相关工具。
ByteIntern:面向2027届毕业生(2026年9月-2027年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:AI数据与安全团队为Seed基座模型及AI原生应用提供跨模态数据服务,覆盖数据生产全流程,包含模型评估标准的制定、数据规模化生产、数据飞轮搭建,不断提升数据质量,支持模型快速迭代。 团队由产品经理、数据工程、数据运营等跨职能人才组成,并通过与Seed研究员、行业专家、全球顶尖数据供应商紧密合作,从真实场景中收集反馈并分析模型表现数据,解决AI前沿突破过程中的复杂数据问题,推动模型性能与用户体验的双重提升。我们既是帮助模型技术迭代的一线贡献者,也是模型和AI产品的一手用户。 1、评测体系建设:参与大模型评测的工程基础设施的开发工作,包括评测集的接入、生产、管理,评测对象的链路采样,人评/机评能力建设,评估结果的分析等评测核心能力的开发工作; 2、评测Agent搭建:探索自动评测、高质量评测集构建等前沿评测方法,在评测场景搭建AI Agent,为评测业务提供端到端的高效、自动化的交付能力。