字节跳动LLM数据产品经理-Seed

社招全职3年以上A84559A2025-06-26地点：北京状态：招聘

扫码手机上打开

任职要求

1、具备3年以上数据产品或数据分析相关经验，有数据治理、数据流程梳理、数据资产管理相关背景优先；
2、熟悉大模型或机器学习训练流程者优先，有数据标注、样本配比、数据追踪经验者加分；
3、具备一定的数据处理与分析…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、负责数据清洗与治理，协同数据工程师与算法团队，对原始训练数据进行收口、分类、清洗、脱敏、结构化；深入理解各类数据的来源、特性与用途，确保数据质量与合规性；追踪数据生命周期，确保数据可追溯、可还原、可解释；
2、负责数据归档与版本管理，设计并维护训练数据的归档策略、数据标注规范、数据版本体系，管理“哪些数据用于训练，哪些未被使用”的元信息及其配比记录，负责训练数据的文档化，包括数据源描述、处理流程、清洗策略、抽样配比等关键信息；
3、产品化协作与技术对接，作为数据产品接口人，与算法、数据工程、平台团队密切合作，推动训练数据产品方案的落地；与研发团队共同推进数据平台的能力建设与数据工具链打通，提升数据处理效率与规范性，推进训练数据资产的可复用性与积累性，持续构建结构化数据资产池；
4、数据使用策略与监控，与模型团队配合，输出不同训练任务的数据构成建议，制定数据使用与采样策略，建立关键数据指标监控机制，评估数据质量对模型效果的影响。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

数据分析+

数据治理+

大模型+

还有更多 •••

登录查看完整学习资料

相关职位

大语言模型数据管理专家（代码方向）-Seed

社招1-2年A22500A

1、项目管理能力优秀，能够主导并管理多个代码类大语言模型（LLM）训练项目，确保按时交付、符合质量标准并达成目标；跟踪项目进展，识别风险，并采取必要的纠正措施以保证项目按计划推进；与产品经理、研究员、数据标注员及其他跨职能团队成员建立并维护良好的合作关系，同步项目进展，解决问题并协调各方期望，确保项目成功交付； 2、流程设计及优化，设计、管理并优化代码类LLM训练项目的工作流程，包括训练设计、质量保证（QA）流程及效果追踪，以满足项目需求；与产品经理、项目负责人及跨职能团队紧密协作，确保质量标准与项目目标保持一致； 3、运营优化，开展质量与效率优化实验，提升代码类训练数据的运营流程；主导并支持跨数据领域的通用标注运营优化计划；制定并维护技术指南及案例手册，确保数据生产的高质量与一致性； 4、数据监控及分析，设计并实施稳健的数据分析策略，系统评估训练集与验证集质量通过统计建模、可视化分析及编程方法，全面监测标注质量、模型表现及数据集覆盖度采用分片评估、提示词敏感性测试及聚类错误分析，精准识别数据缺口、边界案例与失效模式，运用Python（Pandas/NumPy/Matplotlib）及SQL工具链，生成可落地的改进建议，保障数据管道健康度，与模型训练标注员及研发紧密协作，基于数据洞察指导训练策略调整，推动以数据为核心的项目迭代。

更新于 2025-05-26北京

Code Agent训练产品经理-Seed

社招5年以上A247441A

1、与技术团队合作，定位在海外市场中LLM对齐训练所需的数据； 2、开发对齐数据采集和生产的方法，确保数据质量保持在高标准，并根据定量和定性反馈不断改进流程； 3、评估数据生产工具对数据生产的有效性和质量的影响；不断提高人工和合成数据的效率和效果上限； 4、与业务团队合作，将字节跳动自研的LLM整合到新的和现有的代码产品及服务中；通过对用户行为和反馈的研究，确定自研代码产品的改进空间。

更新于 2025-06-19北京

大模型评测实习生-AI数据与安全

实习A247254

ByteIntern：面向2027届毕业生（2026年9月-2027年8月期间毕业），为符合岗位要求的同学提供转正机会。团队介绍：AI数据与安全团队为Seed基座模型及AI原生应用提供跨模态数据服务，覆盖数据生产全流程，包含模型评估标准的制定、数据规模化生产、数据飞轮搭建，不断提升数据质量，支持模型快速迭代。团队由产品经理、数据工程、数据运营等跨职能人才组成，并通过与Seed研究员、行业专家、全球顶尖数据供应商紧密合作，从真实场景中收集反馈并分析模型表现数据，解决AI前沿突破过程中的复杂数据问题，推动模型性能与用户体验的双重提升。我们既是帮助模型技术迭代的一线贡献者，也是模型和AI产品的一手用户。 1、评测体系建设：参与大模型评测的工程基础设施的开发工作，包括评测集的接入、生产、管理，评测对象的链路采样，人评/机评能力建设，评估结果的分析等评测核心能力的开发工作； 2、评测Agent搭建：探索自动评测、高质量评测集构建等前沿评测方法，在评测场景搭建AI Agent，为评测业务提供端到端的高效、自动化的交付能力。

更新于 2026-04-16北京

大模型训练框架研发工程师/专家

社招5-10年引擎

我们是小红书中台大模型 Infra 团队，专注打造领先易用的「AI 大模型全链路基础设施」！团队深耕大模型「数-训-压-推-评」技术闭环，在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势，基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品，持续赋能社区、商业、交易、安全、数平、研效等多个核心业务，实现 AI 技术高效落地！ 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架，优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline； 2、研发支持多机多卡 RL 的分布式训练框架，开发TP/PP/ZeRO-3与RL流程的动态协同机制，解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链，主导框架与 MLOps 平台集成，提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作，参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代； 5、参与分析各业务 GPU 利用率与饱和度等指标，结合业务场景持续优化训练框架能力，提升框架领先性。

更新于 2026-03-28上海|北京