logo of bytedance

字节跳动LLM数据产品经理-Seed

社招全职3年以上A84559A地点:北京状态:招聘

任职要求


1、具备3年以上数据产品或数据分析相关经验,有数据治理、数据流程梳理、数据资产管理相关背景优先;
2、熟悉大模型或机器学习训练流程者优先,有数据标注、样本配比、数据追踪经验者加分;
3、具备一定的数据处理与分析…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责数据清洗与治理,协同数据工程师与算法团队,对原始训练数据进行收口、分类、清洗、脱敏、结构化;深入理解各类数据的来源、特性与用途,确保数据质量与合规性;追踪数据生命周期,确保数据可追溯、可还原、可解释;
2、负责数据归档与版本管理,设计并维护训练数据的归档策略、数据标注规范、数据版本体系,管理“哪些数据用于训练,哪些未被使用”的元信息及其配比记录,负责训练数据的文档化,包括数据源描述、处理流程、清洗策略、抽样配比等关键信息;
3、产品化协作与技术对接,作为数据产品接口人,与算法、数据工程、平台团队密切合作,推动训练数据产品方案的落地;与研发团队共同推进数据平台的能力建设与数据工具链打通,提升数据处理效率与规范性,推进训练数据资产的可复用性与积累性,持续构建结构化数据资产池;
4、数据使用策略与监控,与模型团队配合,输出不同训练任务的数据构成建议,制定数据使用与采样策略,建立关键数据指标监控机制,评估数据质量对模型效果的影响。
包括英文材料
数据分析+
数据治理+
大模型+
还有更多 •••
相关职位

logo of bytedance
社招1-2年A22500A

1、项目管理能力优秀,能够主导并管理多个代码类大语言模型(LLM)训练项目,确保按时交付、符合质量标准并达成目标;跟踪项目进展,识别风险,并采取必要的纠正措施以保证项目按计划推进;与产品经理、研究员、数据标注员及其他跨职能团队成员建立并维护良好的合作关系,同步项目进展,解决问题并协调各方期望,确保项目成功交付; 2、流程设计及优化,设计、管理并优化代码类LLM训练项目的工作流程,包括训练设计、质量保证(QA)流程及效果追踪,以满足项目需求;与产品经理、项目负责人及跨职能团队紧密协作,确保质量标准与项目目标保持一致; 3、运营优化,开展质量与效率优化实验,提升代码类训练数据的运营流程;主导并支持跨数据领域的通用标注运营优化计划;制定并维护技术指南及案例手册,确保数据生产的高质量与一致性; 4、数据监控及分析,设计并实施稳健的数据分析策略,系统评估训练集与验证集质量通过统计建模、可视化分析及编程方法,全面监测标注质量、模型表现及数据集覆盖度采用分片评估、提示词敏感性测试及聚类错误分析,精准识别数据缺口、边界案例与失效模式,运用Python(Pandas/NumPy/Matplotlib)及SQL工具链,生成可落地的改进建议,保障数据管道健康度,与模型训练标注员及研发紧密协作,基于数据洞察指导训练策略调整,推动以数据为核心的项目迭代。

更新于 2025-05-26北京
logo of bytedance
社招5年以上A247441A

1、与技术团队合作,定位在海外市场中LLM对齐训练所需的数据; 2、开发对齐数据采集和生产的方法,确保数据质量保持在高标准,并根据定量和定性反馈不断改进流程; 3、评估数据生产工具对数据生产的有效性和质量的影响;不断提高人工和合成数据的效率和效果上限; 4、与业务团队合作,将字节跳动自研的LLM整合到新的和现有的代码产品及服务中;通过对用户行为和反馈的研究,确定自研代码产品的改进空间。

更新于 2025-06-19北京
logo of bytedance
实习A247254

ByteIntern:面向2027届毕业生(2026年9月-2027年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:AI数据与安全团队为Seed基座模型及AI原生应用提供跨模态数据服务,覆盖数据生产全流程,包含模型评估标准的制定、数据规模化生产、数据飞轮搭建,不断提升数据质量,支持模型快速迭代。 团队由产品经理、数据工程、数据运营等跨职能人才组成,并通过与Seed研究员、行业专家、全球顶尖数据供应商紧密合作,从真实场景中收集反馈并分析模型表现数据,解决AI前沿突破过程中的复杂数据问题,推动模型性能与用户体验的双重提升。我们既是帮助模型技术迭代的一线贡献者,也是模型和AI产品的一手用户。 1、评测体系建设:参与大模型评测的工程基础设施的开发工作,包括评测集的接入、生产、管理,评测对象的链路采样,人评/机评能力建设,评估结果的分析等评测核心能力的开发工作; 2、评测Agent搭建:探索自动评测、高质量评测集构建等前沿评测方法,在评测场景搭建AI Agent,为评测业务提供端到端的高效、自动化的交付能力。

更新于 2026-04-16北京
logo of xiaohongshu
社招5-10年引擎

我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架,优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline; 2、研发支持多机多卡 RL 的分布式训练框架,开发TP/PP/ZeRO-3与RL流程的动态协同机制,解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链,主导框架与 MLOps 平台集成,提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作,参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代; 5、参与分析各业务 GPU 利用率与饱和度等指标,结合业务场景持续优化训练框架能力,提升框架领先性。

更新于 2026-03-28上海|北京