logo of bytedance

字节跳动大语言模型数据管理专家(代码方向)-Seed

社招全职1-2年A22500A地点:北京状态:招聘

任职要求


1、计算机科学、相关技术领域本科及以上学历,1-2年软件工程项目管理或运营管理相关工作经验,1-2年编程语言(如Python/Java/Go/C)实战经验;
2、优秀的沟通与问题解决能力,能清晰理解并传达代码相关概念,具备扎实的项目管理能力,擅长设计、管理及优化复杂工作流程;
3、具备英文读写能力,能与海内外英文团队顺畅沟通,兼具独立判断与团队协作能力,适应快节奏、项目制工作环境,对大语言模型(LLM)和计算思维有浓厚兴趣;
4、参加过区域性或国际性代码竞赛(如Codeforces、CPC等),或具有RLHF标注经验,曾与AI/LLM公司合作技术项目,熟悉代码库管理及软件开发流程,掌握代码最佳实践和版本控制系统(例如Git),了解全栈开发概念,包括前端界面、后端逻辑和数据库集成;
5、对技术学习充满热情,善于处理多样化技术案例,使用跨国团队协作,熟练使用提升项目效能的技术工具。

工作职责


1、项目管理能力优秀,能够主导并管理多个代码类大语言模型(LLM)训练项目,确保按时交付、符合质量标准并达成目标;跟踪项目进展,识别风险,并采取必要的纠正措施以保证项目按计划推进;与产品经理、研究员、数据标注员及其他跨职能团队成员建立并维护良好的合作关系,同步项目进展,解决问题并协调各方期望,确保项目成功交付;
2、流程设计及优化,设计、管理并优化代码类LLM训练项目的工作流程,包括训练设计、质量保证(QA)流程及效果追踪,以满足项目需求;与产品经理、项目负责人及跨职能团队紧密协作,确保质量标准与项目目标保持一致;
3、运营优化,开展质量与效率优化实验,提升代码类训练数据的运营流程;主导并支持跨数据领域的通用标注运营优化计划;制定并维护技术指南及案例手册,确保数据生产的高质量与一致性;
4、数据监控及分析,设计并实施稳健的数据分析策略,系统评估训练集与验证集质量通过统计建模、可视化分析及编程方法,全面监测标注质量、模型表现及数据集覆盖度采用分片评估、提示词敏感性测试及聚类错误分析,精准识别数据缺口、边界案例与失效模式,运用Python(Pandas/NumPy/Matplotlib)及SQL工具链,生成可落地的改进建议,保障数据管道健康度,与模型训练标注员及研发紧密协作,基于数据洞察指导训练策略调整,推动以数据为核心的项目迭代。
包括英文材料
学历+
Python+
Java+
Go+
C+
大模型+
Git+
相关职位

logo of bytedance
社招3年以上A156693

1、搭建具有通用性和可拓展性的NLP标注框架,与算法团队对齐标准、撰写相关培训方案,根据模型迭代方向提供高质量数据; 2、负责大语言模型训练过程中各阶段数据生产,对自动化链路搭建、数据质量评估及外部资源管理负责,确保大语言模型训练数据有效; 3、能通过PE、代码完成数据预处理、分析和清洗,按照训练需求进行标注、分析和验证调优,提升模型效果; 4、与产品算法团队协同,积极探索自动化数据生产、数据合成等方法,提高数据标注效率,持续跟踪大模型技术进展,持续探索智能高效的数据生产模式。

更新于 2025-05-20
logo of bytedance
社招3年以上A197094

1、搭建具有通用性和可拓展性的TTS标注框架,与算法团队对齐标准、撰写相关培训方案,根据模型迭代方向提供高质量数据; 2、负责大语言模型训练过程中各阶段数据生产,对自动化链路搭建、数据质量评估及外部资源管理负责,确保大语言模型训练数据有效; 3、能通过PE、代码完成数据预处理、分析和清洗,按照训练需求进行标注、分析和验证调优,提升模型效果; 4、与产品算法团队协同,积极探索自动化数据生产、数据合成等方法,提高数据标注效率,持续跟踪大模型技术进展,持续探索智能高效的数据生产模式。

更新于 2025-02-08
logo of bytedance
社招A152364

1、制定AI模型评估在代码方向的评估标准,主导评估体系构建,主导AI模型评估工作; 2、探索智能、高效的模型自动化评估方案,主导开发评估工具; 3、调研公开评测方法,并将公开评测集集成至内部平台。

更新于 2025-02-05
logo of xiaohongshu
社招5-10年引擎

我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、参与/负责研发面向大语言模型(LLM)/多模态大模型(MLLM)等类型模型的推理服务框架; 2、通过并行计算优化、分布式架构优化、异构调度等多种框架技术,打造高效、易用、领先的AI推理框架; 2、深度参与周边深度学习系统多个子方向的工作,包括但不限于模型管理、推理部署、日志/监控、工作流编排等; 3、与全公司各业务算法部门深度合作,为重点项目进行算法与系统的联合优化,支撑业务目标达成。

更新于 2025-10-18