字节跳动大语言模型数据管理专家(代码方向)-Seed
任职要求
1、计算机科学、相关技术领域本科及以上学历,1-2年软件工程项目管理或运营管理相关工作经验,1-2年编程语言(如Python/Java/Go/C)实战经验; 2、优秀的沟通与问题解决能力,能清晰理解并传达代码相关概念,具备扎实的项目管理能力,擅长设计、管理及优化复杂工作流程; 3、具备英文读写能力,能与海内外英文团队顺畅沟通,兼具独立判断与团队协作能力,适应快节奏、项目制工作环境,对大语言模…
工作职责
1、项目管理能力优秀,能够主导并管理多个代码类大语言模型(LLM)训练项目,确保按时交付、符合质量标准并达成目标;跟踪项目进展,识别风险,并采取必要的纠正措施以保证项目按计划推进;与产品经理、研究员、数据标注员及其他跨职能团队成员建立并维护良好的合作关系,同步项目进展,解决问题并协调各方期望,确保项目成功交付; 2、流程设计及优化,设计、管理并优化代码类LLM训练项目的工作流程,包括训练设计、质量保证(QA)流程及效果追踪,以满足项目需求;与产品经理、项目负责人及跨职能团队紧密协作,确保质量标准与项目目标保持一致; 3、运营优化,开展质量与效率优化实验,提升代码类训练数据的运营流程;主导并支持跨数据领域的通用标注运营优化计划;制定并维护技术指南及案例手册,确保数据生产的高质量与一致性; 4、数据监控及分析,设计并实施稳健的数据分析策略,系统评估训练集与验证集质量通过统计建模、可视化分析及编程方法,全面监测标注质量、模型表现及数据集覆盖度采用分片评估、提示词敏感性测试及聚类错误分析,精准识别数据缺口、边界案例与失效模式,运用Python(Pandas/NumPy/Matplotlib)及SQL工具链,生成可落地的改进建议,保障数据管道健康度,与模型训练标注员及研发紧密协作,基于数据洞察指导训练策略调整,推动以数据为核心的项目迭代。
1、搭建具有通用性和可拓展性的NLP标注框架,与算法团队对齐标准、撰写相关培训方案,根据模型迭代方向提供高质量数据; 2、负责大语言模型训练过程中各阶段数据生产,对自动化链路搭建、数据质量评估及外部资源管理负责,确保大语言模型训练数据有效; 3、能通过PE、代码完成数据预处理、分析和清洗,按照训练需求进行标注、分析和验证调优,提升模型效果; 4、与产品算法团队协同,积极探索自动化数据生产、数据合成等方法,提高数据标注效率,持续跟踪大模型技术进展,持续探索智能高效的数据生产模式。
1、搭建具有通用性和可拓展性的TTS标注框架,与算法团队对齐标准、撰写相关培训方案,根据模型迭代方向提供高质量数据; 2、负责大语言模型训练过程中各阶段数据生产,对自动化链路搭建、数据质量评估及外部资源管理负责,确保大语言模型训练数据有效; 3、能通过PE、代码完成数据预处理、分析和清洗,按照训练需求进行标注、分析和验证调优,提升模型效果; 4、与产品算法团队协同,积极探索自动化数据生产、数据合成等方法,提高数据标注效率,持续跟踪大模型技术进展,持续探索智能高效的数据生产模式。
1、制定AI模型评估在代码方向的评估标准,主导评估体系构建,主导AI模型评估工作; 2、探索智能、高效的模型自动化评估方案,主导开发评估工具; 3、调研公开评测方法,并将公开评测集集成至内部平台。
运用大数据、人工智能、机器学习等能力和工具,通过数据驱动和智能化手段,构建智能化风险体系,通过AI驱动数据沉淀、分析与决策闭环,提升业务风险识别与防控效果。 ● 数据沉淀与治理:梳理风险相关业务流程与数据口径,推动数据采集、清洗、标注,建立可复用的数据资产(指标、标签、特征、样本集等),持续提升数据可用性; ● AI能力在风控场景落地:结合业务需求,推动AI工具/模型在风险识别、预警、稽核等场景的产品化落地(如智能辅助、自动化分流、风险提示等); ● 评估并集成AI工具链(如LLM、AutoML、NLP模型等),优化数据处理流程(例:非结构化文本解析、异常检测自动化); ● 需求管理与跨团队协作:能够把风险问题抽象为产品需求,输出需求文档;高效对接算法/开发团队,推动模型训练、数据管道及系统功能落地; ● 持续跟踪AI产品上线后的效果,收集用户反馈,进行数据分析,不断优化产品功能和用户体验。