字节跳动基于主动进化技术的AI coding数据合成方案探索-AI数据与安全（北京/深圳）

校招全职A43945B2026-04-15地点：北京状态：招聘

扫码手机上打开

任职要求

1、2027届毕业，获得博士学位，计算机科学与技术、数学、统计学、人工智能等相关专业；
2、具备扎实的机器学习、深度学习理论基础，熟悉主流深度学习框架，有丰富的模型训练与调优经验；
3、熟练掌握Python编程，具备良好的代码编写规范和工程实践能力，能够独立完成复杂算法的代码实现；
4、在ACL、ICLR…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

团队介绍：AI 数据与安全团队为 Seed 基座模型及 AI 原生应用提供跨模态数据服务，覆盖数据生产全流程，包含模型评估标准的制定、数据规模化生产、数据飞轮搭建，不断提升数据质量，支持模型快速迭代。
团队由产品经理、数据工程、数据运营等跨职能人才组成，并通过与 Seed 研究员、行业专家、全球顶尖数据供应商紧密合作，从真实场景中收集反馈并分析模型表现数据，解决 AI 前沿突破过程中的复杂数据问题，推动模型性能与用户体验的双重提升。我们既是帮助模型技术迭代的一线贡献者，也是模型和 AI 产品的一手用户。

课题介绍：
AI Coding是当前大模型领域最热门的方向之一，高质量的Code训练数据和完善的模型评估机制是决定大模型Coding能力上限的关键因素。本课题通过探索基于主动学习技术的Code数据合成方案，系统性优化Code数据生产过程中存在的生产效率低、数据质量不佳、模型评估机制不完善等痛点问题。

课题挑战：
1、动态抗污染Benchmark 构建：针对评测集易污染、静态固化问题，构建具备防泄露机制的评测基准体系；建立动态更新迭代机制，适配模型能力演进与场景拓展，打造稳定可靠的评测标尺；
2、基于主动学习与自博弈的数据合成方法：以主动学习筛选策略结合智能体环境模拟，替代高成本人工标注，实现数据自动化、规模化生成；引入自进化与自博弈机制，定向挖掘模型薄弱领域，合成高价值演化数据，补齐能力短板；
3、低成本数据质量评估方法：突破单一语义评估局限，构建多维度质量刻画体系，探索轻量化评估路径以适配海量数据需求；建立数据特征与模型效果的强关联机制，形成可量化、可追溯的综合评估体系。

课题价值：
构建 Coding Agent自动化数据合成与主动学习管线，建立数据质量及模型性能评估标准，精准刻画数据与能力边界，降低评估成本，提升豆包大模型在复杂长程SWE任务中的表现。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

机器学习+

深度学习+

Python+

算法+

还有更多 •••

登录查看完整学习资料