logo of bytedance

字节跳动基于主动进化技术的AI coding数据合成方案探索-AI数据与安全(北京/深圳)

校招全职A43945B地点:北京状态:招聘

任职要求


1、2027届毕业,获得博士学位,计算机科学与技术、数学、统计学、人工智能等相关专业;
2、具备扎实的机器学习深度学习理论基础,熟悉主流深度学习框架,有丰富的模型训练与调优经验;
3、熟练掌握Python编程,具备良好的代码编写规范和工程实践能力,能够独立完成复杂算法的代码实现;
4、在ACL、ICLR…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


团队介绍:AI 数据与安全团队为 Seed 基座模型及 AI 原生应用提供跨模态数据服务,覆盖数据生产全流程,包含模型评估标准的制定、数据规模化生产、数据飞轮搭建,不断提升数据质量,支持模型快速迭代。
团队由产品经理、数据工程、数据运营等跨职能人才组成,并通过与 Seed 研究员、行业专家、全球顶尖数据供应商紧密合作,从真实场景中收集反馈并分析模型表现数据,解决 AI 前沿突破过程中的复杂数据问题,推动模型性能与用户体验的双重提升。我们既是帮助模型技术迭代的一线贡献者,也是模型和 AI 产品的一手用户。

课题介绍:
AI Coding是当前大模型领域最热门的方向之一,高质量的Code训练数据和完善的模型评估机制是决定大模型Coding能力上限的关键因素。本课题通过探索基于主动学习技术的Code数据合成方案,系统性优化Code数据生产过程中存在的生产效率低、数据质量不佳、模型评估机制不完善等痛点问题。

课题挑战:
1、动态抗污染Benchmark 构建:针对评测集易污染、静态固化问题,构建具备防泄露机制的评测基准体系;建立动态更新迭代机制,适配模型能力演进与场景拓展,打造稳定可靠的评测标尺;
2、基于主动学习与自博弈的数据合成方法:以主动学习筛选策略结合智能体环境模拟,替代高成本人工标注,实现数据自动化、规模化生成;引入自进化与自博弈机制,定向挖掘模型薄弱领域,合成高价值演化数据,补齐能力短板;
3、低成本数据质量评估方法:突破单一语义评估局限,构建多维度质量刻画体系,探索轻量化评估路径以适配海量数据需求;建立数据特征与模型效果的强关联机制,形成可量化、可追溯的综合评估体系。

课题价值:
构建 Coding Agent自动化数据合成与主动学习管线,建立数据质量及模型性能评估标准,精准刻画数据与能力边界,降低评估成本,提升豆包大模型在复杂长程SWE任务中的表现。
包括英文材料
学历+
机器学习+
深度学习+
Python+
算法+
还有更多 •••