字节跳动基于主动进化技术的AI coding数据合成方案探索-AI数据与安全(北京/深圳)
校招全职A43945B地点:北京状态:招聘
任职要求
1、2027届毕业,获得博士学位,计算机科学与技术、数学、统计学、人工智能等相关专业; 2、具备扎实的机器学习、深度学习理论基础,熟悉主流深度学习框架,有丰富的模型训练与调优经验; 3、熟练掌握Python编程,具备良好的代码编写规范和工程实践能力,能够独立完成复杂算法的代码实现; 4、在ACL、ICLR…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
团队介绍:AI 数据与安全团队为 Seed 基座模型及 AI 原生应用提供跨模态数据服务,覆盖数据生产全流程,包含模型评估标准的制定、数据规模化生产、数据飞轮搭建,不断提升数据质量,支持模型快速迭代。 团队由产品经理、数据工程、数据运营等跨职能人才组成,并通过与 Seed 研究员、行业专家、全球顶尖数据供应商紧密合作,从真实场景中收集反馈并分析模型表现数据,解决 AI 前沿突破过程中的复杂数据问题,推动模型性能与用户体验的双重提升。我们既是帮助模型技术迭代的一线贡献者,也是模型和 AI 产品的一手用户。 课题介绍: AI Coding是当前大模型领域最热门的方向之一,高质量的Code训练数据和完善的模型评估机制是决定大模型Coding能力上限的关键因素。本课题通过探索基于主动学习技术的Code数据合成方案,系统性优化Code数据生产过程中存在的生产效率低、数据质量不佳、模型评估机制不完善等痛点问题。 课题挑战: 1、动态抗污染Benchmark 构建:针对评测集易污染、静态固化问题,构建具备防泄露机制的评测基准体系;建立动态更新迭代机制,适配模型能力演进与场景拓展,打造稳定可靠的评测标尺; 2、基于主动学习与自博弈的数据合成方法:以主动学习筛选策略结合智能体环境模拟,替代高成本人工标注,实现数据自动化、规模化生成;引入自进化与自博弈机制,定向挖掘模型薄弱领域,合成高价值演化数据,补齐能力短板; 3、低成本数据质量评估方法:突破单一语义评估局限,构建多维度质量刻画体系,探索轻量化评估路径以适配海量数据需求;建立数据特征与模型效果的强关联机制,形成可量化、可追溯的综合评估体系。 课题价值: 构建 Coding Agent自动化数据合成与主动学习管线,建立数据质量及模型性能评估标准,精准刻画数据与能力边界,降低评估成本,提升豆包大模型在复杂长程SWE任务中的表现。
包括英文材料
学历+
机器学习+
https://www.youtube.com/watch?v=0oyDqO8PjIg
Learn about machine learning and AI with this comprehensive 11-hour course from @LunarTech_ai.
https://www.youtube.com/watch?v=i_LwzRVP7bg
Learn Machine Learning in a way that is accessible to absolute beginners.
https://www.youtube.com/watch?v=NWONeJKn6kc
Learn the theory and practical application of machine learning concepts in this comprehensive course for beginners.
https://www.youtube.com/watch?v=PcbuKRNtCUc
Learn about all the most important concepts and terms related to machine learning and AI.
深度学习+
https://d2l.ai/
Interactive deep learning book with code, math, and discussions.
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
还有更多 •••