logo of tencent

腾讯大模型Code/Agent后训练算法研究员-(深圳)or(北京)or

社招全职2年以上微信支付技术地点:上海状态:招聘

任职要求


1.计算机、人工智能等相关专业硕士以上学历;
2.有大规模强化学习大模型Code/Agent研发相关经验者优先;
3.具有扎实的深度学习算法基础,熟悉深度学习框架和分布式训练推理加…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.负责Code和Agent相关数据构建与治理,构建高质量、多样化的Code/Agent训练数据集,搭建数据迭代闭环,通过数据飞轮持续优化数据质量;
2.负责Agent运行环境与训练环境的构建与优化,构建高可用、可扩展的Agent仿真环境,保障Agent训练、测试及落地的稳定性与高效性;
3.负责Agentic RL在Code/Agent场景的训练,参与Agentic RL Infra建设及优化、Agentic RL 算法优化,持续提升Agentic RL训练的效率和稳定性。
包括英文材料
学历+
强化学习+
大模型+
还有更多 •••
相关职位

logo of moonton
校招技术岗位

1.负责AIGC多模态大模型相关的算法模块的研发、架构设计、模型后训练、数据构建和效果评估等工作,包括各模态tokenizer设计,数据合成策略,以及跨模态融合后训练策略等,参与实现游戏领域定制化的文生图像/视频、图像/视频理解和编辑等多模态大模型的技术落地; 2.参与文本、代码、图像、视频等多模态内容的生成与理解相关算法研发与优化,熟悉包括RAG技术栈和Code理解/生成技术栈等,并支撑相应算法高效落地到游戏的各管线及工作流中; 3.进行大模型reasoning能力的相关算法探索,研究SFT/GRPO/self-play等技术,提高模型在游戏引擎代码库等场景涉及的推理任务上的表现,参与落地游戏领域具有业务问题解決能力的agent; 4.跟进大模型、多模态、强化学习、智能体的前沿算法技术研究,支持强化学习在游戏 bot 中的算法落地应用,把握AIGC生成技术的最新前沿技术发展趋势。

更新于 2025-07-29上海
logo of antgroup
社招5年以上技术类-算法

1. Code Agent 强化学习训练体系设计与落地 负责大规模语言模型在后训练阶段(Post-Training)面向 Code Agent 场景的核心算法研发,设计端到端的 RL 训练流程,涵盖代码生成、代码编辑、调试修复、测试驱动开发等多环节 Agent 行为的策略学习,探索在超长代码上下文与多轮工具交互场景下的训练稳定性与样本效率。 2. 代码环境交互与多步决策优化 构建真实且可扩展的代码执行沙箱环境(Sandbox),支持 Agent 与编译器、终端、测试框架、版本控制系统等工具的闭环交互;研究多步代码推理与规划算法(如 Tree-of-Thought、Monte Carlo Tree Search 在代码任务中的适配),提升模型在跨文件编辑、大型仓库级代码理解与修改、复杂 Debug 链路上的决策质量。 3. 代码奖励信号设计与奖励模型构建 设计多层次、细粒度的代码奖励信号体系,融合可执行性验证(编译通过、测试用例通过率)、代码质量评估(可读性、效率、安全性)、需求对齐度等多维度反馈;研究如何利用自动化测试生成、变异测试(Mutation Testing)、静态分析工具等构建可靠的过程奖励模型(Process Reward Model),解决代码场景中奖励稀疏、奖励欺骗(Reward Hacking)以及部分可观测性等核心难题。 4. 泛化性与迁移能力提升 研究如何通过后训练阶段的课程学习(Curriculum Learning)、跨语言/跨领域任务混合训练、元学习(Meta-Learning)等策略,提升 Code Agent 在未见编程语言、未见框架、未见任务类型上的零样本与少样本泛化能力;探索代码推理能力向通用推理(数学、逻辑、科学问题)的正向迁移路径,推动模型整体 AGI 泛化水平。 5. 数据飞轮与自我进化机制 设计 Code Agent 的自我对弈与自我改进闭环:通过 Agent 自主探索生成高质量训练轨迹(Trajectory),结合拒绝采样(Rejection Sampling)、自我验证(Self-Verification)、自我修复(Self-Repair)等机制构建可持续的数据飞轮,实现模型能力的迭代自举(Bootstrapping),减少对人工标注数据的依赖。 6. 大规模分布式训练系统与工程协同 与基础架构团队紧密协作,针对 Code Agent 训练中环境交互延迟高、轨迹长度动态变化、Action Space 复杂等特点,设计并优化异步/同步混合的大规模分布式 RL 训练架构;解决长序列代码上下文下的显存瓶颈与吞吐效率问题,实现算法创新与系统性能的高效协同。

更新于 2026-03-30上海|杭州
logo of tongyi
社招3年以上技术类-算法

大模型开启了崭新的智能化时代,代码智能化将是智能化革命的核心力量。围绕AI Coding,从code model到coding copilot再到coding agent,我们进行了深入的技术建设,打造了国内最受欢迎的智能编码助手通义灵码,并不断探索新的产品形态,欢迎一起来做改变世界的代码智能技术,具体详见:https://tongyi.aliyun.com/lingma 职位描述: 1. 负责软件工程大模型(Agentic LLM for Software Engineering)的训练和研究等,包括但不限于Agentic RL、Reward Systems、Environment Scaling等。 2. 打造自主编码智能体的核心技术,包括但不限于Memory、Context Engineering、Tools-use、Reasoning等。 3. 将上述技术在通义灵码及其他创新产品中进行大规模应用落地。

更新于 2025-10-29北京|杭州
logo of tongyi
校招通义2026届秋

通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备多模态、多语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从亿级到万亿级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 Coder团队致力于构建能够执行、扩展并自我进化的自主系统,通过构建超智能的coding agent/digital agent,扩展数字世界,为迈向真实世界的智能奠定基础。 工作职责: 1. 负责通用模型 Qwen 的代码能力和代码专有模型 Qwen-Coder 的构建。 (1)包括但不限于数据收集、预训练、后训练(强化学习)、评测等方向上的探索。 (2)通过Large-scale Pre-training 和 Large-scaleRL来提升Code Reasoning能力,在专家级编程竞赛超越人类,并构建 Coding Agent 来解决真实世界软件开发任务; 2. 负责Computer-Use Agent (GUI-Agent)的建设,以最直观的方式—鼠标、键盘、编码等操作来代替人类执行数字世界任务。 (1)通过Scaling海量数字世界数据结合大规模合成数据,来提升Computer-Use Agent的Grouding能力。 (2)通过Long Horizon的方式进行强化训练,结合可扩展的多模态环境反馈来提升CU Agent的Reasoning的能力。

更新于 2025-08-22北京|杭州|上海