阿里巴巴阿里国际站/Alibaba.com-Agent后训练算法工程师/专家-Accio Work-杭州

社招全职3年以上技术类-算法2026-07-23地点：杭州状态：招聘

扫码手机上打开

任职要求

1、硕士及以上学历，计算机、电子、人工智能、自动化、数学等相关专业优先；
2、具备大模型后训练相关研究/落地经验者优先；
3、具备Agent训练经验，以及熟悉Agent前沿技术与底层原理者优先；
4、具有良好的问题分析解决能力，沟通协作能力，工作积极主动，能够与团队融洽合作，一起探索新技术，推进技术进步。

加分项
1、具有扎实的机器学习基础，熟悉CV、NLP、RL、ML、多模态理解、搜推广等领域的技术，在ICML、ACL、EMNLP、CVPR、ECCV、ICCV、NeurIPS、ICLR、KDD、WWW、SIGIR、Recsys、SIGGRAPH或SI…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

Accio Work是阿里巴巴国际数字商业集团阿里国际站内部孵化的一款战略级AI原生应用产品，也是阿里在海外落地的首个企业级AI Agent，通过持续探索Agent、Agent HarnessRL、Memory、Reasoning等前沿技术，自研Agent模型、Agent系统，实现B2B AI Agent跨越式发展。

1、参与Accio Work模型训练与研发，包含而不限于Agent设计、Post-Training、RL等全链路建设；
2、负责AI Native专项能力建设，包括而不限于RAG System、Agent System、Agent Training-Function Call/Reasoning/Agentic RL/Proactive Agent/Tool-Use；
3、探索大模型前沿技术，持续迭代模型能力，落地Agent，推动Accio Work，持续迭代。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

Llama+

大模型+

算法+

AI agent+

机器学习+

NLP+

ICML+

ACL+

EMNLP+

CVPR+

ECCV+

ICCV+

还有更多 •••

登录查看完整学习资料

相关职位

蚂蚁集团-Code Agent 后训练算法专家-健康事业群

社招5年以上技术类-算法

1. Code Agent 强化学习训练体系设计与落地负责大规模语言模型在后训练阶段（Post-Training）面向 Code Agent 场景的核心算法研发，设计端到端的 RL 训练流程，涵盖代码生成、代码编辑、调试修复、测试驱动开发等多环节 Agent 行为的策略学习，探索在超长代码上下文与多轮工具交互场景下的训练稳定性与样本效率。 2. 代码环境交互与多步决策优化构建真实且可扩展的代码执行沙箱环境（Sandbox），支持 Agent 与编译器、终端、测试框架、版本控制系统等工具的闭环交互；研究多步代码推理与规划算法（如 Tree-of-Thought、Monte Carlo Tree Search 在代码任务中的适配），提升模型在跨文件编辑、大型仓库级代码理解与修改、复杂 Debug 链路上的决策质量。 3. 代码奖励信号设计与奖励模型构建设计多层次、细粒度的代码奖励信号体系，融合可执行性验证（编译通过、测试用例通过率）、代码质量评估（可读性、效率、安全性）、需求对齐度等多维度反馈；研究如何利用自动化测试生成、变异测试（Mutation Testing）、静态分析工具等构建可靠的过程奖励模型（Process Reward Model），解决代码场景中奖励稀疏、奖励欺骗（Reward Hacking）以及部分可观测性等核心难题。 4. 泛化性与迁移能力提升研究如何通过后训练阶段的课程学习（Curriculum Learning）、跨语言/跨领域任务混合训练、元学习（Meta-Learning）等策略，提升 Code Agent 在未见编程语言、未见框架、未见任务类型上的零样本与少样本泛化能力；探索代码推理能力向通用推理（数学、逻辑、科学问题）的正向迁移路径，推动模型整体 AGI 泛化水平。 5. 数据飞轮与自我进化机制设计 Code Agent 的自我对弈与自我改进闭环：通过 Agent 自主探索生成高质量训练轨迹（Trajectory），结合拒绝采样（Rejection Sampling）、自我验证（Self-Verification）、自我修复（Self-Repair）等机制构建可持续的数据飞轮，实现模型能力的迭代自举（Bootstrapping），减少对人工标注数据的依赖。 6. 大规模分布式训练系统与工程协同与基础架构团队紧密协作，针对 Code Agent 训练中环境交互延迟高、轨迹长度动态变化、Action Space 复杂等特点，设计并优化异步/同步混合的大规模分布式 RL 训练架构；解决长序列代码上下文下的显存瓶颈与吞吐效率问题，实现算法创新与系统性能的高效协同。

更新于 2026-07-08上海|杭州

大模型Code/Agent后训练算法研究员-(深圳)or(北京)or

社招2年以上微信支付技术

1.负责Code和Agent相关数据构建与治理，构建高质量、多样化的Code/Agent训练数据集，搭建数据迭代闭环，通过数据飞轮持续优化数据质量； 2.负责Agent运行环境与训练环境的构建与优化，构建高可用、可扩展的Agent仿真环境，保障Agent训练、测试及落地的稳定性与高效性； 3.负责Agentic RL在Code/Agent场景的训练，参与Agentic RL Infra建设及优化、Agentic RL 算法优化，持续提升Agentic RL训练的效率和稳定性。

更新于 2026-06-10上海

千问事业部-vlm后训练算法专家(VQA agent)-北京/杭州

社招1年以上技术类-算法

负责千问app上通用场景下的多模态问答的算法能力建设，持续推进模型效果和应用场景落地，核心专注于提升 VQA Agent 在复杂视觉场景下的准确率，具体职责包括： 1、多模态planner的优化&探索，主要负责在复杂多轮/多模场景下的意图理解、路径规划、ToolUse、反思纠错等能力的建设，以及探索Agentic RL在复杂长程路径规划场景下的应用&创新； 2、VLM后训练技术探索&落地，包括不限于SFT/RLVR/RLHF等训练范式，以及如RFT的循环迭代机制，提升模型在多轮对话、RA引用、指令遵循、用户偏好等方面的能力； 3、建设完备的算法迭代体系，包括自动化数据飞轮流程以及数据合成体系，模拟真实用户的复杂多轮搜索需求，构建包括CoT、ToolUse及Reflection路径在内的高质量训练数据集，同时设计高可用的自动化评测体系以及建设对应完备的Benchmark；

更新于 2026-07-13北京|杭州

【北斗】多模态理解后训练与Agent算法研究员

校招核心本地商业-基

我们正在构建具备物理世界感知、理解、仿真能力与支撑数字世界高质量呈现的本地生活视觉技术引擎，让每一次连接更智能，让物理世界的烟火气更美好。团队介绍：作为美团官方的视觉AI基础模型团队，负责数字世界和物理世界等本地生活全场景多模态技术的前沿探索和应用，在AIGC生成、虚拟人交互、多模态理解等领域持续沉淀行业领先的技术成果。研究方向包括但不限于： 1、基于多模态预训练和后训练相关技术创新，提升多模态大模型在OCR、文档图表解析、Visual Grounding、细粒度感知、视觉问答等核心视觉理解任务上的能力上限； 2、索多模态强化学习方案创新设计，实现视觉感知、多模态理解等场景下的高性能可信输出和幻觉抑制； 3、增强模型的视觉推理能力（Visual CoT、PRM等）、工具调用与Agent能力、长上下文视觉理解能力和GUI能力，提升模型在视觉感知、理解、规划决策的长程复杂任务上的综合表现。

更新于 2026-06-03北京|上海|深圳