logo of antgroup

蚂蚁金服蚂蚁集团-Agentic RL 工程技术研发专家-北京/杭州

社招全职1年以上技术-开发地点:北京 | 杭州状态:招聘

任职要求


1. 熟悉 Python 研发,熟悉并行计算、AI Agent 系统、沙箱技术技术等任一领域的专业知识;
2. 能够熟练部署和使用主流 AI 模型和工具,了解 Prompt 和 Context Engineering 等调优手段;
3. 熟悉 GRPO/PPO 等 RL 算法、AReaL/v…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


ASystem 会探索和构建高性能的 AI 强化学习基础系统,让语言交互、智能体、具身智能等各类 AI 场景都能基于这个基础系统走向高效的自我演进,迈向更高的智能水平。
1. 研发 Agentic 强化学习工程,包括 Agentic RL 算法、长上下文训练加速、多轮轨迹交互等能力;
2. 研发工具和 Agent 合成工程,包括 toolUse、SWE、computerUse、browserUse、Mutil-Agents 等场景;
3. 研发环境工程和高性能 sandbox 引擎技术,包括多语言执行环境、桌面虚拟化渲染、大型程序虚拟环境等场景,满足大规模并发调用、极速启动、安全隔离等能力;
包括英文材料
Python+
AI agent+
Prompt+
还有更多 •••
相关职位

logo of meituan
社招5年以上核心本地商业-美

技术研发与创新 主导 Agentic RL 系统的架构设计和前沿算法研发 将学术前沿(NeurIPS、ICLR 等会议技术方案)快速转化为美团特有的业务价值 针对本地生活场景,设计突破性的奖励函数和学习机制 建立 Agent 系统的 Scaling Law,指导大规模部署的技术路线 项目驱动与落地 推动 Agent RL 系统从研究到生产环节,确保算法的稳定性、可靠性和效率 与产品、工程团队深度合作,将研究成果转化为实际业务收益 团队领导与人才培养 组建和领导一支在 RL 和 Agent 领域的高水平研究团队 制定团队的技术战略和发展规划 指导团队成员的学术输出和技术成长 培养团队的工程实践能力,建立高效的算法开发和迭代流程

更新于 2025-11-24北京
logo of meituan
实习核心本地商业-基

参与Agentic RL系统的工程研究和落地,工作包括/不限于:Agentic RL系统部分功能的设计和实现、RL性能优化、RL算法实现、数据合成链路设计和实现等 跟进公司内外AI Agent方向的技术演进,进行Agentic RL相关的技术调研。

更新于 2025-08-26北京
logo of amap
社招3年以上技术类-算法

1. 构建后训练专用高性能架构,支持从SFT到RLHF/Agentic RL的全流程调优,为RM模型训练、PPO等复杂算法提供千卡级别的超大规模分布式训练支持,攻克特定阶段的性能瓶颈。 2. 打造极致推理与服务引擎,优化针对RLHF/Agentic RL流程中多个模型的交互式推理链路,通过编译优化、动态批处理、量化等技术,实现高吞吐、低延迟的模型服务,确保用户体验的流畅性。 3. 释放异构硬件最大潜能,深入CPU/GPU/NPU等底层硬件,通过CUDA内核定制、通信库优化(如RDMA)及MLIR/TRITON等编译技术,旨在将硬件性能压榨到极致,以应对高德海量用户与场景的挑战。

更新于 2025-09-23北京
logo of bytedance
实习A89253

日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:Data AML是字节跳动公司的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 1、负责火山引擎-方舟大模型平台的Agent技术研发,包括Multi-Agent框架、Memory机制、Agent-RL等基础能力建设; 2、开发UI-Agent、DeepResearch Agent等专业领域Agent,提升大模型在特定场景的应用能力; 3、设计并实现易用高效的Agent开发套件,降低开发者使用Agent技术的门槛; 4、探索Agent方向的创新方法与技术,提出更先进的Agent范式,引领行业技术发展; 5、探索面向Agent的评估方法,构建火山方舟Agent评估体系。

更新于 2025-04-21北京