蚂蚁金服蚂蚁集团-Agentic RL 工程技术研发专家-北京/杭州
社招全职1年以上技术-开发地点:北京 | 杭州状态:招聘
任职要求
1. 熟悉 Python 研发,熟悉并行计算、AI Agent 系统、沙箱技术技术等任一领域的专业知识; 2. 能够熟练部署和使用主流 AI 模型和工具,了解 Prompt 和 Context Engineering 等调优手段; 3. 熟悉 GRPO/PPO 等 RL 算法、AReaL/v…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
ASystem 会探索和构建高性能的 AI 强化学习基础系统,让语言交互、智能体、具身智能等各类 AI 场景都能基于这个基础系统走向高效的自我演进,迈向更高的智能水平。 1. 研发 Agentic 强化学习工程,包括 Agentic RL 算法、长上下文训练加速、多轮轨迹交互等能力; 2. 研发工具和 Agent 合成工程,包括 toolUse、SWE、computerUse、browserUse、Mutil-Agents 等场景; 3. 研发环境工程和高性能 sandbox 引擎技术,包括多语言执行环境、桌面虚拟化渲染、大型程序虚拟环境等场景,满足大规模并发调用、极速启动、安全隔离等能力;
包括英文材料
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
AI agent+
https://www.ibm.com/think/ai-agents
Your one-stop resource for gaining in-depth knowledge and hands-on applications of AI agents.
Prompt+
https://cloud.google.com/vertex-ai/generative-ai/docs/learn/prompts/introduction-prompt-design
A prompt is a natural language request submitted to a language model to receive a response back.
https://learn.microsoft.com/en-us/azure/ai-foundry/openai/concepts/prompt-engineering
These techniques aren't recommended for reasoning models like gpt-5 and o-series models.
https://www.youtube.com/watch?v=LWiMwhDZ9as
Learn and master the fundamentals of Prompt Engineering and LLMs with this 5-HOUR Prompt Engineering Crash Course!
还有更多 •••
相关职位
社招5年以上技术类-算法
1. 研发 Agentic 强化学习工程,包括 Agentic RL 算法、长上下文训练加速、多轮轨迹交互等能力; 2. 研发工具和 Agent 合成工程,包括 toolUse、SWE、computerUse、browserUse、Mutil-Agents 等场景。
更新于 2025-12-30北京|上海|杭州
社招3年以上云智能集团
1. 高质量垂域数据工程:深入优化垂直领域(如文本内容审核)的高质量数据构建与迭代方法论,持续提升数据的质量、多样性与生产效率。 2. 可扩展后训练体系:探索适配领域特性的 SFT/RL 算法,构建高效、稳定、可扩展的垂域模型后训练范式,系统性提升模型能力。 3. 前沿技术研究与落地:探索推理模型前沿技术(如高效蒸馏、reward system、agentic RL、test-time learning 等)以及模型可解释性技术,沉淀技术成果和影响力,并推动大模型相关技术在行业场景中的转化与落地,提升领域模型竞争力,支撑业务持续增长。
更新于 2026-01-05杭州
社招5年以上核心本地商业-美
技术研发与创新 主导 Agentic RL 系统的架构设计和前沿算法研发 将学术前沿(NeurIPS、ICLR 等会议技术方案)快速转化为美团特有的业务价值 针对本地生活场景,设计突破性的奖励函数和学习机制 建立 Agent 系统的 Scaling Law,指导大规模部署的技术路线 项目驱动与落地 推动 Agent RL 系统从研究到生产环节,确保算法的稳定性、可靠性和效率 与产品、工程团队深度合作,将研究成果转化为实际业务收益 团队领导与人才培养 组建和领导一支在 RL 和 Agent 领域的高水平研究团队 制定团队的技术战略和发展规划 指导团队成员的学术输出和技术成长 培养团队的工程实践能力,建立高效的算法开发和迭代流程
更新于 2025-11-24北京