滴滴2026未来精英-基于强化学习的Agent构建

校招全职L lab2025-04-30地点：北京状态：招聘

扫码手机上打开

任职要求

Agent是当下大模型领域最热门的话题之一，传统的agent方案基于一些模块的划分或者流程的编排来完成复杂任务，然而O1类模型和DeepResearch类应用的出现让人们认识到基于强化学习的端到端训练可能是提升agent能力天花板的最优方式。- 如何设计强化学习框架，使得计算资源得以高效利用，将大参数量模型的强化学习任务稳定高效的…

登录查看完整任职要求

微信扫码，1秒登录