logo of didi

滴滴2026未来精英-基于强化学习的Agent构建

校招全职L lab地点:北京状态:招聘

任职要求


Agent是当下大模型领域最热门的话题之一,传统的agent方案基于一些模块的划分或者流程的编排来完成复杂任务,然而O1类模型和DeepResearch类应用的出现让人们认识到基于强化学习的端到端训练可能是提升agent能力天花板的最优方式。- 如何设计强化学习框架,使得计算资源得以高效利用,将大参数量模型的强化学习任务稳定高效的运行起来。- 如何设计reward可以有效的提升模型能力,如何在开放领域构建rule-based reward,同时避免reward hacking。- 如何在开放领域设计高质量且高多样性的prompt池来执行强化学习任务。- 如何进行开放领域任务的有效评估每一个问题都具有极高的挑战性,但一旦能够很好的解决,将会产生非常大的价值。

工作职责


包括英文材料
AI agent+
大模型+
强化学习+
Prompt+
相关职位