蚂蚁金服研究型实习生-Agentic reasoning在AGI产品下的研究及落地
任职要求
研究领域: -目前正在攻读计算机科学或相关STEM领域的学士,硕士或博士学位 -具有一种或多种通用编程语言的经验,包括但不限于: Java,C/C ++ 、Python、JavaScript或Go -具有LLM、VL…
工作职责
研究领域: 人工智能 项目简介: 在工业界以OpenAI o1、学术界以斯坦福大学的STaR为代表,目前推理能力成为大模型技术新的研究热点。与传统Next Token Predict的常规任务相比,推理过程中可以尝试更多可能性,借鉴强化学习中蒙特卡洛树搜索方法,在生成答案前深入思考,将CoT的思考过程在大模型的内部形成一条内部推理链。同时,将复杂步骤进行分步拆解,在中间尝试多种方法,帮助决策出最终答案。对于Aworld,定位是基于生成式AI技术开发的Agent Framework,一方面能帮助用户解答疑问,另一方面能解决用户在生活场景的实际问题。由于Aworld是一个开放域的对话场景,我们无法限制用户输入,用户的诉求非常丰富多样,并且具有非常多的长尾和个性化的查询属性,需要使用复杂的逻辑推理能力进行支持。例如:"帮我在回家路上找个适合宝妈聚会的餐馆"、"一周的健身餐怎么吃",其中涉及到路线规划、餐馆查询、饮食健康等多种方面的能力,还需要结合模型自身常识,推理出宝妈背后隐含的婴儿座、母婴室等潜在需求。这些需要大模型能够结合内部和外部的知识,在多种约束条件下,分步进行推理,对多种可能方案进行推理、常识、验证,直到找到最终答案,并且将答案呈现给用户。
- 岗位职责:构建适用于高德AI Agent的大模型技术体系,包括 SFT,RM,RL/Reasoning、Agentic RL 等能力的建设。 - 组内情况:组内成员在各类顶会上发表论文多篇,有完善的指导及充足的GPU资源,实习优秀者可在组内转正。
夸克学习算法团队通过持续创新突破,提供更智能的产品体验,支撑了夸克拍照搜题、AI解题大师、批改、教育搜索等多个核心产品体验。 1. 负责大模型后训练阶段强化学习应用过程中关键问题的探索研究,持续追踪和应用领域最新技术进展; 2. 负责大模型在教育垂域的应用的解决范式和关键技术的探索研究,包括DeepReaserch,Agentic Reasoning,奖励模型建模等; 3. 负责多模态大模型预训练、跨模态对齐、推理等领域的关键问题的探索和研究,包括视觉编码器、视觉推理等、多模态语料构建方法等; 4. 基于研究成果撰写高质量学术论文,积极参与业界交流活动,建立和维护学术界与产业界的合作关系。 你将与行业顶尖算法工程师一对一组队,共同挑战前沿问题。你的工作成果将服务千万级用户,影响大模型应用在教育垂域的发展走向。 在推动相关技术落地业务的同时,鼓励其深耕兼具原创性与实用性的算法创新,共同完成高水平论文发表。
1. Agent 基础设施优化:在电商垂域开展大模型 Agentic AI 的关键要素构建与优化,涵盖环境工具建设(Environment/Tools)、高质量数据合成及 Reward Modeling; 2. 后训练算法攻坚:优化 Post-training 算法(如 GRPO/PPO/SearchR1 等),提升模型在复杂环境下的工具使用(Tool-use)、规划(Plan)、深度推理(Deep Research)及报告生成能力; 3. 全流程模型迭代:参与千亿级模型的 Agentic 能力全流程优化,包括 CPT (Continued Pre-training)、SFT、Post-train 及 Multi-agent RL,负责复现业界前沿工作并探索提出新算法。