蚂蚁金服研究型实习生-Agentic reasoning在AGI产品下的研究及落地
任职要求
研究领域: -目前正在攻读计算机科学或相关STEM领域的学士,硕士或博士学位 -具有一种或多种通用编程语言的经验,包括但不限于: Java,C/C ++ 、Python、JavaScript或Go -具有LLM、VLM、World Model等大模型训练经验 优先录用: -对技术研究充满热情,具有产生新思想和创新的能力; 在自学,问题分析和解决方面表现出色 -在国际会议上或核心期刊发表一份或多份出版物或论文 -至少6个月的全职工作
工作职责
研究领域: 人工智能 项目简介: 在工业界以OpenAI o1、学术界以斯坦福大学的STaR为代表,目前推理能力成为大模型技术新的研究热点。与传统Next Token Predict的常规任务相比,推理过程中可以尝试更多可能性,借鉴强化学习中蒙特卡洛树搜索方法,在生成答案前深入思考,将CoT的思考过程在大模型的内部形成一条内部推理链。同时,将复杂步骤进行分步拆解,在中间尝试多种方法,帮助决策出最终答案。对于Aworld,定位是基于生成式AI技术开发的Agent Framework,一方面能帮助用户解答疑问,另一方面能解决用户在生活场景的实际问题。由于Aworld是一个开放域的对话场景,我们无法限制用户输入,用户的诉求非常丰富多样,并且具有非常多的长尾和个性化的查询属性,需要使用复杂的逻辑推理能力进行支持。例如:"帮我在回家路上找个适合宝妈聚会的餐馆"、"一周的健身餐怎么吃",其中涉及到路线规划、餐馆查询、饮食健康等多种方面的能力,还需要结合模型自身常识,推理出宝妈背后隐含的婴儿座、母婴室等潜在需求。这些需要大模型能够结合内部和外部的知识,在多种约束条件下,分步进行推理,对多种可能方案进行推理、常识、验证,直到找到最终答案,并且将答案呈现给用户。
夸克学习算法团队通过持续创新突破,提供更智能的产品体验,支撑了夸克拍照搜题、AI解题大师、批改、教育搜索等多个核心产品体验。 1. 负责大模型后训练阶段强化学习应用过程中关键问题的探索研究,持续追踪和应用领域最新技术进展; 2. 负责大模型在教育垂域的应用的解决范式和关键技术的探索研究,包括DeepReaserch,Agentic Reasoning,奖励模型建模等; 3. 负责多模态大模型预训练、跨模态对齐、推理等领域的关键问题的探索和研究,包括视觉编码器、视觉推理等、多模态语料构建方法等; 4. 基于研究成果撰写高质量学术论文,积极参与业界交流活动,建立和维护学术界与产业界的合作关系。 你将与行业顶尖算法工程师一对一组队,共同挑战前沿问题。你的工作成果将服务千万级用户,影响大模型应用在教育垂域的发展走向。 在推动相关技术落地业务的同时,鼓励其深耕兼具原创性与实用性的算法创新,共同完成高水平论文发表。
1. 负责提升电商B2B场景下,多模态大模型对用户超长个性化上下文建模能力。 2. 负责基于强化学习提升大模型多步骤工具调用能力,实现亿人亿面用户仿真能力。 3. 构建大模型的角色扮演能力,构建高保真用户模拟器及评估体系,提升Agent训练效率。 4. 负责LLM的前沿技术探索,沉淀可复用的垂域Agent体系化构建方案。
业务丰富,技术领先 高德打车算法团队深度赋能打车业务全链路,涵盖 用户增长、风控、服务管控、路线与上下车点推荐、ETA 预估、智能客服 等核心场景。多样化的业务挑战为算法创新提供了广阔的发挥空间,团队已在 AI 顶级会议发表成果。 精英阵容,国际视野 团队成员来自泰晤士世界大学排名 Top 10 的高校,以及美国常青藤、清华、北大等顶尖院校,兼具国际化背景与一流技术视野。 持续成长,共享共进 团队每周固定进行技术分享,氛围开放、互助友好;除了解答算法与工程难题,资深同事还会分享项目经验,并传授业务理解与问题解决的方法论,助你快速成长。 我们正在寻找相关专业的优秀实习生,一同探索前沿大模型技术在共享出行领域的深度应用,共同攻克业界难题,优化产品体验。 在这里,你将运用大模型、强化学习、深度学习等先进技术处理海量数据,推动用户体验优化与平台效率提升,主要包括: 1. 行程问题智能处理:构建并优化模型,识别司乘纠纷、费用异常、服务质量波动、安全风险、客诉等多类行程问题,并实现自动化处理方案。 2. 前沿技术落地:将多模态大模型及相关技术(PE、SFT、DPO、RAG、AI Agent、Agentic RL、AIGC 等)应用于业务场景,显著提升算法效果与业务指标。 3. 问题建模与解决:将业务场景中的复杂问题抽象为数据建模或科学研究课题,提出可行解决方案并高质量落地。 在这里,你的算法将直接服务全国数亿级用户,带来真实而深远的影响;你能接触到前沿大模型、多模态、强化学习等核心技术,并与顶尖同事共创,在开放包容的创新氛围下,发挥AI创造力。
【课题说明】 Agentic Search是以大模型为核心,具备自主感知、推理与行动能力的搜索新范式。它通过理解用户复杂意图,动态规划搜索路径,主动调用多种工具和数据源,持续优化结果推荐与交互体验。本课题旨在研究和构建面向美团App本地生活服务的Agentic Search系统,探索其在多轮对话、复杂任务分解、实时信息整合等场景下的关键技术与应用价值,推动本地生活智能搜索技术的创新升级。 【建议研究方向】 1.意图理解与任务分解:探索大模型在复杂用户需求下的多意图识别、任务分解、子任务规划能力,提升系统对复合型检索场景的适应性和响应能力。 2.多轮工具调用技术研究:赋予LLM长链路的多轮工具调用能力,打造基于强化学习等前沿技术的LLM后训练方案,提升多轮调用时的精确性及用户的实际交互体验。 3.增量学习训练技术探索:针对本地生活场景中数据不断更新的特点,运用增量学习技术,使 AI 搜索模型能够快速适应新数据。 搜索结果可解释性提升:探索基于大模型内容深度理解与推理的可解释理由生成,增强用户对搜索结果的信任感和透明度。