蚂蚁金服研究型实习生-Agentic reasoning在AGI产品下的研究及落地

实习兼职研究型实习生地点：上海 | 杭州状态：招聘

扫码手机上打开

任职要求

研究领域：
-目前正在攻读计算机科学或相关STEM领域的学士,硕士或博士学位
-具有一种或多种通用编程语言的经验,包括但不限于: Java,C/C ++ 、Python、JavaScript或Go
-具有LLM、VL…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

研究领域：
  人工智能
项目简介：
  在工业界以OpenAI o1、学术界以斯坦福大学的STaR为代表，目前推理能力成为大模型技术新的研究热点。与传统Next Token Predict的常规任务相比，推理过程中可以尝试更多可能性，借鉴强化学习中蒙特卡洛树搜索方法，在生成答案前深入思考，将CoT的思考过程在大模型的内部形成一条内部推理链。同时，将复杂步骤进行分步拆解，在中间尝试多种方法，帮助决策出最终答案。对于Aworld，定位是基于生成式AI技术开发的Agent Framework，一方面能帮助用户解答疑问，另一方面能解决用户在生活场景的实际问题。由于Aworld是一个开放域的对话场景，我们无法限制用户输入，用户的诉求非常丰富多样，并且具有非常多的长尾和个性化的查询属性，需要使用复杂的逻辑推理能力进行支持。例如："帮我在回家路上找个适合宝妈聚会的餐馆"、"一周的健身餐怎么吃"，其中涉及到路线规划、餐馆查询、饮食健康等多种方面的能力，还需要结合模型自身常识，推理出宝妈背后隐含的婴儿座、母婴室等潜在需求。这些需要大模型能够结合内部和外部的知识，在多种约束条件下，分步进行推理，对多种可能方案进行推理、常识、验证，直到找到最终答案，并且将答案呈现给用户。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

Java+

C+

还有更多 •••

登录查看完整学习资料

相关职位

科研实习-大模型后训练强化学习方向

实习高德研究型实习生

- 岗位职责：构建适用于高德AI Agent的大模型技术体系，包括 SFT，RM，RL/Reasoning、Agentic RL 等能力的建设。 - 组内情况：组内成员在各类顶会上发表论文多篇，有完善的指导及充足的GPU资源，实习优秀者可在组内转正。

更新于 2026-01-26北京

算法实习生-多模态推理与agent（研究型）

实习日常实习生

夸克学习算法团队通过持续创新突破，提供更智能的产品体验，支撑了夸克拍照搜题、AI解题大师、批改、教育搜索等多个核心产品体验。 1. 负责大模型后训练阶段强化学习应用过程中关键问题的探索研究，持续追踪和应用领域最新技术进展； 2. 负责大模型在教育垂域的应用的解决范式和关键技术的探索研究，包括DeepReaserch，Agentic Reasoning，奖励模型建模等； 3. 负责多模态大模型预训练、跨模态对齐、推理等领域的关键问题的探索和研究，包括视觉编码器、视觉推理等、多模态语料构建方法等； 4. 基于研究成果撰写高质量学术论文，积极参与业界交流活动，建立和维护学术界与产业界的合作关系。你将与行业顶尖算法工程师一对一组队，共同挑战前沿问题。你的工作成果将服务千万级用户，影响大模型应用在教育垂域的发展走向。在推动相关技术落地业务的同时，鼓励其深耕兼具原创性与实用性的算法创新，共同完成高水平论文发表。

更新于 2025-05-23北京|广州

研究型实习生-1688-Agentic AI/RL实习生

实习淘天集团研究型实

1. Agent 基础设施优化：在电商垂域开展大模型 Agentic AI 的关键要素构建与优化，涵盖环境工具建设（Environment/Tools）、高质量数据合成及 Reward Modeling； 2. 后训练算法攻坚：优化 Post-training 算法（如 GRPO/PPO/SearchR1 等），提升模型在复杂环境下的工具使用（Tool-use）、规划（Plan）、深度推理（Deep Research）及报告生成能力； 3. 全流程模型迭代：参与千亿级模型的 Agentic 能力全流程优化，包括 CPT (Continued Pre-training)、SFT、Post-train 及 Multi-agent RL，负责复现业界前沿工作并探索提出新算法。

更新于 2025-12-18杭州

研究型实习生-阿里妈妈-Agentic AI算法工程师

实习淘天集团研究型实

1. 设计Data Agent统一记忆表示框架与生命周期管理机制，支持结构化/非结构化数据记忆混合存储，制定动态管理策略，确保关键分析结果长期稳定可用。 2. 构建自然语言检索与数据验证体系，设计数据溯源与自动校验流程，有效防止幻觉并保障分析结论的可靠性。 3. 结合以上方向的探索和研究，撰写发表论文，和业界、学术界保持良好的交流。

更新于 2026-01-21北京