阿里巴巴研究型实习生-1688-Agentic AI/RL实习生

实习兼职淘天集团研究型实习生2025-12-18地点：杭州状态：招聘

扫码手机上打开

任职要求

1. 深入理解 LLM/RL/Agent 领域知识，熟悉常见的 Alignment 算法（如 DPO/PPO/GRPO/DAPO 等）；
2. 熟悉前沿 Agentic RL 算法与框架，参与过实际项目的开发与…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. Agent 基础设施优化：在电商垂域开展大模型 Agentic AI 的关键要素构建与优化，涵盖环境工具建设（Environment/Tools）、高质量数据合成及 Reward Modeling；
2. 后训练算法攻坚：优化 Post-training 算法（如 GRPO/PPO/SearchR1 等），提升模型在复杂环境下的工具使用（Tool-use）、规划（Plan）、深度推理（Deep Research）及报告生成能力；
3. 全流程模型迭代：参与千亿级模型的 Agentic 能力全流程优化，包括 CPT (Continued Pre-training)、SFT、Post-train 及 Multi-agent RL，负责复现业界前沿工作并探索提出新算法。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

大模型+

还有更多 •••

登录查看完整学习资料

相关职位

游戏AI算法实习生（RL方向）

实习D8039

1、负责游戏AI的算法研究和应用，包括但不限于强化学习、模仿学习等； 2、持续改进算法和框架，开发和完善通用框架和SDK工具，提升游戏AI开发效率； 3、追踪前沿的强化学习技术，探索验证创新场景落地可行性，并能将其转化并落地至实际游戏项目中。

更新于 2025-07-11杭州

AI数据运营实习生（文娱方向）-内容质量与数据服务平台

实习A12809

ByteIntern：面向2026届毕业生（2025年9月-2026年8月期间毕业），为符合岗位要求的同学提供转正机会。团队介绍：抖音集团内容质量与数据服务平台（DOUYIN GROUP CONTENT QUALITY AND DATA SERVICE，简称CQC）是负责抖音集团今日头条、抖音、西瓜等产品内容安全与质量工作的团队，在各产品运营增长方面开展支持工作，为产品线提供数据服务的基础支持。平台下设内容质量中心、数据中心及运营支持中心，在全国10余个城市有业务分布。 1、深入理解AI大模型，了解娱乐AI场景玩法，通过数据挖掘、数据合成、人工构造等方式生产游戏/剧本/故事体验等高质量数据集，对数据生成质量和效率负责； 2、与算法产品团队密切协作，积极提供有针对性的数据合成策略和建议，共同闭环验证数据在模型实验上的有效性，提升数据可用性与价值； 3、通过PE、代码完成数据预处理、分析和清洗，探索更高效的数据生产方式； 4、通过输出和带教，提升数据团队对技术和大语言模型的了解，教授应用技巧，推动团队达成业务目标。

更新于 2025-08-12成都

AI Infra实习生-训练方向（研究型）

实习日常实习生

作为研究型实习生，你将加入公司大模型训练加速方向的研究团队，参与超大规模场景下，文本和多模态领域 pre/post/alignment 方向上的高效训练相关的前沿策略和工程实现工作。该岗位以科研驱动为主，进行理论研究、策略设计、工程原型与实验评估，并鼓励发表顶会/期刊论文与开源贡献。 1、研究RL场景加速技术，探索前沿的训推分离、梯度压缩、通信压缩、计算压缩相关技术，改进RL场景不同模型的训练效率，提升e2e吞吐达到业界SOTA水平； 2、研究前沿的pretrain加速技术，探索不同模态下的 IO/流水调度/算子融合/低精度量化等加速策略，改进超大规模训练下训练效率，提升MFU； 3、研究大模型训练策略自动寻优技术，通过模型显存、计算、通信自动化分析和模拟，实现不同模型在不同硬件、不同规模下的训练性能最大化； 4、将研究成果落地为可复现的工程原型，集成/对接业界主流的开源训练框架(megatron/veRL); 5、撰写技术报告与论文，与团队成员及外部学术界保持沟通交流；

更新于 2026-01-30广州|杭州

AI大模型算法实习生（北京）-4921(J11822)

实习算法类

1.根据业务使用主流框架构建模型，进行模型训练、调参、验证、根据需求准备训练使用的数据集等。 2.参与端到端RL Agent探索和研发落地，提升算法效果。 3.参与大模型方向前沿技术研究，包括但不限于Agent、SFT、RL等。

更新于 2025-09-12北京