阿里巴巴研究型实习生-1688-多模态强化学习算法工程师

实习兼职淘天集团研究型实习生2025-08-05地点：杭州状态：招聘

扫码手机上打开

任职要求

1. 计算机、人工智能或数学相关专业博士，有扎实的计算机知识和LLM功底。
2. 掌握Qwen/DeepSeek-R1等LLM训练方式，常见PPO/GRPO/Self-Play等强化学习算法原理，有R…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责提升电商B2B场景下，多模态大模型对用户超长个性化上下文建模能力。
2. 负责基于强化学习提升大模型多步骤工具调用能力，实现亿人亿面用户仿真能力。
3. 构建大模型的角色扮演能力，构建高保真用户模拟器及评估体系，提升Agent训练效率。
4. 负责LLM的前沿技术探索，沉淀可复用的垂域Agent体系化构建方案。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

大模型+

强化学习+

还有更多 •••

登录查看完整学习资料

相关职位

深度学习研发工程师

社招网易伏羲

1、算法研究: 围绕大规模/AIGC场景研究业界算法动态,实践相关算法,对基础的算法效果和能力进行改进。 2、模型优化：结合量化剪枝等相关算法优化技术，降低推理延时及成本，突破新技术在新场景的应用边界。 3、工程优化: 拥抱开源生态，保持洞察。充分挖掘系统和数据的优势,结合操作系统、分布式、芯片特性探索的工程落地可能。 4、成果交付: 从业务出发，重点面向文本、语音、图像等多种模态、构建高效的SDK或智能体方案，为业务提供出色、稳定的技术支持。

更新于 2025-06-17杭州

算法工程师-语音方向

实习淘天集团2026

参与构建新一代电商语音认知引擎，通过大模型技术实现语音交互与商品理解的双向增强，打造全球领先的电商领域语音智能中枢，支撑淘宝亿级DAU场景的语音搜索、智能导购等核心业务。 1. 负责大模型语音模态的设计、开发和优化，包括但不限于语音音频数据清洗、模型设计、训练策略等方面的研究与应用。 2. 参与语音识别、语音合成、语音理解等相关大模型语音模态能力的建设，提升跨模态整体效果。 3. 跟踪、探索大模型方向，将各模态的SOTA能力集成到模型底座上，提升识别以及搜索能力，提升团队技术先进性。

更新于 2025-05-08北京|杭州

大模型Agent评测算法工程师

社招2年以上核心本地商业-基

随着AI下半场的到来，传统的评测范式已经无法适配持续提升的模型能力，针对ChatBot模型的Arena评测的有效性也遭到质疑，如何面向现阶段以及未来的模型能力进行科学有效的评估本身也是个极具挑战和价值的研究方向。OpenAI研究者也表示，AI接下来比拼的不是训练，而是“如何定义并评估真正有用的任务”。在这样的背景下，美团大模型评测团队以指引通往AGI的道路为目标，深耕模型评测研究，系统性的理解大模型当前能力水平及未来技术发展方向，并以此为基础完善模型评测能力矩阵。团队工作方向包括但不限于：①构建科学有效的评测方案，为现阶段大模型提供有效的评测和分析手段，并面向未来模型储备评测技术，包括人机协同评测、产品化隐式评测方案、全模态交互式评测方案等；②结合训练和评测，对模型的能力进行建模及深入的理解和研究，包括能力体系构建、训练阶段分析、模型能力/问题溯源等；③探索模型能力边界，发现当前模型训练范式的局限性，寻求模型能力突破。本岗位涉及的方向包括： 1. Agent评测构建与方案探索，包括但不限于：通用模型的Agent能力评测与探索，Computer Use、Code Agent、通用搜索等产品级Agent的评测方案和分析。 2. 长周期人机协作与Agent能力边界探索，包括但不限于：Agent的异步交互、适时思考、记忆管理、自主学习等能力的评测方案及实践探索。

更新于 2025-08-01北京|上海

阿里妈妈-广告大模型算法工程师(预估方向)-北京*

社招1年以上

1、探索生成式预估范式在搜索推荐场景的可行性与边界，系统分析生成式模型相较于传统判别式模型在表达能力、泛化性与训练效率上的优劣；设计可扩展的生成式架构，涵盖生成式训练范式、结构优化、以及基于强化学习的排序目标对齐方法，构建具备scale-up潜力的下一代预估模型体系。 2、研究大语言模型（LLM）在电商场景下的个性化CTR/CVR预估应用，探索模态对齐、用户行为链（CoT）建模等技术路径，将LLM的推理能力迁移至用户偏好理解与意图推断，实现更精准的人货匹配与动态兴趣建模。 3、主导大模型预估系统的基础设施建设，涵盖算力友好的算法设计、分布式训练加速、线上低延迟部署、端到端链路优化及计算复杂度控制，推动前沿模型技术在高并发、实时性要求严苛的工业场景中规模化落地。

更新于 2026-02-10北京