通义研究型实习生-融合多模态的Agent+RL研究

实习兼职通义研究型实习生2025-08-15地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 计算机、人工智能或相关领域的扎实学术背景，熟悉大模型和强化学习的核心原理；
2. 具备良好的编程能力，熟练使用深度学习框架（如 PyTorch），并能进行算法实现与优化；
3. 对多模态大模型（文本、图像、视频等）及其在智能…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

专注于多模态智能体（Agent）及强化学习（RL）的研究与开发，如 browser use 等，推动下一代智能决策系统的创新。主要职责包括：
1. 设计和构建基于 Qwen 系列模型的多模态 Agent，使其能够高效处理文本、图像、视频等多种信息，执行复杂任务；
2. 实现和训练强化学习算法，探索如何在多模态环境下优化智能体的决策策略；
3. 开发数据采集和环境建模工具，构建逼真的多模态交互环境；
4. 参与系统评估与优化，设计高效的验证机制，确保智能体的稳定性与泛化能力；
5. 撰写研究论文、技术文档，与团队共同推动技术突破，并提升行业影响力。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

大模型+

强化学习+

深度学习+

PyTorch+

还有更多 •••

登录查看完整学习资料

相关职位

多模态大模型算法工程师-交通

实习高德研究型实习生

【高德交通智能部】寻找AI造梦师！加入极客天团，用代码重塑未来出行 ▍团队故事：我们是高德地图的的硬核极客天团，过去四年连续解锁交通科技树： ✓ 2021年全球首个分钟级交通事件检测引擎（让堵车预警快过刷朋友圈） ✓ 2022年红绿灯倒计时黑科技（拯救千万路怒症的神级操作） ✓ 2023年 V2X车车对话系统（让汽车学会"社牛"沟通） ✓ 2024年 AI领航红绿灯（比驾校教练更懂路的老司机） ✓ 2025年 TrafficVLM 上线（高德地图“天眼”功能）现在，我们正在构建智能交通宇宙，等你来编写核心算法剧本！岗位职责： 1. 构建下一代TrafficVLM：运用SFT和强化学习技术打造能理解复杂交通场景的多模态大模型 2. 设计创新的思维链(COT)框架：解决交通流量预测、事故处理等复杂推理任务 3. 建立行业领先的评估体系：开发针对交通场景的大模型专项评估指标和测试平台 4. 探索RL与LLM的融合应用：通过强化学习持续优化模型在动态交通环境中的表现 💡 我们期待你： • 对AI技术充满热情，渴望将实验室技术转化为实际生产力 • 在大模型某个技术方向(SFT/RL/Agent/COT等)有深入理解或实践经验 • 喜欢解决开放性问题，能够独立思考和探索创新方案 • 具备优秀的工程实现能力或扎实的理论研究基础

更新于 2025-10-23北京

算法实习生-基础大模型方向（研究型）

实习日常实习生

1.负责包含文本、视频、图片、语音等多模态数据对齐的基础大模型核心技术研发，包括 Pretrain、SFT、RL 等，持续追踪和应用领域最新技术进展； 2.预训练：跟进和研发更先进的 foundation 模型结构、训练模式、scaling law，提高训练效率和优化关键问题（如推理、长序列能力，多模态融合）； 3.后训练：跟进和研发基座模型的后训练技术，充分激发模型潜力，包括但不限于高质量指令样本构建、课程学习、reasoning RL 等方向； 4.应用：通过模型与场景的深度耦合，推进大模型能力在实际业务中的最优表达，构建具备长期价值的智能 Agent； 5.结合以上方向的探索和研究，撰写发表论文，和业界、学术界保持良好的交流。

更新于 2025-04-19北京|杭州

大模型算法工程师（实习）

实习高德研究型实习生

【团队介绍】聚焦大模型与高德核心业务的深度融合。围绕用户出行、搜索、导航、POI发现、行程规划等亿级流量场景，我们探索如何通过大语言模型（LLM）、多模态大模型、强化学习与推荐系统的协同创新，提升用户交互体验与业务转化效果。【岗位职责】 1. 参与高德地图 AI 对话 Agent 相关算法研发，包括对话理解、任务规划、工具调用、多轮对话管理等； 2. 探索大模型在地图场景下的应用，如 Prompt 工程、RAG、SFT、RL Training、Agent 框架优化等； 3. 协助构建高质量对话数据集，参与模型训练、评估与上线迭代； 4. 跟踪前沿技术，复现并改进相关方法，推动技术创新。

更新于 2025-10-23北京

多模态大模型算法实习

实习高德研究型实习生

多模态大模型算法实习生深度参与亿级用户产品的AI核心能力建设，有机会将研究成果落地于高德，影响亿万用户；岗位职责 ꔷ 参与多模态表征学习与全模态交互模型的研究与开发，探索文本、图像、语音、地理信息等多源异构数据的深度融合方法； ꔷ 聚焦用户多模态指令理解（如“找附近有露营氛围的咖啡馆”）、商铺及内容的多模态理解（图文、视频、评论、POI属性等），构建面向高德搜索、推荐与智能交互场景的AI Agent能力； ꔷ 设计并实现创新性算法，在真实业务场景中验证效果，提升用户获取信息的有效性、趣味性与沉浸感； ꔷ 推动技术前沿探索，目标在顶会发表高质量学术论文，打造业界领先的多模态AI系统。

更新于 2025-11-21北京