logo of tongyi

通义研究型实习生-融合多模态的Agent+RL研究

实习兼职通义研究型实习生地点:北京 | 杭州状态:招聘

任职要求


1. 计算机、人工智能或相关领域的扎实学术背景,熟悉大模型强化学习的核心原理;
2. 具备良好的编程能力,熟练使用深度学习框架(如 PyTorch),并能进行算法实现与优化;
3. 对多模态大模型(文本、图像、视频等)及其在智能…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


专注于多模态智能体(Agent)及强化学习(RL)的研究与开发,如 browser use 等,推动下一代智能决策系统的创新。主要职责包括:
1. 设计和构建基于 Qwen 系列模型的多模态 Agent,使其能够高效处理文本、图像、视频等多种信息,执行复杂任务;
2. 实现和训练强化学习算法,探索如何在多模态环境下优化智能体的决策策略;
3. 开发数据采集和环境建模工具,构建逼真的多模态交互环境;
4. 参与系统评估与优化,设计高效的验证机制,确保智能体的稳定性与泛化能力;
5. 撰写研究论文、技术文档,与团队共同推动技术突破,并提升行业影响力。
包括英文材料
大模型+
强化学习+
深度学习+
PyTorch+
还有更多 •••
相关职位

logo of amap
实习高德研究型实习生

【高德交通智能部】寻找AI造梦师!加入极客天团,用代码重塑未来出行 ▍团队故事: 我们是高德地图的的硬核极客天团,过去四年连续解锁交通科技树: ✓ 2021年 全球首个分钟级交通事件检测引擎(让堵车预警快过刷朋友圈) ✓ 2022年 红绿灯倒计时黑科技(拯救千万路怒症的神级操作) ✓ 2023年 V2X车车对话系统(让汽车学会"社牛"沟通) ✓ 2024年 AI领航红绿灯(比驾校教练更懂路的老司机) ✓ 2025年 TrafficVLM 上线(高德地图“天眼”功能) 现在,我们正在构建智能交通宇宙,等你来编写核心算法剧本! 岗位职责: 1. 构建下一代TrafficVLM:运用SFT和强化学习技术打造能理解复杂交通场景的多模态大模型 2. 设计创新的思维链(COT)框架:解决交通流量预测、事故处理等复杂推理任务 3. 建立行业领先的评估体系:开发针对交通场景的大模型专项评估指标和测试平台 4. 探索RL与LLM的融合应用:通过强化学习持续优化模型在动态交通环境中的表现 💡 我们期待你: • 对AI技术充满热情,渴望将实验室技术转化为实际生产力 • 在大模型某个技术方向(SFT/RL/Agent/COT等)有深入理解或实践经验 • 喜欢解决开放性问题,能够独立思考和探索创新方案 • 具备优秀的工程实现能力或扎实的理论研究基础

更新于 2025-10-23北京
logo of quark
实习日常实习生

1.负责包含文本、视频、图片、语音等多模态数据对齐的基础大模型核心技术研发,包括 Pretrain、SFT、RL 等,持续追踪和应用领域最新技术进展; 2.预训练:跟进和研发更先进的 foundation 模型结构、训练模式、scaling law,提高训练效率和优化关键问题(如推理、长序列能力,多模态融合); 3.后训练:跟进和研发基座模型的后训练技术,充分激发模型潜力,包括但不限于高质量指令样本构建、课程学习、reasoning RL 等方向; 4.应用:通过模型与场景的深度耦合,推进大模型能力在实际业务中的最优表达,构建具备长期价值的智能 Agent; 5.结合以上方向的探索和研究,撰写发表论文,和业界、学术界保持良好的交流。

更新于 2025-04-19北京|杭州
logo of amap
实习高德研究型实习生

【团队介绍】 聚焦大模型与高德核心业务的深度融合。围绕用户出行、搜索、导航、POI发现、行程规划等亿级流量场景,我们探索如何通过大语言模型(LLM)、多模态大模型、强化学习与推荐系统的协同创新,提升用户交互体验与业务转化效果。 【岗位职责】 1. 参与高德地图 AI 对话 Agent 相关算法研发,包括对话理解、任务规划、工具调用、多轮对话管理等; 2. 探索大模型在地图场景下的应用,如 Prompt 工程、RAG、SFT、RL Training、Agent 框架优化等; 3. 协助构建高质量对话数据集,参与模型训练、评估与上线迭代; 4. 跟踪前沿技术,复现并改进相关方法,推动技术创新。

更新于 2025-10-23北京
logo of amap
实习高德研究型实习生

多模态大模型算法实习生 深度参与亿级用户产品的AI核心能力建设,有机会将研究成果落地于高德,影响亿万用户; 岗位职责 ꔷ 参与多模态表征学习与全模态交互模型的研究与开发,探索文本、图像、语音、地理信息等多源异构数据的深度融合方法; ꔷ 聚焦用户多模态指令理解(如“找附近有露营氛围的咖啡馆”)、商铺及内容的多模态理解(图文、视频、评论、POI属性等),构建面向高德搜索、推荐与智能交互场景的AI Agent能力; ꔷ 设计并实现创新性算法,在真实业务场景中验证效果,提升用户获取信息的有效性、趣味性与沉浸感; ꔷ 推动技术前沿探索,目标在顶会发表高质量学术论文,打造业界领先的多模态AI系统。

更新于 2025-11-21北京