logo of tongyi

通义研究型实习生-融合多模态的Agent+RL研究

实习兼职通义研究型实习生地点:北京 | 杭州状态:招聘

任职要求


1. 计算机、人工智能或相关领域的扎实学术背景,熟悉大模型强化学习的核心原理;
2. 具备良好的编程能力,熟练使用深度学习框架(如 PyTorch),并能进行算法实现与优化;
3. 对多模态大模型(文本、图像、视频等)及其在智能…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


专注于多模态智能体(Agent)及强化学习(RL)的研究与开发,如 browser use 等,推动下一代智能决策系统的创新。主要职责包括:
1. 设计和构建基于 Qwen 系列模型的多模态 Agent,使其能够高效处理文本、图像、视频等多种信息,执行复杂任务;
2. 实现和训练强化学习算法,探索如何在多模态环境下优化智能体的决策策略;
3. 开发数据采集和环境建模工具,构建逼真的多模态交互环境;
4. 参与系统评估与优化,设计高效的验证机制,确保智能体的稳定性与泛化能力;
5. 撰写研究论文、技术文档,与团队共同推动技术突破,并提升行业影响力。
包括英文材料
大模型+
强化学习+
深度学习+
PyTorch+
还有更多 •••
相关职位

logo of amap
实习高德研究型实习生

【高德交通智能部】寻找AI造梦师!加入极客天团,用代码重塑未来出行 ▍团队故事: 我们是高德地图的的硬核极客天团,过去四年连续解锁交通科技树: ✓ 2021年 全球首个分钟级交通事件检测引擎(让堵车预警快过刷朋友圈) ✓ 2022年 红绿灯倒计时黑科技(拯救千万路怒症的神级操作) ✓ 2023年 V2X车车对话系统(让汽车学会"社牛"沟通) ✓ 2024年 AI领航红绿灯(比驾校教练更懂路的老司机) ✓ 2025年 TrafficVLM 上线(高德地图“天眼”功能) 现在,我们正在构建智能交通宇宙,等你来编写核心算法剧本! 岗位职责: 1. 构建下一代TrafficVLM:运用SFT和强化学习技术打造能理解复杂交通场景的多模态大模型 2. 设计创新的思维链(COT)框架:解决交通流量预测、事故处理等复杂推理任务 3. 建立行业领先的评估体系:开发针对交通场景的大模型专项评估指标和测试平台 4. 探索RL与LLM的融合应用:通过强化学习持续优化模型在动态交通环境中的表现 💡 我们期待你: • 对AI技术充满热情,渴望将实验室技术转化为实际生产力 • 在大模型某个技术方向(SFT/RL/Agent/COT等)有深入理解或实践经验 • 喜欢解决开放性问题,能够独立思考和探索创新方案 • 具备优秀的工程实现能力或扎实的理论研究基础

更新于 2025-10-23北京
logo of quark
实习日常实习生

1.负责包含文本、视频、图片、语音等多模态数据对齐的基础大模型核心技术研发,包括 Pretrain、SFT、RL 等,持续追踪和应用领域最新技术进展; 2.预训练:跟进和研发更先进的 foundation 模型结构、训练模式、scaling law,提高训练效率和优化关键问题(如推理、长序列能力,多模态融合); 3.后训练:跟进和研发基座模型的后训练技术,充分激发模型潜力,包括但不限于高质量指令样本构建、课程学习、reasoning RL 等方向; 4.应用:通过模型与场景的深度耦合,推进大模型能力在实际业务中的最优表达,构建具备长期价值的智能 Agent; 5.结合以上方向的探索和研究,撰写发表论文,和业界、学术界保持良好的交流。

更新于 2025-04-19北京|杭州
logo of amap
实习高德研究型实习生

【团队介绍】 聚焦大模型与高德核心业务的深度融合。围绕用户出行、搜索、导航、POI发现、行程规划等亿级流量场景,我们探索如何通过大语言模型(LLM)、多模态大模型、强化学习与推荐系统的协同创新,提升用户交互体验与业务转化效果。 【岗位职责】 1. 参与高德地图 AI 对话 Agent 相关算法研发,包括对话理解、任务规划、工具调用、多轮对话管理等; 2. 探索大模型在地图场景下的应用,如 Prompt 工程、RAG、SFT、RL Training、Agent 框架优化等; 3. 协助构建高质量对话数据集,参与模型训练、评估与上线迭代; 4. 跟踪前沿技术,复现并改进相关方法,推动技术创新。

更新于 2026-01-09北京
logo of alibaba
实习淘天集团研究型实

【加入前沿战场,定义下一代增长引擎】 在阿里妈妈AI Agent与客户成长团队,我们正用最前沿的Agent技术重构数智化营销生态。 作为团队新生力量,你将直接参与构建日均服务百万级商家的智能增长系统,通过大模型技术实现从用户意图洞察到智能决策的全链路突破。 在这里,你的代码将直接影响中国电商生态的广告决策效率,用AI重新定义商业增长的可能性。 【你将主导的挑战】 智能增长系统攻坚 ● 设计基于LLM的个性化增长策略矩阵,覆盖智能触达、流失预警、投放引导等核心场景。 ● 构建多模态商业理解引擎,融合时序预测(LTV建模)、因果推断(Uplift建模)、生成式优化等创新技术。 ● 主导端到端的AI Agent架构设计,攻克动态Prompt生成、多轮对话决策等关键技术节点。 数据驱动的技术突破 ● 操盘亿级用户行为数据,通过大规模A/B实验验证模型效果,你的每个优化将直接提升DAU/留存率等核心指标。 ● 探索大模型微调+RAG+Agent框架的技术融合,打造行业领先的智能运营解决方案。 【超维成长体验】 三位一体培养体系 ● 双导师制成长:算法大牛+业务专家贴身指导,定期论文精读与代码Review。 ● 全真项目历练:独立负责子模块开发,6个月挑战完整项目生命周期。 ● 前瞻技术视野:参与内部技术峰会,第一时间获取阿里妈妈AI最新研究成果。

更新于 2026-01-16北京