logo of tongyi

通义研究型实习生-融合多模态的Agent+RL研究

实习兼职通义研究型实习生地点:北京 | 杭州状态:招聘

任职要求


1. 计算机、人工智能或相关领域的扎实学术背景,熟悉大模型强化学习的核心原理;
2. 具备良好的编程能力,熟练使用深度学习框架(如 PyTorch),并能进行算法实现与优化;
3. 对多模态大模型(文本、图像、视频等)及其在智能体决策中的应用有浓厚兴趣;
4. 具备良好的科研能力,能够独立思考并探索创新方案;
5. 加分项:有强化学习智能体框架、或多模态大模型训练的相关经验;
6. 加分项:在计算机视觉自然语言处理强化学习等方向的顶级会议发表过论文。

工作职责


专注于多模态智能体(Agent)及强化学习(RL)的研究与开发,如 browser use 等,推动下一代智能决策系统的创新。主要职责包括:
1. 设计和构建基于 Qwen 系列模型的多模态 Agent,使其能够高效处理文本、图像、视频等多种信息,执行复杂任务;
2. 实现和训练强化学习算法,探索如何在多模态环境下优化智能体的决策策略;
3. 开发数据采集和环境建模工具,构建逼真的多模态交互环境;
4. 参与系统评估与优化,设计高效的验证机制,确保智能体的稳定性与泛化能力;
5. 撰写研究论文、技术文档,与团队共同推动技术突破,并提升行业影响力。
包括英文材料
大模型+
强化学习+
深度学习+
PyTorch+
算法+
智能体+
OpenCV+
NLP+
相关职位

logo of quark
实习日常实习生

1.负责包含文本、视频、图片、语音等多模态数据对齐的基础大模型核心技术研发,包括 Pretrain、SFT、RL 等,持续追踪和应用领域最新技术进展; 2.预训练:跟进和研发更先进的 foundation 模型结构、训练模式、scaling law,提高训练效率和优化关键问题(如推理、长序列能力,多模态融合); 3.后训练:跟进和研发基座模型的后训练技术,充分激发模型潜力,包括但不限于高质量指令样本构建、课程学习、reasoning RL 等方向; 4.应用:通过模型与场景的深度耦合,推进大模型能力在实际业务中的最优表达,构建具备长期价值的智能 Agent; 5.结合以上方向的探索和研究,撰写发表论文,和业界、学术界保持良好的交流。

更新于 2025-04-19
logo of antgroup
实习研究型实习生

研究领域: 人工智能 项目简介: 蚂蚁国际当前处于全球化和AI规模化应用的战略关键节点中,为支持多条业务线的业务规模化增长,蚂蚁国际风控致力于AI的创新及其在风控场景的应用。应用场景包括但不限于基于多智能体的风控决策系统, Deepfake识别,风控深度推理大模型等解决实际业务痛点。团队鼓励创新,勇于探索及突破前沿AI能力边界。 1.负责foundation model和生成式AI智能体构建,追踪业界文本生成、思维学习、内容理解等方向的最新技术,极致优化预训练、微调、领域知识注入、RLHF、RM、AI可解释能力。 2.负责AI技术前沿技术跟踪、创新和落地,例如,利用意图理解、图文理解等构建新一代的生成式审核机器人与辅助系统,运用反馈标注、知识体系建设、知识图谱构建等任务;利用多模态技术对图像、文本、结构化数据进行融合学习,致力于挖掘风控场景问题并全面提升风险运营效率,并帮助实现对合规、欺诈、洗钱等风险的高效管控。 3.深入跟踪调研前沿技术方向 ,包括但不限于 NLP/CV/多模态/智能体等,并适时进行技术分享。推动相关领域技术创新,进行专利申请和学术文章发表,产出至少一篇CCF-A以上论文。

logo of alibaba
实习淘天集团研究型实

1. 研究并探索大规模语言模型及多模态大模型在推荐系统可解释性生成中的应用,包括基于大模型的解释生成、用户意图理解与个性化解释优化; 2. 跟进并研发大模型的关键技术链路,包括SFT、RLHF等,提升解释内容的准确性、自然性与用户可接受度; 3. 构建推荐-解释联合建模框架,融合RAG、COT、Agent 推理等技术,实现动态、透明、可信的推荐决策过程; 4. 探索多模态大模型在推荐场景下的可解释性表达能力,支持跨模态解释生成与用户交互;结合工业级推荐场景(如电商),推动研究成果落地,并持续优化线上效果与用户体验; 5. 撰写高水平学术论文,和业界、学术界保持良好的交流。

更新于 2025-08-11
logo of amap
实习高德研究型实习生

业务丰富,技术领先 高德打车算法团队深度赋能打车业务全链路,涵盖 用户增长、风控、服务管控、路线与上下车点推荐、ETA 预估、智能客服 等核心场景。多样化的业务挑战为算法创新提供了广阔的发挥空间,团队已在 AI 顶级会议发表成果。 精英阵容,国际视野 团队成员来自泰晤士世界大学排名 Top 10 的高校,以及美国常青藤、清华、北大等顶尖院校,兼具国际化背景与一流技术视野。 持续成长,共享共进 团队每周固定进行技术分享,氛围开放、互助友好;除了解答算法与工程难题,资深同事还会分享项目经验,并传授业务理解与问题解决的方法论,助你快速成长。 高德打车算法团队致力于用前沿AI技术重塑每一次打车体验。我们不是在做“推荐路线”,而是在理解用户为什么这样出行——他们偏爱哪条路?为何总在某个路口取消订单?哪些投诉背后藏着未被听见的需求? 我们正在寻找对用户行为洞察和大模型落地充满热情的实习生,与我们一起,用AI读懂出行的“潜台词”,让平台更懂你。 在这里,你将: • 构建用户出行偏好画像 基于海量行程数据,利用大模型(LLM)挖掘用户在路线选择、上下车点偏好、出行时段等方面的隐性行为模式,构建个性化出行画像,驱动个性化推荐与服务预判。 • 挖掘路线与上下车点的“隐藏特性” 分析亿级路线片段与上下车点的时空特征,通过大模型语义理解与多源信息融合,提炼可量化、可解释的“路段 / POI 质量标签”,优化点线相关推荐服务的质量。 • 提升投诉反馈的智能响应与信息透出能力 构建基于大模型的客诉理解与归因系统,自动识别投诉核心诉求(如“绕路”“司机态度”“等太久”),关联具体路线/上下车点/时段,生成结构化反馈报告,推动产品优化与客服话术升级,实现“从听抱怨到改体验”的闭环。 • 推动大模型技术在真实场景中的闭环落地 应用RAG、SFT、DPO、AI Agent等技术,构建可解释、可追踪、可迭代的智能系统,让模型不只是“跑得准”,更能“说得清、改得动、用得好”。 你的工作将直接服务全国数亿用户,每一次模型优化,都可能让一位用户少等5分钟、多一份安心、少一次投诉。你不是在写代码,你是在重塑人与出行之间的信任关系。

更新于 2025-09-25