logo of sensetime

商汤26届AI领航员-研究院-多模态大模型强化学习算法工程师

校招全职算法研究地点:深圳状态:招聘

任职要求


1. 硕士及以上学历,计算机科学、人工智能、自动化、数学等相关专业;
2. 扎实的机器学习深度学习强化学习基础,包括预训练、SFT、DPO/PPO/GRPO等;
3. 具备RL算法优化和实践经验,熟悉Verl、openR1等相关框架优先;
4. 精通Python编程语言,对深度学习框架Pytorch有深入理解,包括其中高级特性和…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 参与文档解析多模态大模型的研发和迭代,研发高效的强化学习训练与推理系统,解决大规模图文数据处理、算力利用及模型优化问题;
2. 设计并实现适用于多模态大模型的奖励机制,涵盖图文对齐、复杂推理、OCR/文档解析、表格理解、视觉问答、Agent 操作等多模态任务,探索创新性强化学习算法与多模态对齐方法;
3. 构建并优化多模态强化学习流程,包括数据生成、奖励模型训练、策略优化(如 PPO / DPO  / GRPO 等)、模型评测与部署,实现模型能力的精准量化与持续优化;
4. 结合业务需求提出创新方案,推动 RL 优化后的多模态大模型在办公自动化、教育、金融等领域落地应用。
包括英文材料
学历+
机器学习+
深度学习+
强化学习+
SFT+
还有更多 •••
相关职位

logo of sensetime
校招算法研究

1. 参与文档解析多模态大模型的研发,包括预训练、微调、指令对齐和推理优化; 2. 设计并实现高效的训练与推理系统,解决大规模文档数据处理、算力利用与模型优化问题; 3. 针对复杂文档场景,探索文本、版面(layout)、表格、公式、印章等多模态元素的解析方法; 4. 构建并优化文档解析全流程,包括数据预处理、模型训练、评测指标与工程化部署; 5. 结合业务需求,提出创新性方案并推动落地,形成可复现、可扩展的工程化体系。

更新于 2025-09-08北京|深圳
logo of sensetime
校招算法研究类

工作职责【岗位职责】 你将有机会参与以下一个或多个前沿方向的研究与开发: 多模态统一模型: 参与多模态大模型(文本、语音、图像等)的前沿研究,探索生成与理解任务的统一框架,以及高效的多模态联合学习方法。 个性化对话系统: 设计并实现更具“人性”的对话系统,重点攻克长期记忆、持续学习和情境感知等关键技术,让AI能够记住与你的每一次互动。 强化学习与交互策略: 将强化学习(RL)算法创新性地应用于语音/音频相关的多模态任务中,通过与环境或用户的交互,自主优化AI的决策与沟通策略。 语音智能体(Voice Agent): 参与构建具备主动交互与复杂任务规划能力的语音Agent,使其不仅能“听懂”,更能“思考”和“行动”,完成多轮、跨领域的复杂指令。 前沿技术探索: 跟踪NeurIPS, ICML, ICLR, ACL等顶会的前沿进展,快速复现、验证并改进相关算法,推动技术落地

更新于 2025-08-21上海
logo of sensetime
校招算法研究类

1. 多模态理解与生成算法研究: 紧跟领域前沿,深入研究多模态(图像、文本、视频)的理解与生成统一的核心算法; 2. 模型设计与优化: 负责多模态理解与生成模型的设计、训练、评估和优化,不断提升模型性能和泛化能力; 3. 创新技术探索: 探索新的预训练和后训练范式,发现和解决大模型靠单一模态难以解决的问题。

更新于 2025-08-21北京|上海|深圳
logo of sensetime
校招算法研究

1. 负责大模型算法框架的研发,整体提升算法框架训练效率,跟进最近的训练技术; 2. 负责探索MOE、RLHF 等相关对齐技术,提升模型的最终效果; 3. 负责多模态模型和Function Call 模型的联合训练,整体优化多模态模型和语言模型联合训练。

更新于 2025-08-21北京|上海|深圳