商汤26届AI领航员-研究院-多模态理解基础模型

校招全职算法研究类2025-08-20地点：北京 | 上海 | 深圳状态：招聘

扫码手机上打开

任职要求

背景扎实： 计算机科学、人工智能、电子工程、自动化等相关专业硕士或博士，学术基础优异（特别优秀的本科生亦可考虑）。
编程高手： 具备扎实的编程能力，精通 Python，并熟练掌握至少一种主流深度学习框架（PyTorch 优先）。
理论深厚： 熟悉机器学习、深度学习基础理论，对 Transformer、CNN、RNN 等模型有深刻理解。
领域经验： 对以下至少一个领域有深入研究或项目经验：
自然语言处理（NLP）：特别是大语言模型（LLMs）的预训练、微调等。
计算机视觉（CV）：熟悉图像识别、目标检测、分割等任务。
多模态学习（Multimodal Learning）：了解或…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

前沿探索： 跟踪和研究多模态学习、大语言模型（LLMs）、视觉基础模型等领域的最新进展（如 Transformer、Diffusion Models、VLP等）。
模型构建： 参与多模态基础模型的核心架构设计与实现，探索如何高效融合文本、图像、音频等多源信息。
能力攻坚： 重点攻克并提升模型在特定维度的基础能力，包括但不限于：
视觉文本理解： 提升复杂场景下的文字识别（Scene Text Recognition）与光学字符识别（OCR）的精度和鲁棒性。
布局与结构感知： 让模型理解文档、网页、UI界面的布局结构，实现精准的信息提取与问答。
空间关系推理： 训练模型理解图像/视频中物体之间的方位、遮挡、从属等空间关系。
实验与优化： 设计和执行大规模的深度学习实验，对模型进行训练、评估和迭代优化，并分析实验结果，沉淀技术方案。
协作共创： 与团队中的顶尖科学家和资深工程师紧密合作，共同解决研究与工程中的挑战。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Python+

深度学习+

PyTorch+

机器学习+

Transformer+

CNN+

RNN+

NLP+

还有更多 •••

登录查看完整学习资料

相关职位

26届AI领航员-研究院-算法研究员（多模态空间智能）

校招算法研究

1. 多模态空间智能前沿研究：紧跟领域前沿，深入研究提升多模态模型在空间智能领域的整体性能； 2. 下游任务验证：验证多模态空间智能模型在具身智能体中的作用； 3. 创新技术探索：探索新的预训练和后训练范式，找到在空间智能领域可泛化的训练范。

更新于 2025-08-21北京|上海|深圳

26届AI领航员-研究院-算法研究员（多模态理解生成）

校招算法研究类

1. 多模态理解与生成算法研究：紧跟领域前沿，深入研究多模态（图像、文本、视频）的理解与生成统一的核心算法； 2. 模型设计与优化：负责多模态理解与生成模型的设计、训练、评估和优化，不断提升模型性能和泛化能力； 3. 创新技术探索：探索新的预训练和后训练范式，发现和解决大模型靠单一模态难以解决的问题。

更新于 2025-08-21北京|上海|深圳

26届AI领航员-研究院-算法研究员（实时视频生成）

校招算法研究

1. 实时视频生成算法研究：紧密追踪并深入研究实时视频生成领域的最新进展，积极探索新的模型架构、训练范式、优化策略和硬件加速方案，实现并验证工业界可落地的方案； 2. 模型设计与优化：负责实时视频生成模型的设计、训练、评估和优化，在保证视频质量的同时，大幅提升生成速度和计算效率； 3. 性能瓶颈分析与解决：针对实时性要求，深入分析现有算法和系统的性能瓶颈，并提出有效的解决方案，确保视频生成流程的流畅与高效。

更新于 2025-08-21北京|上海|深圳

26届AI领航员-研究院-多模态推理与Agent能力突破

校招算法研究类

作为项目的核心成员，你将不仅仅是执行任务，更是与我们一同探索未知。具体职责包括：前沿探索：追踪并复现NeurIPS, ICML, ICLR, CVPR等顶会中关于多模态、Agentic AI、强化学习等方向的最新研究成果。算法实现：参与设计与实现创新的多模态融合、任务规划、工具学习、记忆与反思等核心算法模型。实验与分析：设计并执行大规模的AI实验，通过严谨的数据分析来验证假设、评估模型性能，并提出富有洞见的改进方向。系统构建：参与构建和优化项目的数据集、评测基准（Benchmark）以及Agent的执行环境。思想碰撞：与团队成员紧密合作，积极参与每周的技术讨论会和头脑风暴，贡献你的奇思妙想。

更新于 2025-08-20北京|上海|深圳