商汤多模态理解生成见习算法研究员

社招全职算法研究2025-12-09地点：北京 | 上海 | 深圳状态：招聘

扫码手机上打开

任职要求

1.扎实的理论基础： 计算机科学、人工智能、电子工程等相关专业在读硕士或博士生，对机器学习、深度学习有深入理解，熟悉Transformer等核心模型，以及基本的数学知识和编程能力。
2.强烈的探索精…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1.多模态理解与生成算法研究： 紧跟领域前沿，深入研究多模态（图像、文本、视频）的理解与生成统一的核心算法。
2.模型设计与优化： 负责多模态理解与生成模型的设计、训练、评估和优化，不断提升模型性能和泛化能力。
3.创新技术探索： 探索新的预训练和后训练范式，发现和解决大模型靠单一模态难以解决的问题。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

机器学习+

还有更多 •••

登录查看完整学习资料

相关职位

多模态理解生成见习算法研究员

实习算法研究

工作职责1.多模态理解与生成算法研究：紧跟领域前沿，深入研究多模态（图像、文本、视频）的理解与生成统一的核心算法。 2.模型设计与优化：负责多模态理解与生成模型的设计、训练、评估和优化，不断提升模型性能和泛化能力。 3.创新技术探索：探索新的预训练和后训练范式，发现和解决大模型靠单一模态难以解决的问题。：

更新于 2025-12-09北京|上海|深圳

多模态理解和生成统一的前沿应用研究-阿里星

实习阿里巴巴2027

1、多模态理解：负责图文/视频/音频理解相关的算法研发，提升模型对复杂多模态场景的语义分析和推理能力； 2、多模态生成：开发基于 Diffusion Model 或 Autoregressive 架构的生成算法（如 Text-to-Image, Text-to-Video），优化生成的质量、多样性与可控性； 3、研究多模态理解和生成统一的数据组织、训练范式等难点问题，大规模多模态理解和生成的训练和应用。

更新于 2026-03-17北京|杭州

多模态理解与生成统一架构核心研究员-【可灵AI】

社招3-5年J0011

现在在做什么： 1、理解生成一体化架构升级，同时打通图视频统一底座； 2、理解能力正在成为生成质量的天花板。Google Nano Banana 2、GPT Image 2.0 都在朝这个方向收敛。我们的下一代模型需要在多模态理解上有完整 hands-on 经验的人，一起定义新架构——而不是执行已定方案。你将主导： 1、理解生成一体化架构设计； 2、Thinking / Chain-of-Thought for Image Generation； 3、Long Visual Context Compression； 4、大规模多模态预训练； 5、后训练与对齐； 6、图视频统一探索。我们能提供： 1、真正的架构话语权——你的判断直接写进技术路线图； 2、经过验证的执行力和产品力——O1 和 3.0 Omni 不是 paper，是每天上百万用户在用的产品； 3、充足资源——中心级千卡算力 + 完整数据基础设施； 4、图视频协同的独特 scope——国内少数同时在图像和视频头部的平台。

更新于 2026-06-09北京|深圳

多模态/视觉大模型理解和生成算法实习生

实习内容理解

我们是小红书应用算法部/内容理解算法组，目前专注于内容理解场景的技术落地和产品预研。我们希望寻求优秀在读硕士生/博士生共同突破多模态/视觉大模型理解和生成算法在多模态内容理解行业落地的技术挑战，作为实习生，你将有机会与产品、工程紧密合作，将研究算法应用到实际问题中，并解决有难度有价值的问题，促进领域前沿技术的发展。欢迎投递简历。该岗位的核心研究方向包括但不限于： 1. 计算机视觉：解决视觉理解中指代关系特征归一化和识别研究； 2. 多模态表征：多源数据中多模态表征技术，包括局部/全局匹配、视频表征、多模态表征、对抗性和泛化性等问题。 3. 通用多模态大模型：通用多模态大模型在安全领域理解相关研究，包括强化微调、逻辑推理、多模态理解、幻觉消除及评价机制等。我们希望在一个和多个方向做出有意义的、创新性的工作。

更新于 2026-01-04北京