腾讯混元视觉多模态理解与生成大模型算法研究员

社招全职2年以上公共技术2025-12-23地点：深圳状态：招聘

扫码手机上打开

任职要求

1.计算机科学、人工智能、计算机视觉、机器学习或相关领域的硕士或博士学位；
2.具备相关领域研究经验，熟悉主流技术，如在顶级会议或期刊发表过相关论文；
3.熟悉有关领域主流开源工具和框架，有匹配研究需要的工程能力；
4.具备良好的跨…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1.作为视觉领域的专家，与其它模态研究者共同参与创新的原生多模态大模型研究，包括创新模型架构、“2D+时间”和“3D+时间”大模型建模等；
2.探索对真实物理世界进行理解和生成、多模态推理及自进化持续学习的大模型；
3.关注学术界和行业最新研究动态，参与国际会议、研讨会，与全球顶级团队交流合作；
4.将研究成果向社区发布或技术转移至内部产品部门。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

OpenCV+

还有更多 •••

登录查看完整学习资料

相关职位

混元数据算法工程师（北京）

社招2年以上AI技术

1.数据特征算法：负责海量文本&多模态数据（图像，视频，音频，3D）的内容理解（如分类标签体系、embedding表征、Caption生成等），质量检测（低质识别检测、优质美学评价等），去重/聚类分析，数据合成等算法； 2.数据pipeline建设：负责数据采集、筛选清洗、标注与质量评估pipeline的建设。与模型业务团队紧密配合，充分分析挖掘数据资源，建立自动化数据处理流程与机制，支持模型持续迭代； 3.数据实验分析：对模型训练数据进行详细分析，建立科学数据实验机制，识别样本不足、质量问题、配比不均衡等潜在问题，驱动数据优化提升数据覆盖、质量、多样性需求，最终带来大模型生成效果的持续提升。

更新于 2025-10-15深圳

混元AGI模型架构研究员

社招3年以上公共技术

1.设计具备多模态联合感知、推理、记忆与生成能力的统一大模型架构（视觉/音频/文本）； 2.构建支持持续学习、多级记忆、主动探索和自演进的大模型系统； 3.推进 agent化方向，使模型具备自主任务规划、跨模态交互、工具使用和自我优化能力； 4.深度参与通用表征、音视频同频建模、世界模型、稀疏建模等关键模块的设计与实现； 5.跟踪并研究前沿技术趋势，推动创新技术在项目中的应用。

更新于 2026-01-23深圳

混元语音与音频理解方向研究员（语音生成方向）（北京/深圳/上海）

社招2年以上混元助手-其他技

1.跟踪业界最新的语音生成算法研究，探索下一代语音、音频生成新范式，拓展语音生成边界能力； 2.探索多模态语音大模型的前沿技术，结合文本、语音、视觉等技术提升语音交互体验； 3.负责语音大模型的技术研发工作，推动模型性能提升与创新应用。

更新于 2025-11-17北京

混元多模态大模型算法加速工程师（深圳/北京/上海/杭州）

社招2年以上TEG公共技术

1.主动跟踪学术界与工业界在图像视频生成式模型、多模态理解模型、语音模型、多模态理解生成统一建模等方向的创新算法研究，攻克Diffusion模型加速、多模态理解模型、语音模型（ASR、TTS、Omini等）、多模态理解生成统一建模加速等技术方向，包括但不限于：（Attention量化/稀疏加速、蒸馏加速、量化、投机解码、剪枝、KV Cache 压缩等等）； 2.通过分析模型和任务性能瓶颈，设计创新的算法优化方案，提升多模态大模型的推理效率，显著降低端到端延迟； 3.作为算法与框架团队之间的技术桥梁，聚焦于图像理解、视频生成、音频理解生成、视觉多轮交互、实时对话等任务，提升模型在推理端的性能； 4.高效协同框架开发及业务算法团队，确保技术方案落地。撰写高质量的技术文档与实验报告，并组织内部分享，推动团队整体技术认知提升。

更新于 2026-06-08深圳