小米顶尖应届-多模态大模型算法研究员-大模型

校招全职2025-06-06地点：北京状态：招聘

扫码手机上打开

任职要求

1. 精通机器学习（深度学习），具备卓越的创新研究能力，充满对未知领域的好奇心，热衷于探索前沿技术边界；
2. 编程能力出色，熟练掌握至少两种编程语言，精通Pytorch/Tensorflow，能够将创造性想法快速转化为高效代码；
3. 研究成果丰富，在国际顶级会议或期刊（如NeurIPS、ICLR、ACL、CVPR、COLT等）发表…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

将围绕多模态（文本、图像、音频、视频）理解和生成统一的基座大模型的数据、模型结构、统一建模方式、训练与推理优化、深度推理等核心问题展开研究，具体研究内容包括：
1. 多模态（文本、图像、音频、视频）数据的收集、合成及数据策略，提升质量、多样性、可扩展性；
2. 探索多模态理解与生成统一的建模方式；
3. 多模态模型的模型结构的设计与优化，高效的大规模分布式训练和推理系统（云侧和端侧）；
4. 研究多模态模型的深度推理范式。

【课题名称】
多模态生成与理解统一模型
【课题内容】
突破多模态统一建模方式的技术瓶颈，训练理解与生成统一的多模态基座大模型，实现高效训练与推理系统。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

机器学习+

深度学习+

PyTorch+

还有更多 •••

登录查看完整学习资料

相关职位

顶尖应届-全模态理解和推理大模型算法研究员-大模型

校招

1. 研发端到端全模态理解和推理大模型，在模型结构、对齐策略、指令微调、偏好对齐、多阶段渐进式学习训练策略、推理能力增强（关系推理、因果推理、常识推理）等方面做出创新突破，达到业内一流; 2. 端到端全模态理解和推理大模型，建立比较广泛的业界影响力，论文引用数100+、主流算法竞赛/排行榜TOP1、开源Star 1000+等。【课题名称】端到端全模态理解和推理模型研究与应用【课题内容】研究端到端全模态理解和推理大模型的核心技术和应用，包括文本、图像、视频、语音等模态输入，文本和语音等模态输出。

更新于 2025-11-13北京

顶尖应届-视觉生成大模型算法研究员-大模型

校招

1. 参与视觉生成与编辑相关的大模型算法研发，探索领域前沿，持续创新，打造有影响力的高水平技术，并解决算法应用遇到的挑战问题，包括主体一致性、语义一致性、画质效果、重点场景效果优化、性能与效果平衡、可控生成等 2. 探索多模态理解与生成统一的大模型技术【课题名称】视觉生成大模型研究与应用【课题内容】研究图像或视频生成与编辑大模型相关技术，优化生成效果及可控性，平衡效率与效果，探索前沿的视觉生成技术方案等。

更新于 2025-06-25武汉

顶尖应届-具身大模型算法研究员-XiaomiRobotics

校招

1、围绕视觉-语言-动作 (VLA) 模型与具身世界模型方向，研发面向机器人感知、理解、预测、决策与动作生成的一体化算法，推动多模态端到端模型在复杂场景中的能力上限。 2、具身大模型全生命周期研发，包括模型架构设计、预训练、后训练、评测与部署，持续优化模型在真实任务中的成功率、鲁棒性与泛化能力。 3、主导或参与视觉/动作编码器、多模态表征学习、离散/连续tokenizer等核心模块研发，提升模型对视觉、动作、时空信息的压缩、建模与生成能力。 4、与数据、Infra等团队，推动数据-训练-测评的协同迭代。 5、跟踪具身智能、多模态大模型、生成式建模等前沿方向，复现并创新相关方法，推动高水平论文、开源项目及专利产出。

更新于 2026-04-03北京

顶尖应届-图像算法研究员-相机

校招

1. 参与领域大模型相关技术的调研验证； 2. 参与手机相机影像相关算法研发工作，开发行业领先的影像大模型算法； 3. 参与手机相机视觉相关功能研发，交付落地旗舰机型； 4. 研究行业动态，紧跟视觉/多模态大模型相关领域最新学术研究成果并转化成商用技术； 5. 参与学术研究，产出具备行业影响力的科研成果。【课题名称】影像大模型研发-高优先级功能【课题内容】 1. 影像领域基础模型的研发； 2. 基于大模型的端到端影像系统研发； 3. 基于大模型影像功能算法的研发，具体到大模型抓拍、TurboRaw； 4. 基于大模型的图像理解、感知算法的研发; 5. 大模型小型化技术探索及研发。

更新于 2025-06-25北京