小米顶尖应届-多模态大模型算法工程师-大模型

校招全职2025-05-22地点：北京状态：招聘

扫码手机上打开

任职要求

1. 精通机器学习（深度学习），具备卓越的创新研究能力，充满对未知领域的好奇心，热衷于探索前沿技术边界；
2. 编程能力出色，熟练掌握至少两种编程语言，精通Pytorch/Tensorflow，能够将创造性想法快速转化为高效代码；
3. 研究成果丰富，在国际顶级会议或期刊（如NeurIPS、ICLR、ACL、CVPR、COLT等）发表…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

将围绕多模态（文本、图像、音频、视频）理解和生成统一的基座大模型的数据、模型结构、统一建模方式、训练与推理优化、深度推理等核心问题展开研究，具体研究内容包括：
1. 多模态（文本、图像、音频、视频）数据的收集、合成及数据策略，提升质量、多样性、可扩展性；
2. 探索多模态理解与生成统一的建模方式；
3. 多模态模型的模型结构的设计与优化，高效的大规模分布式训练和推理系统（云侧和端侧）；
4. 研究多模态模型的深度推理范式。

【课题名称】
多模态生成与理解统一模型
【课题内容】
突破多模态统一建模方式的技术瓶颈，训练理解与生成统一的多模态基座大模型，实现高效训练与推理系统。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

机器学习+

深度学习+

PyTorch+

还有更多 •••

登录查看完整学习资料

相关职位

顶尖应届-多模态基座模型算法工程师-大模型

校招

1. 实时跟踪最新论文，积极提出创新思路并快速实验； 2. 把成果整理成开源项目和论文发布。【课题名称】多模态基座模型的开源发布与维护【课题内容】发布并维护行业顶尖的、被同行研究者广泛作为基座下载使用和继续开发的多模态模型基座。

更新于 2025-06-25北京

顶尖应届-全模态理解和推理大模型算法工程师-大模型

校招

1. 研发端到端全模态理解和推理大模型核心技术，在模型结构、对齐策略、指令微调、偏好对齐、多阶段渐进式学习训练策略、推理能力增强（关系推理、因果推理、常识推理）等方面做出创新突破，达到业内一流； 2. 研发视觉理解和推理大模型核心技术，在图像理解，视频理解，视觉推理能力增强（关系推理、因果推理、常识推理），GUI屏幕感知和推理、端到端图像翻译等方向创新突破，达到业内一流； 3. 优化语音识别大模型的上下文感知能力，通过送入交互历史信息提升语音识别准确率；优化语音识别大模型的热词感知能力，通过送入相关热词提升语音识别准确率；优化语音多模态理解大模型的SpeechEncoder，提升语音理解大模型的语音理解能力和声音理解能力，包括语音内容、情感、性别、声音事件、音乐风格等；在用户跟智能体对话的过程中，检测用户的表达完整性，从而加快系统响应速度且不带来更多的误截断；在语音对话模型中，检测用户交互的对象，从而提升打断的有效性和系统交互的响应速度； 4. 端到端全模态理解和推理、视觉理解、语音理解等，建立比较广泛的业界影响力，论文引用数300+、主流算法竞赛/排行榜TOP1、开源Star 2000+等； 5. 端到端全模态理解和推理、视觉理解、语音理解等，落地在小米核心业务场景，提升核心产品竞争力和用户智能体验，包括手机（OS/小爱）、汽车、生态链等。【课题名称】端到端全模态理解和推理大模型研究与应用【课题内容】 1. 研究端到端全模态理解和推理大模型的核心技术，产出突破性成果，在小米核心业务场景落地；输入文本、图像、视频、语音等模态，输出文本、语音等模态；探索全模态信息感知能力；探索全模态混合推理思维链；探索全模态思维强化； 2. 研究视觉理解和推理的核心技术和应用，包括图像理解与推理、长视频理解与推理、屏幕感知和端到端图像翻译等； 3. 研究语音理解大模型的感知关键技术，包括有效利用场景、上下文、个性化信息更好的进行音频内容的转写以及副语言信息的提取，用户表述完整性检测等，提升流式交互系统的响应速度和理解准确性等。

更新于 2025-06-25北京

顶尖应届-多模态端到端算法工程师-自动驾驶

校招

1. 研究VLM/VLA大模型的跨模态表示机制，构建适用于驾驶语境的latent policy head； 2. 探索视觉语言到行为（VL2A）的联合预训练方法，设计引导式数据生成与指令微调机制； 3. 构建视觉语言行为多模态数据集，支持高质量对齐（如视觉意图对话、轨迹文字描述）； 4. 探索embedding space中的行为压缩、潜变量建模、语言驱动的轨迹解码与规划决策。【课题名称】多模态大模型（VLM/VLA）【课题内容】构建以视觉-语言-行为（VLA）联合建模为核心的大模型体系。基础模型采用大规模预训练视觉语言模型（VLM，如LLaVA、InternVL、GPT4V），通过Latent Action Modeling构建统一的感知-认知-决策抽象表示。研究如何以自然语言+视觉输入预测潜在行为意图与策略，通过领域微调（domain adaptation）与RLHF-style强化引导，打造真正具备泛化与交互理解能力的通用智能Agent。

更新于 2025-06-26上海

顶尖应届-多模态端到端算法工程师-自动驾驶

校招

更新于 2025-06-26北京