logo of mi

小米顶尖应届-多模态大模型算法研究员-MiMo

校招全职地点:北京状态:招聘

任职要求


多篇NLP&CV领域顶会论文发表

工作职责


将围绕多模态(文本、图像、音频、视频)理解和生成统一的基座大模型的数据、模型结构、统一建模方式、训练与推理优化、深度推理等核心问题展开研究,具体研究内容包括:
1、多模态(文本、图像、音频、视频)数据的收集、合成及数据策略,提升质量、多样性、可扩展性;
2、 探索多模态理解与生成统一的建模方式;
3、多模态模型的模型结构的设计与优化,高效的大规模分布式训练和推理系统(云侧和端侧);
4、 研究多模态模型的深度推理范式。
包括英文材料
NLP+
相关职位

logo of mi
校招

1、大规模语音模态预训练 研究如何用千万小时级别语音数据在百亿级别参数模型上进行高效预训练,有效提取与利用通用声学与语义特征,提升语言理解及语音生成的一致性和自然度; 2、多语言语音理解与生成 研究跨语言语音数据的共享表示方法,提升语音模型对多语言、方言的适配能力; 3、噪声环境及复杂声学场景下的处理能力 研究语音大模型在嘈杂、混响、远场等典型场景下的泛化性; 4、探索高效语音信息压缩方法 研究语音模态压缩方法,以实现长时理解,并适配不同类型的设备(云侧和端侧)的部署需求。

更新于 2026-06-02北京
logo of mi
校招

将围绕多模态(文本、图像、音频、视频)理解和生成统一的基座大模型的数据、模型结构、统一建模方式、训练与推理优化、深度推理等核心问题展开研究,具体研究内容包括: 1. 多模态(文本、图像、音频、视频)数据的收集、合成及数据策略,提升质量、多样性、可扩展性; 2. 探索多模态理解与生成统一的建模方式; 3. 多模态模型的模型结构的设计与优化,高效的大规模分布式训练和推理系统(云侧和端侧); 4. 研究多模态模型的深度推理范式。 【课题名称】 多模态生成与理解统一模型 【课题内容】 突破多模态统一建模方式的技术瓶颈,训练理解与生成统一的多模态基座大模型,实现高效训练与推理系统。

更新于 2025-06-06北京
logo of mi
校招

1、围绕视觉-语言-动作 (VLA) 模型与具身世界模型方向,研发面向机器人感知、理解、预测、决策与动作生成的一体化算法,推动多模态端到端模型在复杂场景中的能力上限。 2、具身大模型全生命周期研发,包括模型架构设计、预训练、后训练、评测与部署,持续优化模型在真实任务中的成功率、鲁棒性与泛化能力。 3、主导或参与视觉/动作编码器、多模态表征学习、离散/连续tokenizer等核心模块研发,提升模型对视觉、动作、时空信息的压缩、建模与生成能力。 4、与数据、Infra等团队,推动数据-训练-测评的协同迭代。 5、跟踪具身智能、多模态大模型、生成式建模等前沿方向,复现并创新相关方法,推动高水平论文、开源项目及专利产出。

更新于 2026-04-03北京
logo of mi
校招

1. 研发端到端全模态理解和推理大模型,在模型结构、对齐策略、指令微调、偏好对齐、多阶段渐进式学习训练策略、推理能力增强(关系推理、因果推理、常识推理)等方面做出创新突破,达到业内一流; 2. 端到端全模态理解和推理大模型,建立比较广泛的业界影响力,论文引用数100+、主流算法竞赛/排行榜TOP1、开源Star 1000+等。 【课题名称】端到端全模态理解和推理模型研究与应用 【课题内容】研究端到端全模态理解和推理大模型的核心技术和应用,包括文本、图像、视频、语音等模态输入,文本和语音等模态输出。

更新于 2025-11-13北京