logo of mi

小米顶尖应届-多模态大模型算法工程师-大模型

校招全职地点:北京状态:招聘

任职要求


1. 精通机器学习深度学习),具备卓越的创新研究能力,充满对未知领域的好奇心,热衷于探索前沿技术边界;
2. 编程能力出色,熟练掌握至少两种编程语言,精通Pytorch/Tensorflow,能够将创造性想法快速转化为高效代码;
3. 研究成果丰富,在国际顶级会议或期刊(如NeurIPSICLR、ACL、CVPR、COLT等)发表高水平论文,展现独特洞见与技术突破;
4. 在领域内知名比赛中取得优异成绩者优先,体现解决复杂问题的创造力与竞争力;
5. 笃信通用人工智能(AGI)的未来愿景,致力于通过开放协作与持续创新推动AGI发展;
6. 认同开放共进的企业文化,具备敏锐的逻辑思维、卓越的沟通协调能力和自我学习能力,主动负责,严谨细致,勇于挑战常规,追求极致。

工作职责


将围绕多模态(文本、图像、音频、视频)理解和生成统一的基座大模型的数据、模型结构、统一建模方式、训练与推理优化、深度推理等核心问题展开研究,具体研究内容包括:
1. 多模态(文本、图像、音频、视频)数据的收集、合成及数据策略,提升质量、多样性、可扩展性;
2. 探索多模态理解与生成统一的建模方式;
3. 多模态模型的模型结构的设计与优化,高效的大规模分布式训练和推理系统(云侧和端侧);
4. 研究多模态模型的深度推理范式。

【课题名称】
多模态生成与理解统一模型
【课题内容】
突破多模态统一建模方式的技术瓶颈,训练理解与生成统一的多模态基座大模型,实现高效训练与推理系统。
包括英文材料
机器学习+
深度学习+
PyTorch+
TensorFlow+
NeurIPS+
CVPR+
相关职位

logo of mi
校招

1. 实时跟踪最新论文,积极提出创新思路并快速实验; 2. 把成果整理成开源项目和论文发布。 【课题名称】 多模态基座模型的开源发布与维护 【课题内容】 发布并维护行业顶尖的、被同行研究者广泛作为基座下载使用和继续开发的多模态模型基座。

更新于 2025-06-25
logo of mi
校招

1. 研发端到端全模态理解和推理大模型核心技术,在模型结构、对齐策略、指令微调、偏好对齐、多阶段渐进式学习训练策略、推理能力增强(关系推理、因果推理、常识推理)等方面做出创新突破,达到业内一流; 2. 研发视觉理解和推理大模型核心技术,在图像理解,视频理解,视觉推理能力增强(关系推理、因果推理、常识推理),GUI屏幕感知和推理、端到端图像翻译等方向创新突破,达到业内一流; 3. 优化语音识别大模型的上下文感知能力,通过送入交互历史信息提升语音识别准确率;优化语音识别大模型的热词感知能力,通过送入相关热词提升语音识别准确率;优化语音多模态理解大模型的SpeechEncoder,提升语音理解大模型的语音理解能力和声音理解能力,包括语音内容、情感、性别、声音事件、音乐风格等;在用户跟智能体对话的过程中,检测用户的表达完整性,从而加快系统响应速度且不带来更多的误截断;在语音对话模型中,检测用户交互的对象,从而提升打断的有效性和系统交互的响应速度; 4. 端到端全模态理解和推理、视觉理解、语音理解等,建立比较广泛的业界影响力,论文引用数300+、主流算法竞赛/排行榜TOP1、开源Star 2000+等; 5. 端到端全模态理解和推理、视觉理解、语音理解等,落地在小米核心业务场景,提升核心产品竞争力和用户智能体验,包括手机(OS/小爱)、汽车、生态链等。 【课题名称】 端到端全模态理解和推理大模型研究与应用 【课题内容】 1. 研究端到端全模态理解和推理大模型的核心技术,产出突破性成果,在小米核心业务场景落地;输入文本、图像、视频、语音等模态,输出文本、语音等模态;探索全模态信息感知能力;探索全模态混合推理思维链;探索全模态思维强化; 2. 研究视觉理解和推理的核心技术和应用,包括图像理解与推理、长视频理解与推理、屏幕感知和端到端图像翻译等; 3. 研究语音理解大模型的感知关键技术,包括有效利用场景、上下文、个性化信息更好的进行音频内容的转写以及副语言信息的提取,用户表述完整性检测等,提升流式交互系统的响应速度和理解准确性等。

更新于 2025-06-25
logo of mi
校招

1. 研究VLM/VLA大模型的跨模态表示机制,构建适用于驾驶语境的latent policy head; 2. 探索视觉语言到行为(VL2A)的联合预训练方法,设计引导式数据生成与指令微调机制; 3. 构建视觉语言行为多模态数据集,支持高质量对齐(如视觉意图对话、轨迹文字描述); 4. 探索embedding space中的行为压缩、潜变量建模、语言驱动的轨迹解码与规划决策。 【课题名称】 多模态大模型(VLM/VLA) 【课题内容】 构建以视觉-语言-行为(VLA)联合建模为核心的大模型体系。基础模型采用大规模预训练视觉语言模型(VLM,如LLaVA、InternVL、GPT4V),通过Latent Action Modeling构建统一的感知-认知-决策抽象表示。研究如何以自然语言+视觉输入预测潜在行为意图与策略,通过领域微调(domain adaptation)与RLHF-style强化引导,打造真正具备泛化与交互理解能力的通用智能Agent。

更新于 2025-06-26
logo of mi
校招

1. 研究VLM/VLA大模型的跨模态表示机制,构建适用于驾驶语境的latent policy head; 2. 探索视觉语言到行为(VL2A)的联合预训练方法,设计引导式数据生成与指令微调机制; 3. 构建视觉语言行为多模态数据集,支持高质量对齐(如视觉意图对话、轨迹文字描述); 4. 探索embedding space中的行为压缩、潜变量建模、语言驱动的轨迹解码与规划决策。 【课题名称】 多模态大模型(VLM/VLA) 【课题内容】 构建以视觉-语言-行为(VLA)联合建模为核心的大模型体系。基础模型采用大规模预训练视觉语言模型(VLM,如LLaVA、InternVL、GPT4V),通过Latent Action Modeling构建统一的感知-认知-决策抽象表示。研究如何以自然语言+视觉输入预测潜在行为意图与策略,通过领域微调(domain adaptation)与RLHF-style强化引导,打造真正具备泛化与交互理解能力的通用智能Agent。

更新于 2025-06-26