logo of mi

小米顶尖应届-多模态大模型算法研究员-大模型

校招全职地点:北京状态:招聘

任职要求


1. 精通机器学习深度学习),具备卓越的创新研究能力,充满对未知领域的好奇心,热衷于探索前沿技术边界;
2. 编程能力出色,熟练掌握至少两种编程语言,精通Pytorch/Tensorflow,能够将创造性想法快速转化为高效代码;
3. 研究成果丰富,在国际顶级会议或期刊(如NeurIPSICLR、ACL、CVPR、COLT等)发表高水平论文,展现独特洞见与技术突破;
4. 在领域内知名比赛中取得优异成绩者优先,体现解决复杂问题的创造力与竞争力;
5. 笃信通用人工智能(AGI)的未来愿景,致力于通过开放协作与持续创新推动AGI发展;
6. 认同开放共进的企业文化,具备敏锐的逻辑思维、卓越的沟通协调能力和自我学习能力,主动负责,严谨细致,勇于挑战常规,追求极致。

工作职责


将围绕多模态(文本、图像、音频、视频)理解和生成统一的基座大模型的数据、模型结构、统一建模方式、训练与推理优化、深度推理等核心问题展开研究,具体研究内容包括:
1. 多模态(文本、图像、音频、视频)数据的收集、合成及数据策略,提升质量、多样性、可扩展性;
2. 探索多模态理解与生成统一的建模方式;
3. 多模态模型的模型结构的设计与优化,高效的大规模分布式训练和推理系统(云侧和端侧);
4. 研究多模态模型的深度推理范式。

【课题名称】
多模态生成与理解统一模型
【课题内容】
突破多模态统一建模方式的技术瓶颈,训练理解与生成统一的多模态基座大模型,实现高效训练与推理系统。
包括英文材料
机器学习+
深度学习+
PyTorch+
TensorFlow+
NeurIPS+
CVPR+
相关职位

logo of mi
校招

1. 参与视觉生成与编辑相关的大模型算法研发,探索领域前沿,持续创新,打造有影响力的高水平技术,并解决算法应用遇到的挑战问题,包括主体一致性、语义一致性、画质效果、重点场景效果优化、性能与效果平衡、可控生成等 2. 探索多模态理解与生成统一的大模型技术 【课题名称】 视觉生成大模型研究与应用 【课题内容】 研究图像或视频生成与编辑大模型相关技术,优化生成效果及可控性,平衡效率与效果,探索前沿的视觉生成技术方案等。

更新于 2025-06-25
logo of mi
校招

1. 参与领域大模型相关技术的调研验证; 2. 参与手机相机影像相关算法研发工作,开发行业领先的影像大模型算法; 3. 参与手机相机视觉相关功能研发,交付落地旗舰机型; 4. 研究行业动态,紧跟视觉/多模态大模型相关领域最新学术研究成果并转化成商用技术; 5. 参与学术研究,产出具备行业影响力的科研成果。 【课题名称】 影像大模型研发-高优先级功能 【课题内容】 1. 影像领域基础模型的研发; 2. 基于大模型的端到端影像系统研发; 3. 基于大模型影像功能算法的研发,具体到大模型抓拍、TurboRaw; 4. 基于大模型的图像理解、感知算法的研发; 5. 大模型小型化技术探索及研发。

更新于 2025-06-25
logo of mi
校招

1. 大规模语音模态预训练 研究如何用千万小时级别语音数据在百亿级别参数模型上进行高效预训练,有效提取与利用通用声学与语义特征,提升语言理解及语音生成的一致性和自然度; 2. 多语言语音理解与生成 研究跨语言语音数据的共享表示方法,提升语音模型对多语言、方言的适配能力; 3. 噪声环境及复杂声学场景下的处理能力 研究语音大模型在嘈杂、混响、远场等典型场景下的泛化性; 4. 探索高效语音信息压缩方法 研究语音模态压缩方法,以实现长时理解,并适配不同类型的设备(云侧和端侧)的部署需求。 【课题名称】 语音理解和生成大模型 【课题内容】 本课题拟围绕先进的语音理解与生成大模型,研发面向复杂场景的通用语音技术。项目将通过大规模语音数据预训练与强化学习方法,探索高鲁棒性、高自然度的语音理解与生成能力。

更新于 2025-06-06
logo of mi
校招

1. 追踪前沿强化学习的进展; 2. 搭建适合大规模强化学习的训练框架; 3. 探索在自动驾驶这种安全敏感任务中强化学习的应用方式。 【课题名称】 超大规模强化学习及在自动驾驶中的应用 【课题内容】 研究各种Zero范式在Physical AI中的应用,探索Self-Play在海量算力支持下的能力边界。

更新于 2025-05-22