小米顶尖应届-大模型训练与推理研究员-MiMo
任职要求
1、精通机器学习(深度学习),具备卓越的创新研究能力,充满对未知领域的好奇心,热衷于探索前沿技术边界; 2、编程能力出色,熟练掌握至少两种编程语言,精通Pytorch/Tensorflow,能够将创造性想法快速转化为高效代码; 3、研究成果丰富,在国际顶级会议或期刊(如NeurIPS、ICLR、ACL、CVPR、COLT等)发表高…
工作职责
1、设计和实现支持大规模分布式训练的集群和框架; 2、 构建高效的推理框架和算子优化,支持超大规模模型的在线和离线推理需求; 3、研究PD分离、Context Caching、模型量化、推敲编码等推理优化技术。
将围绕多模态(文本、图像、音频、视频)理解和生成统一的基座大模型的数据、模型结构、统一建模方式、训练与推理优化、深度推理等核心问题展开研究,具体研究内容包括: 1、多模态(文本、图像、音频、视频)数据的收集、合成及数据策略,提升质量、多样性、可扩展性; 2、 探索多模态理解与生成统一的建模方式; 3、多模态模型的模型结构的设计与优化,高效的大规模分布式训练和推理系统(云侧和端侧); 4、 研究多模态模型的深度推理范式。
参与大语言模型的核心技术研发,包括但不限于: 1、预训练优化(数据合成、长上下文建模、训练动力、scaling laws分析); 2、后训练技术(强化学习、奖励模型、推理能力提升); 3、代码生成与理解(自动化数据构建、运行反馈优化); 4、模型架构创新(MoE、高效推理、稳定性优化); 5、 探索AI Agent、长序列推理、在线学习等新兴方向。
1. 设计和实现支持大规模分布式训练的集群和框架; 2. 构建高效的推理框架,支持超1T模型大模型的在线和离线推理需求; 3. 研究PD分离、Context Caching、模型量化、推敲编码等推理优化技术。 【课题名称】 大模型训练和推理框架 【课题内容】 1. 模型训练和推理基础设施研发; 2. “训练推理x模型结构x训练算法”co-design。
将围绕多模态(文本、图像、音频、视频)理解和生成统一的基座大模型的数据、模型结构、统一建模方式、训练与推理优化、深度推理等核心问题展开研究,具体研究内容包括: 1. 多模态(文本、图像、音频、视频)数据的收集、合成及数据策略,提升质量、多样性、可扩展性; 2. 探索多模态理解与生成统一的建模方式; 3. 多模态模型的模型结构的设计与优化,高效的大规模分布式训练和推理系统(云侧和端侧); 4. 研究多模态模型的深度推理范式。 【课题名称】 多模态生成与理解统一模型 【课题内容】 突破多模态统一建模方式的技术瓶颈,训练理解与生成统一的多模态基座大模型,实现高效训练与推理系统。