小米顶尖应届-大语言模型算法研究员-MiMo
任职要求
熟悉大语言模型(如Transformer、MoE)的核心原理,具备以下至少一项经验: - 大规模模型训练(分布式训练、数据优化) - 强化学习、奖励建模或AI Ag…
工作职责
参与大语言模型的核心技术研发,包括但不限于: 1、预训练优化(数据合成、长上下文建模、训练动力、scaling laws分析); 2、后训练技术(强化学习、奖励模型、推理能力提升); 3、代码生成与理解(自动化数据构建、运行反馈优化); 4、模型架构创新(MoE、高效推理、稳定性优化); 5、 探索AI Agent、长序列推理、在线学习等新兴方向。
1、大规模语音模态预训练 研究如何用千万小时级别语音数据在百亿级别参数模型上进行高效预训练,有效提取与利用通用声学与语义特征,提升语言理解及语音生成的一致性和自然度; 2、多语言语音理解与生成 研究跨语言语音数据的共享表示方法,提升语音模型对多语言、方言的适配能力; 3、噪声环境及复杂声学场景下的处理能力 研究语音大模型在嘈杂、混响、远场等典型场景下的泛化性; 4、探索高效语音信息压缩方法 研究语音模态压缩方法,以实现长时理解,并适配不同类型的设备(云侧和端侧)的部署需求。
参与大语言模型的核心技术研发,包括但不限于: - 预训练优化(数据合成、长上下文建模、训练动态分析) - 后训练技术(强化学习、奖励模型、推理能力提升) - 代码生成与理解(自动化数据构建、运行反馈优化) - 模型架构创新(MoE、高效推理、稳定性优化) - 探索AI Agent、长序列推理、在线学习等新兴方向
1. 大规模语音模态预训练 研究如何用千万小时级别语音数据在百亿级别参数模型上进行高效预训练,有效提取与利用通用声学与语义特征,提升语言理解及语音生成的一致性和自然度; 2. 多语言语音理解与生成 研究跨语言语音数据的共享表示方法,提升语音模型对多语言、方言的适配能力; 3. 噪声环境及复杂声学场景下的处理能力 研究语音大模型在嘈杂、混响、远场等典型场景下的泛化性; 4. 探索高效语音信息压缩方法 研究语音模态压缩方法,以实现长时理解,并适配不同类型的设备(云侧和端侧)的部署需求。 【课题名称】 语音理解和生成大模型 【课题内容】 本课题拟围绕先进的语音理解与生成大模型,研发面向复杂场景的通用语音技术。项目将通过大规模语音数据预训练与强化学习方法,探索高鲁棒性、高自然度的语音理解与生成能力。
1、围绕视觉-语言-动作 (VLA) 模型与具身世界模型方向,研发面向机器人感知、理解、预测、决策与动作生成的一体化算法,推动多模态端到端模型在复杂场景中的能力上限。 2、具身大模型全生命周期研发,包括模型架构设计、预训练、后训练、评测与部署,持续优化模型在真实任务中的成功率、鲁棒性与泛化能力。 3、主导或参与视觉/动作编码器、多模态表征学习、离散/连续tokenizer等核心模块研发,提升模型对视觉、动作、时空信息的压缩、建模与生成能力。 4、与数据、Infra等团队,推动数据-训练-测评的协同迭代。 5、跟踪具身智能、多模态大模型、生成式建模等前沿方向,复现并创新相关方法,推动高水平论文、开源项目及专利产出。