logo of mi

小米顶尖应届-语音大模型算法研究员-MiMo

校招全职地点:北京状态:招聘

任职要求


多篇NLP&语音领域顶会论文发表

工作职责


1、大规模语音模态预训练
研究如何用千万小时级别语音数据在百亿级别参数模型上进行高效预训练,有效提取与利用通用声学与语义特征,提升语言理解及语音生成的一致性和自然度;
2、多语言语音理解与生成
研究跨语言语音数据的共享表示方法,提升语音模型对多语言、方言的适配能力;
3、噪声环境及复杂声学场景下的处理能力
研究语音大模型在嘈杂、混响、远场等典型场景下的泛化性;
4、探索高效语音信息压缩方法
研究语音模态压缩方法,以实现长时理解,并适配不同类型的设备(云侧和端侧)的部署需求。
包括英文材料
NLP+
相关职位

logo of mi
校招

1. 大规模语音模态预训练 研究如何用千万小时级别语音数据在百亿级别参数模型上进行高效预训练,有效提取与利用通用声学与语义特征,提升语言理解及语音生成的一致性和自然度; 2. 多语言语音理解与生成 研究跨语言语音数据的共享表示方法,提升语音模型对多语言、方言的适配能力; 3. 噪声环境及复杂声学场景下的处理能力 研究语音大模型在嘈杂、混响、远场等典型场景下的泛化性; 4. 探索高效语音信息压缩方法 研究语音模态压缩方法,以实现长时理解,并适配不同类型的设备(云侧和端侧)的部署需求。 【课题名称】 语音理解和生成大模型 【课题内容】 本课题拟围绕先进的语音理解与生成大模型,研发面向复杂场景的通用语音技术。项目将通过大规模语音数据预训练与强化学习方法,探索高鲁棒性、高自然度的语音理解与生成能力。

更新于 2025-06-06北京
logo of mi
校招

1. 研发端到端全模态理解和推理大模型,在模型结构、对齐策略、指令微调、偏好对齐、多阶段渐进式学习训练策略、推理能力增强(关系推理、因果推理、常识推理)等方面做出创新突破,达到业内一流; 2. 端到端全模态理解和推理大模型,建立比较广泛的业界影响力,论文引用数100+、主流算法竞赛/排行榜TOP1、开源Star 1000+等。 【课题名称】端到端全模态理解和推理模型研究与应用 【课题内容】研究端到端全模态理解和推理大模型的核心技术和应用,包括文本、图像、视频、语音等模态输入,文本和语音等模态输出。

更新于 2025-11-13北京
logo of mi
校招

1. 大规模语音模态预训练 研究如何用千万小时级别语音数据在百亿级别参数模型上进行高效预训练,有效提取与利用通用声学与语义特征,提升语言理解及语音生成的一致性和自然度; 2. 多语言语音理解与生成 研究跨语言语音数据的共享表示方法,提升语音模型对多语言、方言的适配能力; 3. 噪声环境及复杂声学场景下的处理能力 研究语音大模型在嘈杂、混响、远场等典型场景下的泛化性; 4. 探索高效语音信息压缩方法 研究语音模态压缩方法,以实现长时理解,并适配不同类型的设备(云侧和端侧)的部署需求。 【课题名称】 语音理解和生成大模型 【课题内容】 本课题拟围绕先进的语音理解与生成大模型,研发面向复杂场景的通用语音技术。项目将通过大规模语音数据预训练与强化学习方法,探索高鲁棒性、高自然度的语音理解与生成能力。

更新于 2025-05-22北京
logo of mi
校招

1. 聚焦语音/音频生成大模型技术研究,涵盖多模态融合,提升长序列建模能力与实时性; 2. 研发风格与情感可控技术,构建语义-时序-声学等多级可控接口,支持音色迁移与交互式编辑; 3. 落地助手、无障碍等小米应用场景,发表顶会论文一篇以上,申请专利两项以上。 【课题名称】 语音生成大模型研究与应用 【课题内容】 研究语音或音频生成与编辑大模型相关技术,优化生成效果及可控性,平衡效率与效果,探索前沿的声音生成技术方案等。

更新于 2025-06-25北京