小米顶尖应届-语音生成大模型算法工程师-大模型
任职要求
任职要求: 1. 硕士及以上学历,CS/EE/数学相关专业; 2. 优秀的软件工程素养,精通Python、C/C++程序设计; 3. 熟悉TensorFlow或PyTorch等深度学习框架; 4. 熟悉大模型语音合成,并且动手实践过相关的系统。 加分项: 1. 优秀的数理基础,能够快速理解掌握语音领域的数值计算法; 2. 在顶会发表过语音或者生成方向高水平论文。
工作职责
1. 聚焦语音/音频生成大模型技术研究,涵盖多模态融合,提升长序列建模能力与实时性; 2. 研发风格与情感可控技术,构建语义-时序-声学等多级可控接口,支持音色迁移与交互式编辑; 3. 落地助手、无障碍等小米应用场景,发表顶会论文一篇以上,申请专利两项以上。 【课题名称】 语音生成大模型研究与应用 【课题内容】 研究语音或音频生成与编辑大模型相关技术,优化生成效果及可控性,平衡效率与效果,探索前沿的声音生成技术方案等。
1. 大规模语音模态预训练 研究如何用千万小时级别语音数据在百亿级别参数模型上进行高效预训练,有效提取与利用通用声学与语义特征,提升语言理解及语音生成的一致性和自然度; 2. 多语言语音理解与生成 研究跨语言语音数据的共享表示方法,提升语音模型对多语言、方言的适配能力; 3. 噪声环境及复杂声学场景下的处理能力 研究语音大模型在嘈杂、混响、远场等典型场景下的泛化性; 4. 探索高效语音信息压缩方法 研究语音模态压缩方法,以实现长时理解,并适配不同类型的设备(云侧和端侧)的部署需求。 【课题名称】 语音理解和生成大模型 【课题内容】 本课题拟围绕先进的语音理解与生成大模型,研发面向复杂场景的通用语音技术。项目将通过大规模语音数据预训练与强化学习方法,探索高鲁棒性、高自然度的语音理解与生成能力。
1. 多模态感知融合:结合用户的语音、表情、手势姿态、眼动,以及汽车各种传感器状态,实现对模态输入的编码与解码; 2. 利用在线强化学习实现端云结合的大模型基座更新; 3. 基于大模型的生成能力,构建用户反馈行为序列; 4. 构造大模型在线主客观评估体系。 【课题名称】 基于大模型的意图监测 【课题内容】 通过在线强化学习(RL)、多模态感知理解生成技术,实现对用户意图的精准识别和响应。
岗位描述: 1. 负责开发和维护新一代Kaldi开源生态(https://github.com/k2-fsa); 2. 基于新一代Kaldi,参与新型语音技术研究,与Daniel Povey合作发表论文; 3. 与小米语音团队合作,结合新一代Kaldi,为小米全平台设备(包括但不限于汽车、手机、智能音箱、智能穿戴等AIoT设备)打造智能语音算法。 【课题名称】 大模型背景下前沿语音技术研究 【课题内容】 1. 探索语音预训练技术; 2. 大模型背景下语音识别技术的升级与突破; 3. 语音生成技术。
近年来,以大模型为核心的生成式人工智能技术在语言理解、内容生成、多模态建模与跨模态交互等领域取得了突破性进展,展现出前所未有的技术潜力与广泛的应用前景。 我们致力于通用人工智能(AGI)方向的前沿探索与产业落地创新。一方面,在迈向AGI的长期路径中,随着大语言模型能力的持续进化,多模态感知、融合与推理等关键问题日益凸显,成为构建通用智能系统的核心挑战;另一方面,围绕典型行业场景(如智能交互、高质量内容生成、跨模态检索与理解等),如何将现有大模型能力有效转化为可落地、可扩展、可持续的解决方案,也成为当前研究与工程实践的重点方向。 如果你对生成式AI、通用人工智能(AGI/ASI)前沿探索、多模态建模与智能交互系统有浓厚兴趣,并渴望深入参与下一代多模态通用模型的研发与演进,欢迎加入我们,共同定义未来AI的能力边界,牵引千行百业在智能时代的深度变革。 1. 多模态大模型算法创新:定义下一代多模态通用大模型技术范式,实现文本、语音、视觉模态的联合建模,探寻和解决多模态对齐、推理、Agentic等方面的核心挑战,不断追寻多模态通用大模型的效果上限。 2. 场景驱动的算法创新:结合业务场景(如智能交互、内容生成、跨模态检索等),设计并优化大模型架构,提升效果、效率与鲁棒性。 3. 端到端技术闭环:从数据构建、模型训练、评测到部署,主导技术方案落地,通过AB实验、调用量、用户反馈验证价值。 4. 前沿应用技术探索:紧跟并能驱动LLM、Diffusion Models、强化学习等技术相关进展,定义技术新范式,快速实验并迭代创新方案,拉升相关模型SOTA。