小鹏汽车多模态（语音大模型）算法暑期实习生

实习兼职2026-04-27地点：北京状态：招聘

扫码手机上打开

任职要求

1. 实习地点：北京
2. 学历要求：硕士研究生（2027、2028届优先），计算机、人工智能、信号与信息处理、自动化等相关专业；
3. 技术背景：扎实掌握深度学习基础，了解语音信号处理、预训练大模型、多模态融合基础原理，熟悉语音大模型、ASR、TTS任一方向者优先；
4. 技能要求：熟练使用Python，熟…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、负责语音大模型、多模态大模型算法研发与迭代，涵盖语音理解、语音生成、语音对齐、音频文本多模态融合等核心技术研发工作；
2、参与语音大模型预训练、微调、Prompt优化与模型对齐实验，针对语音降噪、语音合成、口语理解、多模态交互等场景优化模型效果；
3、调研跟进语音大模型、多模态融合领域前沿论文与业界方案，完成算法复现、实验对比、方案迭代，解决语音模型泛化差、推理精度不足等场景问题；
4、负责语音数据集清洗、构建、标注优化，完成模型训练、评测、复盘，输出实验文档与技术报告，协助推进多模态语音模型业务落地。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

深度学习+

大模型+

语音识别+

还有更多 •••

登录查看完整学习资料

相关职位

语音多模态大模型算法工程师

社招A31384

1、负责语音多模态模型算法方案研发、迭代和落地应用 2、负责大规模、多模态数据集的构建、清洗、标注和管理 3、持续跟踪国际前沿的语音、多模态及大模型技术动态

更新于 2025-11-25北京

通义实验室-语音多模态大模型算法工程师-通义百聆

社招3年以上技术类-算法

1. 语音多模态大模型算法创新：面向下一代语音多模态通用大模型，探索并定义统一的技术范式，开展文本、语音等多模态的联合建模与协同推理研究，系统性解决多模态对齐、跨模态推理、Agentic 能力等核心挑战，持续推动模型能力与泛化上限。 2. 场景驱动的算法创新：紧密结合真实业务场景（如智能交互、内容生成、跨模态检索等），设计并优化多模态大模型架构与训练策略，在保证效果领先的同时，持续提升模型效率、稳定性与鲁棒性，推动技术在复杂场景中的规模化落地。 3. 前沿应用技术探索：跟踪并深度参与 LLM、多模态模型、Diffusion Models、强化学习等方向的前沿研究，快速完成技术验证与实验迭代，探索新建模范式与训练范式，持续刷新相关任务的 SOTA。"

更新于 2026-03-19北京|杭州

通义实验室-语音大模型算法专家/高级专家-多模态交互

社招3年以上技术类-算法

1. 负责语音合成、语音识别、端到端语音交互大模型算法的基础研究和应用落地。 2. 参与语音合成与识别技术在业务场景落地，解决落地过程中的前沿问题，持续优化语音合成与识别核心技术效果。 3. 深入调研和关注音频/NLP/多模态/全模态等方向的前沿技术，持续探索语音技术的新能力和新应用。

更新于 2026-02-11北京|杭州

多模态大模型算法实习生（语音方向）

实习核心本地商业-基

1. 优化语音合成线上效果，探索语音新范式以及语音大模型等前沿技术； 2. 研究音乐、歌唱合成以及歌唱转换等方向，给视频化提供更丰富的能力； 3. 探索全流式语音合成，以及优化音频编辑技术效果； 4. 持续优化视频配音效果，结合业务需求提供多样化强表现力的配音能力。

更新于 2025-09-08北京|上海