小鹏汽车多模态(语音大模型)算法暑期实习生
任职要求
1. 实习地点:北京 2. 学历要求:硕士研究生(2027、2028届优先),计算机、人工智能、信号与信息处理、自动化等相关专业; 3. 技术背景:扎实掌握深度学习基础,了解语音信号处理、预训练大模型、多模态融合基础原理,熟悉语音大模型、ASR、TTS任一方向者优先; 4. 技能要求:熟练使用Python,熟…
工作职责
1、负责语音大模型、多模态大模型算法研发与迭代,涵盖语音理解、语音生成、语音对齐、音频文本多模态融合等核心技术研发工作; 2、参与语音大模型预训练、微调、Prompt优化与模型对齐实验,针对语音降噪、语音合成、口语理解、多模态交互等场景优化模型效果; 3、调研跟进语音大模型、多模态融合领域前沿论文与业界方案,完成算法复现、实验对比、方案迭代,解决语音模型泛化差、推理精度不足等场景问题; 4、负责语音数据集清洗、构建、标注优化,完成模型训练、评测、复盘,输出实验文档与技术报告,协助推进多模态语音模型业务落地。
1. 负责语音多模态大模型的研究与开发,包括Pretrain、SFT、RLHF等; 2. 负责语音处理算法的研究与开发,支撑大模型训练对数据的需求; 3. 负责大模型技术在快手业务中的落地,并探索新玩法或业务创新; 4. 负责跟踪国内外前沿技术的发展和实践,保持团队技术的敏锐性。
1. 主导多模态理解/音频大模型的前沿算法研究及产业落地。 2. 音频理解方向: (1)研发语音识别、语音翻译以及音频分析等理解算法。 (2)开发跨模态(语音/文本/视觉)的音频语义理解系统。 (3)探索音频大模型架构设计。 (4)推动算法成果转化:通过ModelScope开源社区创造研究价值,或通过阿里云产品体系创造商业价值。 (5)持续跟踪国际前沿技术动态(ICASSP/Interspeech/NeurIPS/ICLR等),参与国际会议、研讨会,与全球顶级团队进行交流合作。

1. 主导多模态理解/音频大模型的前沿算法研究及产业落地。 2. 音频理解方向: (1)研发语音识别、语音翻译以及音频分析等理解算法。 (2)开发跨模态(语音/文本/视觉)的音频语义理解系统。 (3)探索音频大模型架构设计。 (4)推动算法成果转化:通过ModelScope开源社区创造研究价值,或通过阿里云产品体系创造商业价值。 (5)持续跟踪国际前沿技术动态(ICASSP/Interspeech/NeurIPS/ICLR等),参与国际会议、研讨会,与全球顶级团队进行交流合作。
1. 通过多模态算法进行用户的可信认知,支持十亿级支付宝用户,业务覆盖支付宝、蚂蚁国际、消金、财富、保险、生态等蚂蚁全域场景。 2. 方向一:多模态理解与推理方向,负责全面、高精、高效的多模态垂域模型研发,深耕视觉图像&视频reasoning,提升理解和推理能力,攻坚reward设计、多模态推理框架设计等核心问题。 3. 方向二:负责声纹识别、声音防伪算法以及意图理解等算法,探索声纹表征、声纹防伪、ASR、语音合成等All-In-One模型方案,研发金融级识别和防伪算法,落地与实际支付场景; 4. 方向三:声学算法部分,负责波束成形、声源定位、阵列增强、音频编解码等软硬件一体语音信号处理算法原型开发、性能优化 5. 关注多模态以及语音大模型算法前沿技术和发展动态,持续探索新一代AI驱动的、高效的、有效的、业务及产品新范式,推动业务发展、引领行业变革;