logo of xpeng

小鹏汽车智能语音研发专家/资深工程师(小语种)

社招全职3年以上地点:慕尼黑状态:招聘

任职要求


1、计算机科学、统计学、人工智能或相关领域的硕士及以上学历;
2、精通英语,能够作为工作语言使用;掌握德语、法语等1-2种小语种,具备良好的听说读写能力;
3、至少掌握一种开发语言,具备深度学习算法/大模型 开发经验优先;
4、掌握语音识别/理解/合成等技术,参与过语音大模型相关工作或有语音大模型基础优先;
5、至少3年以上智能语音/对话系统领域工作经验,有海外项目经验者优先;
6、强烈的责任心和自我驱动力,能够在快节奏的工作环境中保持高效率;
7、出色的跨文化沟通能力和团队合作精神;
8、对新技术有强烈的好奇心和学习欲望,能够快速适应技术变化。

1.Master's degree or above in Computer Science, Statistics, Artificial Intelligence, or related fields.
2.Proficient in English, which can be used as a working language; mastery of one or two small languages such as German or French, with good listening, speaking, reading, and writing abilities.
3. Master at least one development language, and have deep learning algorithm/large model development experience is preferred.
4. Master speech recognition/understa…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责小鹏汽车海外市场的智能语音多语言能力建设,包括但不限于模型训练、调优和自测;
2、与国内团队紧密合作,确保语音识别和交互系统的准确性和流畅性,交付符合海外用户语音交互习惯的功能;
3、参与多语言大语言模型的研发和应用,跟踪最新的语音识别技术和对话系统发展趋势,将前沿技术应用到产品中,并通过用户反馈和数据分析,不断优化语音交互体验和智能化水平。
1. Responsible for the construction of multi-language capabilities for Xiaopeng Motors' intelligent voice in overseas markets, including but not limited to model training, tuning, and self-testing.
2. Work closely with domestic teams to ensure the accuracy and fluency of voice recognition and interaction systems, delivering features that meet the voice interaction habits of overseas users.
3. Participate in the research and development and application of multi-language large language models, track the latest trends in voice recognition technology and dialogue system development, apply cutting-edge technologies to products, and continuously optimize voice interaction experience and intelligence level through user feedback and data analysis.
包括英文材料
学历+
深度学习+
还有更多 •••
相关职位

logo of xpeng
社招3年以上

1. 负责小鹏汽车海外市场的智能语音多语言能力建设,包括但不限于NLU模型训练、调优和自测。 2. 与国内团队紧密合作,确保语音交互系统的准确性和流畅性,交付符合海外用户语音交互习惯的功能。 3. 参与多语言大语言模型的研发和应用,跟踪最新的大模型技术和对话系统发展趋势,将前沿技术应用到产品中,并通过用户反馈和数据分析,不断优化语音交互体验和智能化水平。

更新于 2025-01-03慕尼黑
logo of xpeng
社招3年以上

1、负责小鹏汽车海外市场的智能语音多语言能力建设,包括但不限于NLU模型训练、调优和自测,LLM领域/业务增强、多轮对话、智能Agent、数据生成等技术方向。 2、确保语音交互系统的准确性和流畅性,与海外团队紧密合作,交付符合海外用户语音交互习惯的功能。 3、参与多语言大语言模型的研发和应用,跟踪最新的大模型技术和对话系统发展趋势,将前沿技术应用到产品中,并通过用户反馈和数据分析,不断优化语音交互体验和智能化水平。

更新于 2025-01-03北京
logo of alibaba
实习淘天集团T-St

如果你,期望在阿里巴巴生态的广阔场景中,借助海量用户数据和先进的技术能力,打造千人千面的个性化数字人形象生产系统,为亿级用户提供高度定制化的虚拟形象服务; 如果你,期望攻克高保真语音驱动(Speech-to-Video)的核心难题,研发业界领先的唇形同步、情绪化面部表情及肢体动作生成算法,实现从音频到视频的端到端极致还原,赋予数字人如同真人般的自然表达力与情感共鸣; 如果你,期望挑战实时流式生成的技术难题,探索扩散模型与自回归模型的极速推理优化,实现低延迟、高吞吐的视频流实时产出,打破离线渲染的局限,支撑起百万级并发的实时交互直播场景; 如果你,期望突破数字人与物理世界的边界,深耕复杂物体交互(Human-Object Interaction)技术,解决数字人在手持商品、展示道具等动态交互过程中的物理规律约束、空间一致性及遮挡还原难题,让数字人在导购、演播等场景中具备真实的物体操控能力; 如果你,期望深入探索多模态统一大模型的应用,将视觉、语音、文本与动作序列深度融合,构建具备精细环境感知与逻辑理解能力的数字人系统,在复杂的电商实景中实现人-物-场的高度协同与自然对答。 加入我们,你的成果将直接应用于电商领域的核心场景——AI实时直播、智能客服、交互式数字导购,影响数以亿计的用户。在这里,你不仅是在写代码,更是在通过流式架构与交互算法,重新定义未来数字人的无限可能! 研究背景:在 AIGC 浪潮下,数字人已从早期的录像进化为动态实时生成。然而,业界仍面临三大核心挑战: 交互的自然度: 如何让数字人的肢体、表情与复杂的语音情感高度对齐,消除“恐怖谷”效应。 物理规律的缺失: 在电商直播等场景中,数字人需要手持商品、展示道具,如何解决手部交互(HOI)中的遮挡、形变及空间一致性是当前的技术深水区。 实时性的瓶颈: 扩散模型效果虽好但推理慢,如何实现低延迟的流式视频生成,是数字人从视频工具走向实时互动的必经之路。 研究课题: 基于扩散模型的高保真流式视频生成架构研究; 复杂场景下的人与物体交互(HOI)视频生成; 多模态情感驱动的全身动作与表情协同生成; 成长资源: 1、算力自由: 远离“算力焦虑”,专注于算法创新。 2、海量高质数据: 拥有业界独有的、极其丰富的多模态商业场景数据,未视频生成,HOI等前沿课题提供土壤。 3、鼓励顶会产出: 团队在保持业务领先的同时,高度重视学术沉淀。鼓励将研究成果总结并发表至CVPR、SIGGRAP、HNeurIPS 等顶会,支持参加国际学术会议,提升行业影响力。 4、工业界顶级专家的 1v1 指导: 团队由来自国内外顶尖院校的博士和工业界资深专家组成,实行“师兄制”,从学术论文投稿到工程落地全过程深度带教。

更新于 2026-01-21北京|杭州
logo of bytedance
社招A246507

1、负责公司音乐业务相关的音质音效开发与调优工作,相关研发技术在抖音、汽水音乐等产品中应用,满足音乐相关业务场景中用户不断增长的高阶听感的需求; 2、负责音乐产品(如流媒体平台、智能硬件、音乐制作工具等)的音频效果设计、调试与优化,包括EQ均衡、动态处理、空间混响等参数调整; 3、针对不同场景(如耳机/音箱播放、直播、车载环境)定制音效方案,确保听觉体验一致性与适应性; 4、与算法工程师合作,将音效参数转化为可落地的DSP(数字信号处理)代码或硬件调音方案; 5、研究用户听音习惯及行业趋势(如空间音频、AI生成音乐),提出创新音效功能设计(如自适应环境降噪、个性化声场调节); 6、通过A/B测试、用户反馈数据分析,持续迭代音效参数库与预设模板。

更新于 2025-03-17北京