logo of liauto

理想汽车智能空间-大模型算法工程师-语音感知

校招全职算法与软件地点:北京状态:招聘

任职要求


1. 音频信号处理、语音信号处理、机器学习等相关专业硕士、博士毕业生;
2. 熟悉传统机器学习基础理论,熟练掌握Kaldi、TensorFlowPytorch等社区开源工具中的一种及以上;
3. 熟练C/C++PythonShell编程语言,对数据结构和算法设计有深刻理解,参加过ACM等编程比赛的优先;
4. 参与过回声消除、声学定位、语音分离、语音增强、语音识别、唇语识别、手写识…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责音频、语音等算法的处理和实现;
2. 负责智能座舱内语音分离与增强、语音唤醒、语音识别算法的研发和落地;
3. 负责多模态融合算法、多模态大语言模型的研发与落地。
包括英文材料
机器学习+
TensorFlow+
PyTorch+
C+
C+++
Python+
Bash+
还有更多 •••
相关职位

logo of liauto
校招算法与软件

1. 负责音频、语音等算法的处理和实现; 2. 负责智能座舱内语音分离与增强、语音唤醒、语音识别算法的研发和落地; 3. 负责多模态融合算法、多模态大语言模型的研发与落地。

杭州
logo of xpeng
社招

【关于我们】 小鹏机器人中心致力于研发先进的人形机器人技术,包括机器人的行走、操作、智能导航,以及在大语言模型支持下的人机交互等。我们的软硬件团队覆盖深圳、上海、广州、北京和北美,组成了一支世界一流的跨领域团队。作为本团队的一员,你将成为连接人工智能与物理世界的桥梁,与其他领域的工程师共同解决前沿的科研和工程难题,并在机器人技术的发展中留下自己的印记。 - 开发和改进机器学习和视觉算法,以支持机器人的空间感知、导航、操作、交互等功能。 - 应用各种最新的机器学习算法,包括端到端模仿学习、强化学习、大语言模型,推动人形机器人的发展。 - 开发使机器人从其与物理世界的交互中学习与进化的算法。 - 对算法涉及的数据、训练优化和部署环境等环节有深刻认知,并领导或参与跨团队合作。 - 深⼊探索未知⼯程和技术领域,影响并参与决策。

更新于 2025-01-09深圳|上海
logo of xpeng
校招

【关于我们】 小鹏机器人中心致力于研发先进的人形机器人技术,包括机器人的行走、操作、智能导航,以及在大语言模型支持下的人机交互等。我们的软硬件团队覆盖深圳、上海、广州、北京和北美,组成了一支世界一流的跨领域团队。作为本团队的一员,你将成为连接人工智能与物理世界的桥梁,与其他领域的工程师共同解决前沿的科研和工程难题,并在机器人技术的发展中留下自己的印记。 - 开发和改进机器学习和视觉算法,以支持机器人的空间感知、导航、操作、交互等功能。 - 应用各种最新的机器学习算法,包括端到端模仿学习、强化学习、大语言模型,推动人形机器人的发展。 - 开发使机器人从其与物理世界的交互中学习与进化的算法。 - 对算法涉及的数据、训练优化和部署环境等环节有深刻认知,并领导或参与跨团队合作。 - 深⼊探索未知⼯程和技术领域,影响并参与决策。

更新于 2025-04-03深圳|上海
logo of alibaba
实习淘天集团T-St

如果你,期望在阿里巴巴亿级用户生态中,定义下一代数字人的“灵魂”与“听觉”,打造具备极致情感表现力和深度理解能力的智能语音交互系统; 如果你,期望探索高表现力语音合成的前沿,突破传统韵律限制,研发支持零样本音色克隆、多情感/多方言实时切换的语音生成技术,让数字人的声音不再冷冰冰,而是拥有细腻的情绪起伏和呼吸感; 如果你,期望攻克语音多模态理解的核心挑战,不再局限于单一的文本转译,而是通过语音大模型直接从原始音频中建模情感、意图、环境与语气,实现对用户深层次语义和情绪的精准捕捉; 如果你,期望挑战1v1全双工实时对话的技术难题,研发低延迟的端到端语音到语音生成架构,攻克打断机制、交互反馈等难题,让数字人具备如同真人般自然、流畅的对答体验; 如果你,期望深入研究多模态对齐与融合,将语音特征与视觉表情、文本语义深度绑定,构建“音-意-形”高度统一的数字人交互大脑,解决业界在复杂对话环境下理解不准、响应过慢的技术痛点。 加入我们,你的算法将赋能AI智能导购、虚拟主播等核心场景。让我们一起用语音连接智能,开启数字人交互的新纪元! 研究背景:目前的数字人交互大多是“对讲机”模式(用户说完 -> 系统处理 -> 系统回答),存在明显的延迟和僵硬感。要实现真正的1v1自然对话,需要数字人具备实时监听、情感对齐和即时反馈的能力。 研究课题: 1、流式情感感知: 研究如何在用户说话过程中,实时通过流式音频提取情绪、语气和意图,而非等待整句话结束。 2、打断(Barge-in)与反馈机制: 研发鲁棒的打断检测算法,并让数字人学会自发性口语,提升交互真实感。 3、预测性生成: 探索如何根据用户已说出的前半句内容,提前初始化 TTS 渲染状态,实现“边听边想边说”的流式效果。 成长支持&成长空间: 1、亲手参与从 0 到 1 定义数字人实时交互标准,体验技术改变数亿人购物方式的成就感。 2、 算力自由: 远离“算力焦虑”,专注于算法创新。 3、海量高质数据: 拥有业界独有的、极其丰富的多模态商业场景数据,为研究零样本学习、多模态对齐等前沿课题提供土壤。 4、 鼓励顶会产出: 团队在保持业务领先的同时,高度重视学术沉淀。鼓励将研究成果总结并发表至ICASSP、NeurIPS 等顶会,支持参加国际学术会议,提升行业影响力。

更新于 2026-01-27北京|杭州