理想汽车【智能空间】大模型算法专家-音频

社招全职智能与信息技术地点：北京状态：招聘

扫码手机上打开

任职要求

1. 音频信号处理、语音信号处理、机器学习等相关专业硕士、博士毕业生；
2. 熟悉传统机器学习基础理论，熟练掌握Kaldi、TensorFlow、Pytorch等社区开源工具中的一种及以上；
3. 熟练C/C++，Python，Shell编程语言，对数据结构和算法设计有深刻理解，参加过ACM等编程比赛的优先；
4. 参与过回声消除、声学定位、语音分离、语音增强、语音识别、唇语识别、手写识…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责音频、语音等算法的处理和实现；
2. 负责智能座舱内语音分离与增强、语音唤醒、语音识别算法的研发和落地；
3. 负责多模态融合算法、多模态大语言模型的研发与落地。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

机器学习+

TensorFlow+

PyTorch+

C+

C+++

Python+

Bash+

还有更多 •••

登录查看完整学习资料

相关职位

TapTap 多模态大模型算法专家

社招技术大类

1. 研发面向游戏平台场景的多模态大模型，包括文本、图像、视频、音频等多模态数据的理解与生成； 2. 构建与优化游戏内容理解算法，涵盖游戏玩法解析、类型识别、特色标签生成、玩家评论分析、剧情/世界观理解等； 3. 参与 TapTap 风格的视频与广告素材生成方案，支持用户增长团队等多模态素材生成的训练需求； 4. 支持游戏搜索与发现，利用多模态大模型进行精准匹配、语义搜索、跨模态检索（文本→视频、视频→游戏等）； 5. 跟进并引入最新的多模态大模型研究成果，探索其在游戏行业的新应用场景； 6. 有预研的空间，进行学术研究与论文发表，推动顶会/顶刊产出，并结合业务进行技术落地； 7. 优化大模型的训练与推理性能，保障在海量游戏内容和用户数据上的高效运行。

更新于 2025-08-15上海

TapTap 多模态大模型算法专家（上海）

社招技术大类

更新于 2025-12-10上海

算法高级专家-安全技术(J251106013)

社招技术

1.负责多模态大模型全链路研发与优化，涵盖 SFT、RL 训练等关键环节，探索图文、视频、音频等多模态数据的质量评估与清洗方法、优化模型训练策略及结构设计、提升模型泛化与推理能力。 2.结合业务场景需求，主导多模态大模型落地项目，涵盖内容理解与结构化、质量甄别、智能生成等任务，设计算法方案并推动上线，提升业务效率与用户体验。 3.跟踪多模态大模型前沿技术，探索其在安全治理场景的适配性和落地，驱动技术迭代。 4.承担团队管理与人才培养，提升团队技术影响力。

更新于 2025-11-06北京

算法工程师-AIGC数字人视频生成（T-Star Lab日常实习生）

实习淘天集团T-St

如果你，期望在阿里巴巴生态的广阔场景中，借助海量用户数据和先进的技术能力，打造千人千面的个性化数字人形象生产系统，为亿级用户提供高度定制化的虚拟形象服务；如果你，期望攻克高保真语音驱动（Speech-to-Video）的核心难题，研发业界领先的唇形同步、情绪化面部表情及肢体动作生成算法，实现从音频到视频的端到端极致还原，赋予数字人如同真人般的自然表达力与情感共鸣；如果你，期望挑战实时流式生成的技术难题，探索扩散模型与自回归模型的极速推理优化，实现低延迟、高吞吐的视频流实时产出，打破离线渲染的局限，支撑起百万级并发的实时交互直播场景；如果你，期望突破数字人与物理世界的边界，深耕复杂物体交互（Human-Object Interaction）技术，解决数字人在手持商品、展示道具等动态交互过程中的物理规律约束、空间一致性及遮挡还原难题，让数字人在导购、演播等场景中具备真实的物体操控能力；如果你，期望深入探索多模态统一大模型的应用，将视觉、语音、文本与动作序列深度融合，构建具备精细环境感知与逻辑理解能力的数字人系统，在复杂的电商实景中实现人-物-场的高度协同与自然对答。加入我们，你的成果将直接应用于电商领域的核心场景——AI实时直播、智能客服、交互式数字导购，影响数以亿计的用户。在这里，你不仅是在写代码，更是在通过流式架构与交互算法，重新定义未来数字人的无限可能！研究背景：在 AIGC 浪潮下，数字人已从早期的录像进化为动态实时生成。然而，业界仍面临三大核心挑战：交互的自然度：如何让数字人的肢体、表情与复杂的语音情感高度对齐，消除“恐怖谷”效应。物理规律的缺失：在电商直播等场景中，数字人需要手持商品、展示道具，如何解决手部交互（HOI）中的遮挡、形变及空间一致性是当前的技术深水区。实时性的瓶颈：扩散模型效果虽好但推理慢，如何实现低延迟的流式视频生成，是数字人从视频工具走向实时互动的必经之路。研究课题：基于扩散模型的高保真流式视频生成架构研究；复杂场景下的人与物体交互（HOI）视频生成；多模态情感驱动的全身动作与表情协同生成；成长资源： 1、算力自由：远离“算力焦虑”，专注于算法创新。 2、海量高质数据：拥有业界独有的、极其丰富的多模态商业场景数据，未视频生成，HOI等前沿课题提供土壤。 3、鼓励顶会产出：团队在保持业务领先的同时，高度重视学术沉淀。鼓励将研究成果总结并发表至CVPR、SIGGRAP、HNeurIPS 等顶会，支持参加国际学术会议，提升行业影响力。 4、工业界顶级专家的 1v1 指导：团队由来自国内外顶尖院校的博士和工业界资深专家组成，实行“师兄制”，从学术论文投稿到工程落地全过程深度带教。

更新于 2026-01-21北京|杭州