logo of liauto

理想汽车智能空间-大模型算法工程师-语音感知

校招全职算法与软件地点:杭州状态:招聘

任职要求


1. 音频信号处理、语音信号处理、机器学习等相关专业硕士、博士毕业生;
2. 熟悉传统机器学习基础理论,熟练掌握Kaldi、TensorFlowPytorch等社区开源工具中的一种及以上;
3. 熟练C/C++PythonShell编程语言,对数据结构算法设计有深刻理解,参加过ACM等编程比赛的优先;
4. 参与过回声消除、声学定位、语音分离、语音增强、语音识别、唇语识别、手写识别、OCR、 image/ video caption、图像分割、手势识别等研究经验者加分;具有语音预训练模型、视觉大模型、语音LLM预训练及SFT的研究经验者优先;
5. 学习能力强,逻辑思维清晰,具有自我驱动力,有创造力,有较强的文献阅读能力,能够快速实现或设计音频相关算法,在相关国际会议或主流期刊上发表论文者优先(ICASSP,Interspeech,ASRU,CVPRICCV)。

工作职责


1. 负责音频、语音等算法的处理和实现;
2. 负责智能座舱内语音分离与增强、语音唤醒、语音识别算法的研发和落地;
3. 负责多模态融合算法、多模态大语言模型的研发与落地。
包括英文材料
机器学习+
TensorFlow+
PyTorch+
C+
C+++
Python+
Bash+
数据结构+
算法+
语音识别+
OCR+
大模型+
SFT+
CVPR+
ICCV+
相关职位

logo of liauto
校招算法与软件

1. 负责音频、语音等算法的处理和实现; 2. 负责智能座舱内语音分离与增强、语音唤醒、语音识别算法的研发和落地; 3. 负责多模态融合算法、多模态大语言模型的研发与落地。

logo of xpeng
社招

【关于我们】 小鹏机器人中心致力于研发先进的人形机器人技术,包括机器人的行走、操作、智能导航,以及在大语言模型支持下的人机交互等。我们的软硬件团队覆盖深圳、上海、广州、北京和北美,组成了一支世界一流的跨领域团队。作为本团队的一员,你将成为连接人工智能与物理世界的桥梁,与其他领域的工程师共同解决前沿的科研和工程难题,并在机器人技术的发展中留下自己的印记。 - 开发和改进机器学习和视觉算法,以支持机器人的空间感知、导航、操作、交互等功能。 - 应用各种最新的机器学习算法,包括端到端模仿学习、强化学习、大语言模型,推动人形机器人的发展。 - 开发使机器人从其与物理世界的交互中学习与进化的算法。 - 对算法涉及的数据、训练优化和部署环境等环节有深刻认知,并领导或参与跨团队合作。 - 深⼊探索未知⼯程和技术领域,影响并参与决策。

更新于 2025-01-09
logo of xpeng
校招

【关于我们】 小鹏机器人中心致力于研发先进的人形机器人技术,包括机器人的行走、操作、智能导航,以及在大语言模型支持下的人机交互等。我们的软硬件团队覆盖深圳、上海、广州、北京和北美,组成了一支世界一流的跨领域团队。作为本团队的一员,你将成为连接人工智能与物理世界的桥梁,与其他领域的工程师共同解决前沿的科研和工程难题,并在机器人技术的发展中留下自己的印记。 - 开发和改进机器学习和视觉算法,以支持机器人的空间感知、导航、操作、交互等功能。 - 应用各种最新的机器学习算法,包括端到端模仿学习、强化学习、大语言模型,推动人形机器人的发展。 - 开发使机器人从其与物理世界的交互中学习与进化的算法。 - 对算法涉及的数据、训练优化和部署环境等环节有深刻认知,并领导或参与跨团队合作。 - 深⼊探索未知⼯程和技术领域,影响并参与决策。

更新于 2025-04-03
logo of tongyi
校招通义2026届秋

团队介绍: 近年来,以大模型为核心的生成式人工智能技术发展取得了突破性进展,视觉内容创作领域展现出前所未有的技术潜力与广泛的应用前景。我们在数字人、视觉理解、2D/3D生成&编辑、人机交互等领域深耕多年,拥有丰富的学术积累与工程实践经验。过去几年,团队在顶级会议发表论文50余篇,相关成果已在阿里集团内外如教育、培训、客服、社交等多场景落地,在多家主流手机厂商中实现深度集成,也成功服务于奥运会、亚运会、春晚等盛会,累计数亿次调用。 如果你对研发规模化的AIGC解决方案感兴趣,期望在计算机视觉、图形学与机器学习领域持续创新,推动图像、视频与3D内容创作的普惠化和产业化发展,欢迎加入我们共同探索生成式AI在视觉内容创作中的无限可能。 岗位职责具体职责包括但不限于: 1.负责视觉生成模型的核心理论与前沿进展相关研究,通过算法创新与性能优化,提升多模态内容的生成质量、多样性与可控性。 2.负责图像/视频生成、编辑与理解等的核心算法研发、系统研发和产品开发,包括文生图/视频、图生图/视频、图像/视频修复、图像/视频编辑、风格迁移等。 3.负责2D/3D数字人核心算法研发、系统研发和产 品开发,包括基于2D/3D数字人重建、2D/3D数字人生成、姿态估计、表情驱动、语音驱动等。 4.负责面向场景的空间智能算法研究、产品开发,包括子弹时间系统、4D体积视频、3D感知、空间定位等。 5.探索理解生成统一的新范式,以及更加高效的多模态生成Scaling方法,包括但不限于高效attention设计、人类反馈和强化学习、模型蒸馏、训练/推理优化、多模态Tokenizer研究。

更新于 2025-08-07