logo of liauto

理想汽车【智能空间】大模型算法专家-音频

社招全职智能与信息技术地点:北京状态:招聘

任职要求


1. 音频信号处理、语音信号处理、机器学习等相关专业硕士、博士毕业生;
2. 熟悉传统机器学习基础理论,熟练掌握Kaldi、TensorFlowPytorch等社区开源工具中的一种及以上;
3. 熟练C/C++PythonShell编程语言,对数据结构算法设计有深刻理解,参加过ACM等编程比赛的优先;
4. 参与过回声消除、声学定位、语音分离、语音增强、语音识别、唇语识别、手写识别、OCR、 image/ video caption、图像分割、手势识别等研究经验者加分;具有语音预训练模型、视觉大模型、语音LLM预训练及SFT的研究经验者优先;
5. 学习能力强,逻辑思维清晰,具有自我驱动力,有创造力,有较强的文献阅读能力,能够快速实现或设计音频相关算法,在相关国际会议或主流期刊上发表论文者优先(ICASSP,Interspeech,ASRU,CVPRICCV)。

工作职责


1. 负责音频、语音等算法的处理和实现;
2. 负责智能座舱内语音分离与增强、语音唤醒、语音识别算法的研发和落地;
3. 负责多模态融合算法、多模态大语言模型的研发与落地。
包括英文材料
机器学习+
TensorFlow+
PyTorch+
C+
C+++
Python+
Bash+
数据结构+
算法+
语音识别+
OCR+
大模型+
SFT+
CVPR+
ICCV+
相关职位

logo of taptap
社招技术大类

1. 研发面向游戏平台场景的多模态大模型,包括文本、图像、视频、音频等多模态数据的理解与生成; 2. 构建与优化游戏内容理解算法,涵盖游戏玩法解析、类型识别、特色标签生成、玩家评论分析、剧情/世界观理解等; 3. 参与 TapTap 风格的视频与广告素材生成方案,支持用户增长团队等多模态素材生成的训练需求; 4. 支持游戏搜索与发现,利用多模态大模型进行精准匹配、语义搜索、跨模态检索(文本→视频、视频→游戏等); 5. 跟进并引入最新的多模态大模型研究成果,探索其在游戏行业的新应用场景; 6. 有预研的空间,进行学术研究与论文发表,推动顶会/顶刊产出,并结合业务进行技术落地; 7. 优化大模型的训练与推理性能,保障在海量游戏内容和用户数据上的高效运行。

更新于 2025-08-15
logo of xd
社招技术大类

1. 研发面向游戏平台场景的多模态大模型,包括文本、图像、视频、音频等多模态数据的理解与生成; 2. 构建与优化游戏内容理解算法,涵盖游戏玩法解析、类型识别、特色标签生成、玩家评论分析、剧情/世界观理解等; 3. 参与 TapTap 风格的视频与广告素材生成方案,支持用户增长团队等多模态素材生成的训练需求; 4. 支持游戏搜索与发现,利用多模态大模型进行精准匹配、语义搜索、跨模态检索(文本→视频、视频→游戏等); 5. 跟进并引入最新的多模态大模型研究成果,探索其在游戏行业的新应用场景; 6. 有预研的空间,进行学术研究与论文发表,推动顶会/顶刊产出,并结合业务进行技术落地; 7. 优化大模型的训练与推理性能,保障在海量游戏内容和用户数据上的高效运行。

更新于 2025-09-28
logo of liauto
社招5年以上智能与信息技术

主要工作方向包括: 1、推进大模型数据建设、指令微调、强化对齐等模型优化方面的工作,提升大模型能力和车机场景用户体验。 2、探索复杂指令、长上下文、多轮对话下,大模型更为复杂的理解、推理和生成能力; 3、探索和落地适合车机场景智能体应用、以代码为中心的大模型智能体能力建设,提升车机个性化体验与复杂任务解决能力。

logo of amap
社招5年以上技术类-算法

团队介绍: 作为中国领先的数字地图内容及导航服务提供商,高德地图日均服务数亿用户出行决策,每日处理超百亿级位置数据。视觉技术中心是驱动高德实现高精度地图、三维重建、LLM/VLM,AI Agent等核心技术,持续突破自动驾驶、AR导航、具身智能、推广搜和生活服务等领域的技术边界。团队不仅在计算机视觉领域持续深耕,更将计算机视觉及AI技术在自主导航、高德打车、生活服务等多元化应用场景。 作为高德地图的核心技术驱动部门,我们以下一代三维地图引擎、多模态理解与生成、空间智能、世界模型等方向为核心,推动智能出行与真实世界连接的深度融合。 团队gihub主页:https://github.com/amap-cvlab 为何加入我们? 挑战世界级技术难题,追求智能上限 用AI驱动国民级APP的产品迭代和颠覆式创新 我们正在寻找对多模态技术充满热情的算法工程师,加入我们的研发团队。您将专注于多模态理解与生成,推动其在高德扫街榜等热门应用中落地,为用户提供更智能、更沉浸的服务。 主要职责: 1、多模态大模型研发:开发业界领先的图文多模态大模型,实现高质量场景理解和内容生成; 2、模型优化与性能提升:优化多模态模型的推理速度和计算效率,支持端侧部署。探索适合大模型的压缩与加速技术(包括但不限于量化、剪枝、知识蒸馏等); 3、业务场景落地:将多模态技术应用于扫街榜等实际业务场景,与产品、工程团队合作,推动技术从研发到上线的全流程落地; 4、前沿技术探索:持续跟踪生成式AI、跨模态对齐、思维链、强化学习、多模态交互等最新技术趋势,提出创新性解决方案。

更新于 2025-09-29