理想汽车【理想+】大模型算法工程师-多模态生成-北京

校招全职算法地点：北京状态：招聘

扫码手机上打开

任职要求

1. 机器学习、模式识别、信号处理或相关专业的硕士或博士；
2. 有语音合成、多模态生成、数字人相关研发经验，精通常用的机器学习算法，紧跟行业最新的生成式算法；
3. 熟练掌握C/C++、P…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

“理想+”是理想汽车面向全球招募优秀AI技术人才的校园招聘计划，涵盖大模型、AIGC、算法部署、推理加速、AI芯片研发等领域方向。理想汽车2023年实现千亿营收、百亿盈利。经过9年的发展，截至2024年6月理想汽车累计交付已突破80万辆。海量的用户规模和持续的盈利能力将支持理想汽车不断扩大在AI前沿技术领域的研发投入，保持从电动化到智能化的持续领先，把握时代机遇，成为全球领先的人工智能企业。
我们期待你的加入，与理想汽车一起成长、分享收获。通过人工智能技术去改变物理世界的效率和体验，造福我们服务的每一个家庭，以及家庭里的每一位成员。

本岗位的主要工作内容为：
1. 负责语音合成、音乐生成、数字人、多模态生成等生成式算法研发，及相关技术在智能空间中的应用落地；
2. 探索AIGC在智能空间场景下的新技术形态和应用，在多模态、数字人方向进行业务创新。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

机器学习+

模式识别+

算法+

还有更多 •••

登录查看完整学习资料

相关职位

LLM-自然语言处理算法工程师

校招通义2026届秋

近年来，以大模型为核心的生成式人工智能技术在语言理解、内容生成、多模态建模与跨模态交互等领域取得了突破性进展，展现出前所未有的技术潜力与广泛的应用前景。我们致力于面向通用人工智能（AGI)的前沿探索与产业落地创新。一方面，在迈向AGI的长期路径中，随着大语言模型能力的持续进化，多模态感知、融合与推理等关键问题日益凸显，成为构建通用智能系统的核心挑战；另一方面，围绕典型行业场景如何将现有大模型能力有效转化为可落地、可扩展、可持续的解决方案，也成为当前研究与工程实践的重点方向。如果你对生成式AI、智能交互、智能软件工程，智能文档处理，数据挖掘，多语言内容的理解和生成，跨模态检索与理解，多模态智能体GUI Agent以及法律金融等方向的AI应用算法研发有浓厚兴趣，或者对于大模型应用落地有浓厚兴趣，欢迎加入我们，共同定义未来AI的能力边界，牵引千行百业在智能时代的深度变革。 1. 大语言模型算法创新：定义下一代大语言模型技术范式，实现文本、代码，语音、视觉等多模态信息的联合建模，探寻和解决对齐、推理、Agentic等方面的核心挑战，不断追寻通用大模型的效果上限。 2. 场景驱动的算法创新：结合上述业务场景，设计并优化大模型架构，研发低成本高效应用算法，提升效果、效率与鲁棒性。 3. 端到端技术闭环：从数据构建、模型训练、评测到部署，主导技术方案落地，通过AB实验、调用量、用户反馈验证价值。 4. 前沿应用技术探索：紧跟并能驱动LLM、Diffusion Models、强化学习等技术相关进展，定义技术新范式，快速实验并迭代创新方案，拉升相关模型在学术领域和应用场景的SOTA。

更新于 2025-08-07北京|杭州

多模态算法工程师 - 抖音

社招A174584

团队介绍：字节跳动抖音搜索团队主要负责抖音搜索算法创新和架构研发工作，主要包括短视频、直播、本地生活、视觉搜索等多个业务线。在这里，你将有机会参与搜索业务的多模态技术研发和落地。用前沿的深度学习算法、海量文本、图片、视频数据，用激动人心的技术给用数亿用户带来更理想的多模态搜索体验。方向可能包括： 1、多模态生成大模型：视频多模态大模型、大规模细粒度分类、自监督学习等模型应用和研究； 2、视觉智能：视频分析、物体检测、主体识别、视频tracking、细粒度分类等技术，真正理解用户需求； 3、视觉搜索体验改进：相关性排序召回、用户行为模型、意图识别等各个搜索模块的体验改进。

更新于 2024-03-01北京

通义实验室-语音多模态大模型算法工程师-通义百聆

社招3年以上技术类-算法

1. 语音多模态大模型算法创新：面向下一代语音多模态通用大模型，探索并定义统一的技术范式，开展文本、语音等多模态的联合建模与协同推理研究，系统性解决多模态对齐、跨模态推理、Agentic 能力等核心挑战，持续推动模型能力与泛化上限。 2. 场景驱动的算法创新：紧密结合真实业务场景（如智能交互、内容生成、跨模态检索等），设计并优化多模态大模型架构与训练策略，在保证效果领先的同时，持续提升模型效率、稳定性与鲁棒性，推动技术在复杂场景中的规模化落地。 3. 前沿应用技术探索：跟踪并深度参与 LLM、多模态模型、Diffusion Models、强化学习等方向的前沿研究，快速完成技术验证与实验迭代，探索新建模范式与训练范式，持续刷新相关任务的 SOTA。"

更新于 2026-03-19北京|杭州

搜索算法工程师（J82955）

社招MEG

-负责百度多模视觉搜索产品的技术、系统、产品的研发工作 -工作包括但不限于：图像/视频的内容理解与多模态搜索，包括多模态预训练大模型、视觉检测/分类/跟踪、移动端图像技术应用。3D视觉、生成技术、图形学的应用，包括稀疏点云重建、网格化生成、后端图形渲染等 -研究和开发可穿戴设备和手机中的MR（Mixture Reality）技术，探索下一代搜索产品形态 -将技术创新推向亿万用户

更新于 2025-02-27北京