通义视觉多模态（生成）大模型算法工程师

校招全职通义2026届秋季校园招聘2025-08-18地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 计算机科学、计算机视觉、人工智能、机器学习、具身智能等领域的博士/硕士毕业生。
2. 对通用视觉理解或生成模型有一定研究实践，在图像 / 视频 / 3D 等至少一种模态上有实际研发经验。
3. 熟练掌握Pytorch，熟悉Megatron等大模型训练框架，有优秀的coding/工程能力。
4. 自我驱动力，动手能力强，工作细致，对AI行业有浓厚的兴趣，有较强的学习能力和责任心。
5. 善于平衡研究目标及落地实现，具备跨学科视野与协作意识，能够与工程、产品等多学科团队紧密合作，推…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

通义千问（Qwen）是由通义实验室自主研发的超大规模语言模型，具备跨语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从几百 M 到 T 级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen 正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。

团队致力于实现理解生成一体化的世界模型，达成“交互”和“创造”两大目标。本方向专注于研发视觉生成技术的突破，其中研究内容包括但不限于：理解生成一体化、视觉生成等，充分探索相关数据及训练方法研究，以期解决计算机视觉基本问题的同时，为 AI 赋予创造力，理解世界及预测未来世界。

工作描述：
1. 下一代理解生成一体化的模型结构设计与研发，探索 Autoregressive LLM 、Diffusion、及两者结合的多种技术路线。
2. 研究及探索世界模型的多模态训练数据及对应训练策略。
3. 设计及研发自动化评估方法设计与实现，为模型研发提供科学指导。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

OpenCV+

机器学习+

PyTorch+

Megatron+

大模型+

还有更多 •••

登录查看完整学习资料

相关职位

高德-多模态大模型算法工程师-视觉团队

社招3年以上技术类-算法

我们正在寻找对多模态技术充满热情的算法工程师，加入我们的前沿技术研发团队。您将专注于多模态理解与生成，推动其在地图数据、信息流推荐、打车服务等场景中的落地应用，为用户提供更智能、更沉浸的服务。主要职责 1、多模态模型研发：开发业界领先的图文多模态理解与生成模型，结合扩散模型（Diffusion Models）、Transformer架构等实现高质量场景理解和动态内容生成。 2、模型优化与性能提升：优化多模态模型的推理速度和计算效率，支持端侧部署。探索适合大模型的压缩与加速技术（包括但不限于量化、剪枝、知识蒸馏等）。 3、业务场景落地：将多模态技术应用于实际业务场景，如地图数据（道路、POI等）、信息流推荐、打车服务等。与产品、工程团队合作，推动技术从研发到上线的全流程落地。 4、前沿技术探索：持续跟踪生成式AI（Generative AI）、跨模态对齐、思维链强化学习、多模态交互、具身智能等最新技术趋势，提出创新性解决方案。

更新于 2025-04-01北京

感知算法工程师(J240806005)

社招技术

公司介绍滴滴于 2016 年组建自动驾驶技术研发部门，致力于打造世界领先的 L4 级自动驾驶技术，通过科技让出行更安全、更高效。我们相信，将自动驾驶技术部署在共享出行车队中，将创造最大的社会价值。依托滴滴在出行领域的先进技术、海量数据、丰富经验和完整的出行平台生态，我们正在打造并运营世界领先的自动驾驶 Robotaxi 车队，推动自动驾驶在城市复杂交通场景中的规模化落地。职位描述作为感知团队的一员，你将与国内外顶尖人才一起，研究和开发自动驾驶领域的前沿算法，直接赋能 L4 Robotaxi 的大规模部署。你将面向真实城市道路场景中的多样化挑战，利用多模态传感器（LiDAR、Camera、Radar 等）设计、开发并优化感知算法，解决物体识别、障碍物检测、场景理解、意图预测与大模型赋能等核心问题。在这里，你将有机会：与中美两地的优秀工程师和科学家合作，参与世界级的技术竞争；深入研究并推动最前沿的学术成果在产业中的落地；在全球最大出行平台之一的业务场景中，实现科研成果的规模化应用。主要方向与职责：你将在以下方向中选定一个或多个方向深入负责，并承担从研发到落地、从算法到系统的端到端职责：（一）物体识别与跟踪设计并实现基于 LiDAR / Camera / Radar 的多模态检测模型，识别车辆、行人、自行车、静态障碍物、交通标志等提升精度、召回率与抗扰性（抗遮挡、夜间、恶劣天气、长尾类别）（二）通用障碍物识别识别未知类别 /未训练类别的障碍物基于异常检测 /开放类别识别的算法研究与工程实现在非结构化环境（施工区域、道路损坏、落物等）中提升鲁棒性（三）场景和意图理解语义分割、实例分割、道路 /车道/交通标志/交通灯等结构物识别场景理解，例如施工区域识别、可通行区域识别等意图理解，例如行人动作识别、起步意图识别等交互和事件识别，例如多方交互、交通规则冲突、非规范驾驶行为等（四）感知大模型 /多模态探索或应用预训练多模态大模型，将视觉、语言、地图/文本信息融合以增强感知能力零样本 / 少样本 / 跨域泛化的策略研发将大模型成果迁移到真实车队感知系统中，提升复杂场景下的鲁棒性（五）模型评估、验证构建完整的评估管道，包括离线评估 + 真实道路 + 模拟环境测试，支持回归检测与性能监控指标体系设计 (Precision, Recall, IoU, latency, false positives rate 等)

更新于 2026-01-06北京

算法工程师（cv方向）(MJ027153)

社招旅游业务AI &

1.工作内容包括但不限于视觉和多模态分类/多标签、目标检测、质量评估、图生视频、OCR等 2.参与研究、构建和优化携程视觉/多模态理解和生成大模型 3.支持垂域大规模训练数据集的构建，推动模型的持续升级和优化迭代 4.负责模型的性能优化和模型服务在业务场景上线落地等

更新于 2025-04-08上海

高德-多模态大模型/端侧部署算法工程师/专家-视觉团队

社招3年以上技术类-算法

我们是谁？作为中国领先的数字地图内容及导航服务提供商，高德地图日均服务数亿用户出行决策，每日处理超百亿级位置数据。视觉技术中心是驱动高德实现厘米级高精地图、实时三维重建、多模态感知等核心技术的引擎，持续突破自动驾驶、AR导航、智慧交通等领域的技术边界。团队gihub主页：https://github.com/amap-cvlab 为何加入我们？挑战世界级技术难题，追求智能上限用AI驱动国民级APP的产品迭代和颠覆式创新岗位职责： 1. 多模态大模型研发与应用负责多模态大模型的核心架构设计，研究并实现图片、视频、文本等跨模态特征对齐、融合与表征学习方法，负责多模态大模型的数据准备、高效训练（包括但不限于预训练、SFT、强化学习等）、推理加速等。 2. 模型优化与小型化部署负责多模态大模型的轻量化设计、压缩与加速，确保模型在端侧设备上的高效运行。针对高德地图的实际业务场景，优化模型性能，平衡精度与效率。 3. 创新性研究与落地跟踪端侧生成式AI（Edge Generative AI）、强化学习（PPO、GRPO等）、智能Agent等前沿技术，探索多模态大模型在自动驾驶、智能导航等领域的潜在应用。将研究成果快速转化为实际产品功能，推动技术创新与业务增长。

更新于 2026-02-02北京