百度感知多模态/基础模型算法工程师（J70503）

社招全职IDG2024-06-20地点：北京状态：招聘

扫码手机上打开

任职要求

-计算机、电子、应用数学、自动化等相关专业的硕士及以上学历
-具有良好的机器学习的理论基础，良好的数学基础以及分析解决问题的能力
-熟练掌握C++、Python编程语言，具备Linux下开发能力，具有良好的编程习惯和工程实现能力
-熟悉主要的点云、图像深度学习模型方法，包括且不局限于3D卷积/稀疏卷积/transformer等网络结构以及检测跟踪、分割等任务设计，…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

- 负责基于深度学习的多模态前融合算法研发、3D及3D+时序类任务建模，与其他工程师一起实现全无人状态下感知能力
- 负责基础模型研发以及对应的数据构建组织工作，实现感知各类模型的统一基础底座
- 负责与其他方向一起，加速对应训练与部署效率
- 负责与其他方向一起，做好模型的应用效果

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

机器学习+

C+++

Python+

Linux+

编程规范+

还有更多 •••

登录查看完整学习资料

相关职位

视觉多模态（理解）大模型算法工程师

校招通义2026届秋

通义千问（Qwen）是由通义实验室自主研发的超大规模语言模型，具备多模态、多语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从亿级到万亿级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen 正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。若你对以下一个或者多个方向感兴趣均欢迎投递： 1）多模态基础模型的研发，包括融合视觉语言的跨模态理解模型设计，提升视觉基础模型在图像/视频中的视觉知识、空间感知、Omni Parsing 等核心能力，并同时优化多模态大模型的AI infra。 2）通过强化学习（RL）持续提升多模态模型推理能力和执行任务能力，构建支持网络世界（PC/Mobile/Web/游戏）交互的通用智能体，将相关能力拓展到GUI agent，VLA，以及具身智能场景中。 3）研究理解与生成统一的模型架构，实现跨模态生成与推理的协同优化。工作职责： 1. 多模态 pre-training：开展研究及进行实验，研究内容包括：数据清洗筛选、数据配比优化、课程学习、视觉语言模型结构设计与优化、训练策略优化、预训练数据合成、scaling law 预测、词表优化、模型蒸馏与压缩、长上下文能力优化等。 2. 多模态 post-training：迭代 post-training 训练策略（SFT/RLHF），专项能力数据迭代，参与模型能力评测及评测数据和评估标准的迭代。 3. 多模态推理和通用 agent：通过强化学习（RL）持续提升多模态模型推理能力和执行任务能力，打造多模态的 test scaling laws，并推动模型对网络和虚拟世界的交互和任务完成能力。 4. 统一理解生成：构建视觉统一理解生成大模型，推进多模态统一生成与理解的推理和交互新范式。

更新于 2025-08-22北京|杭州

大模型算法工程师

实习菜鸟集团2026

1、自动驾驶多模态算法研究与应用：负责自动驾驶领域的多模态大模型技术研究及算法开发，包括视觉语言模型（VLM）、一段式端到端模型，以及多模态大模型在复杂场景下的技术整合。 2、多模态感知基础模型研究：开展文本（Text）、视觉（Vision）与点云（Point）融合的多模态感知基础模型研究，包括但不限于4D表征、推理（Reasoning）感知、规划等研究方向。 3、视觉-语言-动作（VLA）大模型研究：负责基于视觉-语言-动作（VLA）架构的端到端方案研究，包括数据生产方案、VLA模型架构、效率优化等方向设计与研发。 4、预训练模型研发：研究基于未来帧预测的预训练模型，结合端到端框架设计，探索其在自动驾驶感知、决策与控制闭环中的可行性及性能提升方向。

更新于 2025-05-19杭州

通义实验室-视觉语言大模型算法工程师-Qwen

社招2年以上技术类-算法

通义千问（Qwen）是由通义实验室自主研发的超大规模语言模型，具备跨语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从几百 M 到 T 级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen 正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。视觉语言理解能力是Qwen最重要的能力之一，围绕 LLM 建设出具有视觉深度理解与推理能力的基座模型是团队的必经之路。结合视觉理解和推理能力的基础模型，将拓展到视频理解，GUI Agent，以及VLA 和机器人等场景中。团队负责：1）多模态基础模型的研发，包括融合视觉语言的跨模态理解模型设计，提升视觉基础模型在图像/视频中的视觉知识、空间感知、Omni Parsing等核心能力，并优化多模态大模型AI infra；2）探索多模态Agent和推理能力，构建支持网络世界（PC/Mobile/Web/游戏）交互的通用智能体；3）研究生成与理解统一的模型架构，实现跨模态生成与推理的协同优化。工作职责 1. 多模态Pre-training：开展研究及进行实验。研究内容包括：数据清洗与筛选、数据配比优化、课程学习、视觉语言模型结构设计与优化、训练策略优化、预训练数据合成、scaling law预测、词表优化、模型蒸馏与压缩、长上下文能力优化等。 2. 多模态Post-training：迭代Post-training训练策略（SFT/RLHF），专项能力数据迭代，参与模型能力评测及评测数据和评估标准的迭代。 3. 多模态推理和通用Agent：通过强化学习（RL）持续提升多模态模型推理能力和执行任务能力，打造多模态的Test Scaling Laws，并推动模型对网络和虚拟世界的交互和任务完成能力。 4. 统一理解生成：构建视觉统一理解生成大模型，推进多模态统一生成与理解的推理和交互新范式。

更新于 2026-04-02北京|杭州|上海

通义实验室-视觉语言大模型算法工程师-Qwen

社招2年以上技术类-算法

更新于 2026-04-02北京|杭州|上海