通义视觉多模态（理解）大模型算法工程师

校招全职通义2026届秋季校园招聘2025-08-22地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 来自全球Top高校计算机科学、人工智能、计算机视觉、具身智能、机器学习、深度学习或相关领域应届毕业生，博士/硕士毕业生优先。
2. 在多模态模型（尤其是视觉语言模型）方面有扎实的理论基础和实践经验，熟悉图像、视频、3D、文本等至少两种模态的建模方法。
3. 在国际顶级计算机会议/期刊（如CVPR、ECCV、ICCV、NeurIPS、ICML、ICLR、ACL、TPAMI等）以一作身份发表论文，或在开源社区、计算机领域竞赛中有突出研究成果和项目经历。
4. 具备扎实的代码功底，熟悉PyTorch/Tens…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

通义千问（Qwen）是由通义实验室自主研发的超大规模语言模型，具备多模态、多语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从亿级到万亿级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen 正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。

若你对以下一个或者多个方向感兴趣均欢迎投递：
1）多模态基础模型的研发，包括融合视觉语言的跨模态理解模型设计，提升视觉基础模型在图像/视频中的视觉知识、空间感知、Omni Parsing 等核心能力，并同时优化多模态大模型的AI infra。
2）通过强化学习（RL）持续提升多模态模型推理能力和执行任务能力，构建支持网络世界（PC/Mobile/Web/游戏）交互的通用智能体，将相关能力拓展到GUI agent，VLA，以及具身智能场景中。
3）研究理解与生成统一的模型架构，实现跨模态生成与推理的协同优化。

工作职责：
1. 多模态 pre-training：开展研究及进行实验，研究内容包括：数据清洗筛选、数据配比优化、课程学习、视觉语言模型结构设计与优化、训练策略优化、预训练数据合成、scaling law 预测、词表优化、模型蒸馏与压缩、长上下文能力优化等。
2. 多模态 post-training：迭代 post-training 训练策略（SFT/RLHF），专项能力数据迭代，参与模型能力评测及评测数据和评估标准的迭代。
3. 多模态推理和通用 agent：通过强化学习（RL）持续提升多模态模型推理能力和执行任务能力，打造多模态的 test scaling laws，并推动模型对网络和虚拟世界的交互和任务完成能力。
4. 统一理解生成：构建视觉统一理解生成大模型，推进多模态统一生成与理解的推理和交互新范式。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

OpenCV+

机器学习+

Python+

PyTorch+

深度学习+

Transformer+

CVPR+

ECCV+

还有更多 •••

登录查看完整学习资料

相关职位

顶尖应届-全模态理解和推理大模型算法工程师-大模型

校招

1. 研发端到端全模态理解和推理大模型核心技术，在模型结构、对齐策略、指令微调、偏好对齐、多阶段渐进式学习训练策略、推理能力增强（关系推理、因果推理、常识推理）等方面做出创新突破，达到业内一流； 2. 研发视觉理解和推理大模型核心技术，在图像理解，视频理解，视觉推理能力增强（关系推理、因果推理、常识推理），GUI屏幕感知和推理、端到端图像翻译等方向创新突破，达到业内一流； 3. 优化语音识别大模型的上下文感知能力，通过送入交互历史信息提升语音识别准确率；优化语音识别大模型的热词感知能力，通过送入相关热词提升语音识别准确率；优化语音多模态理解大模型的SpeechEncoder，提升语音理解大模型的语音理解能力和声音理解能力，包括语音内容、情感、性别、声音事件、音乐风格等；在用户跟智能体对话的过程中，检测用户的表达完整性，从而加快系统响应速度且不带来更多的误截断；在语音对话模型中，检测用户交互的对象，从而提升打断的有效性和系统交互的响应速度； 4. 端到端全模态理解和推理、视觉理解、语音理解等，建立比较广泛的业界影响力，论文引用数300+、主流算法竞赛/排行榜TOP1、开源Star 2000+等； 5. 端到端全模态理解和推理、视觉理解、语音理解等，落地在小米核心业务场景，提升核心产品竞争力和用户智能体验，包括手机（OS/小爱）、汽车、生态链等。【课题名称】端到端全模态理解和推理大模型研究与应用【课题内容】 1. 研究端到端全模态理解和推理大模型的核心技术，产出突破性成果，在小米核心业务场景落地；输入文本、图像、视频、语音等模态，输出文本、语音等模态；探索全模态信息感知能力；探索全模态混合推理思维链；探索全模态思维强化； 2. 研究视觉理解和推理的核心技术和应用，包括图像理解与推理、长视频理解与推理、屏幕感知和端到端图像翻译等； 3. 研究语音理解大模型的感知关键技术，包括有效利用场景、上下文、个性化信息更好的进行音频内容的转写以及副语言信息的提取，用户表述完整性检测等，提升流式交互系统的响应速度和理解准确性等。

更新于 2025-06-25北京

CV算法工程师（2025届）(MJ025586)

社招旅游业务AI &

1.工作内容包括但不限于视觉和多模态分类/多标签、目标检测、质量评估、图生视频、OCR等 2.协助评估模型在垂直场景的效果，将大模型在携程旅游各业务场景落地 3.参与研究、构建和优化携程视觉/多模态理解大模型

更新于 2025-02-11上海

视觉多模态（生成）大模型算法工程师

校招通义2026届秋

通义千问（Qwen）是由通义实验室自主研发的超大规模语言模型，具备跨语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从几百 M 到 T 级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen 正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。团队致力于实现理解生成一体化的世界模型，达成“交互”和“创造”两大目标。本方向专注于研发视觉生成技术的突破，其中研究内容包括但不限于：理解生成一体化、视觉生成等，充分探索相关数据及训练方法研究，以期解决计算机视觉基本问题的同时，为 AI 赋予创造力，理解世界及预测未来世界。工作描述： 1. 下一代理解生成一体化的模型结构设计与研发，探索 Autoregressive LLM 、Diffusion、及两者结合的多种技术路线。 2. 研究及探索世界模型的多模态训练数据及对应训练策略。 3. 设计及研发自动化评估方法设计与实现，为模型研发提供科学指导。

更新于 2025-08-18北京|杭州

视觉多模态大模型应用算法工程师-Top Seed

校招A216895A

团队介绍：字节跳动 Seed 团队成立于 2023 年，致力于寻找通用智能的新方法，追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等，在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心，坚持深耕基础，期望成为世界一流的 AI 研究团队，为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力，支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责多模态大模型的研发和应用，探索超大规模模型，进行极致系统优化；研究相关技术在豆包、智能助手、智能硬件等领域的全新应用和解决方案，包括而不限于多模态理解生成，视觉Agent等能力； 2、数据建设、指令微调、偏好对齐、模型优化； 3、相关应用落地，包括看图对话、问答、搜索、生成创作、逻辑推理、代码生成等； 4、在未来生活中的更多使用场景的深入研究和探索，研发以人工智能技术为核心的新技术、新产品；满足用户不断增长的智能交互需求，全面提升用户在未来世界的生活和交流方式。

更新于 2025-04-18深圳