logo of tongyi

通义视觉多模态(生成)大模型算法工程师

校招全职通义2026届秋季校园招聘地点:北京 | 杭州状态:招聘

任职要求


1. 计算机科学、计算机视觉、人工智能、机器学习、具身智能等领域的博士/硕士毕业生。
2. 对通用视觉理解或生成模型有一定研究实践,在图像 / 视频 / 3D 等至少一种模态上有实际研发经验。
3. 熟练掌握Pytorch,熟悉Megatron大模型训练框架,有优秀的coding/工程能力。
4. 自我驱动力,动手能力强,工作细致,对AI行业有浓厚的兴趣,有较强的学习能力和责任心。
5. 善于平衡研究目标及落地实现,具备跨学科视野与协作意识,能够与工程、产品等多学科团队紧密合作,推动研究成果快速落地并产生实际影响力。
6. 关注技术影响力,具有开源开放精神,对基础模型的前沿问题有持续热情,具备独立思考能力和系统性研究思维,敢于挑战现有范式,能够独立应用技术解决复杂问题。

加分项:
1. 曾发表顶级会议论文并具有一定的学术影响力,包括但不限于:CVPRECCVNeurIPSICMLICLR、ACL、TPAMI等国际顶级计算机会议/期刊。
2. 拥有知名开源项目,在开源社区具有较好的影响力,或在竞赛中获得引领性的研究成果。
3. 具有大规模预训练实战经验。

工作职责


通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。

团队致力于实现理解生成一体化的世界模型,达成“交互”和“创造”两大目标。本方向专注于研发视觉生成技术的突破,其中研究内容包括但不限于:理解生成一体化、视觉生成等,充分探索相关数据及训练方法研究,以期解决计算机视觉基本问题的同时,为 AI 赋予创造力,理解世界及预测未来世界。

工作描述:
1. 下一代理解生成一体化的模型结构设计与研发,探索 Autoregressive LLM 、Diffusion、及两者结合的多种技术路线。
2. 研究及探索世界模型的多模态训练数据及对应训练策略。
3. 设计及研发自动化评估方法设计与实现,为模型研发提供科学指导。
包括英文材料
OpenCV+
机器学习+
PyTorch+
Megatron+
大模型+
CVPR+
ECCV+
NeurIPS+
ICML+
相关职位

logo of tongyi
校招通义2026届秋

通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备多模态、多语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从亿级到万亿级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 若你对以下一个或者多个方向感兴趣均欢迎投递: 1)多模态基础模型的研发,包括融合视觉语言的跨模态理解模型设计,提升视觉基础模型在图像/视频中的视觉知识、空间感知、Omni Parsing 等核心能力,并同时优化多模态大模型的AI infra。 2)通过强化学习(RL)持续提升多模态模型推理能力和执行任务能力,构建支持网络世界(PC/Mobile/Web/游戏)交互的通用智能体,将相关能力拓展到GUI agent,VLA,以及具身智能场景中。 3)研究理解与生成统一的模型架构,实现跨模态生成与推理的协同优化。 工作职责: 1. 多模态 pre-training:开展研究及进行实验,研究内容包括:数据清洗筛选、数据配比优化、课程学习、视觉语言模型结构设计与优化、训练策略优化、预训练数据合成、scaling law 预测、词表优化、模型蒸馏与压缩、长上下文能力优化等。 2. 多模态 post-training:迭代 post-training 训练策略(SFT/RLHF),专项能力数据迭代,参与模型能力评测及评测数据和评估标准的迭代。 3. 多模态推理和通用 agent:通过强化学习(RL)持续提升多模态模型推理能力和执行任务能力,打造多模态的 test scaling laws,并推动模型对网络和虚拟世界的交互和任务完成能力。 4. 统一理解生成:构建视觉统一理解生成大模型,推进多模态统一生成与理解的推理和交互新范式。

更新于 2025-08-22
logo of baidu
社招MEG

- 参与文本、图像、视频等生成式大模型的等算法策略研究,打造业内领先的商业多模态生成大模型 - 利用大模型技术,将最新算法应用于产品开发中,推动大模型技术的实际应用与创新落地 - 与产品及研发团队紧密协作,精准把握业务需求,持续优化商业业务场景下的大模型的技术方案 - 研究高效模型调优方法和高质量数据构建策略,同时关注大模型的前沿技术和未来趋势

更新于 2025-03-31
logo of baidu
社招MEG

- 参与文本、图像、视频等生成式大模型的等算法策略研究,打造业内领先的商业多模态生成大模型 - 利用大模型技术,将最新算法应用于产品开发中,推动大模型技术的实际应用与创新落地 - 与产品及研发团队紧密协作,精准把握业务需求,持续优化商业业务场景下的大模型的技术方案 - 研究高效模型调优方法和高质量数据构建策略,同时关注大模型的前沿技术和未来趋势

更新于 2025-03-07
logo of kuaishou
社招3-5年D4124

1、数据特征算法方案制定与效果优化:针对不同模态、多种类目的数据,设计自动化筛选方案;对多模态数据涉及的前沿特征算法(如物体跟踪、ID 重识别、音频分离)进行场景化效果优化。与算法工程师协作,制定数据调整与扩展策略,提升模型在真实场景中的生成能力; 2、数据 pipeline 建设:负责多模态大模型训练数据的构建与管理,参与数据筛选、标注及质量评估工作。分析和挖掘现有数据资源,设计有效的数据分布策略,支持模型持续迭代; 3、数据分布分析:对模型训练数据分布进行详细分析,识别数据偏差、不均衡及潜在问题。提供可视化报告及改进建议,确保训练数据覆盖目标场景并满足多样性需求,最终通过数据驱动方法优化视频生成大模型效果。

更新于 2025-09-09