通义AIGC视觉多模态算法工程师

校招全职通义2026届秋季校园招聘2025-08-07地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1.计算机视觉、计算机图形、机器学习等相关专业，熟悉计算机图形学、机器学习、图像/视频分析与处理等相关领域的技术和应用。
2.极佳的工程实现能力，熟练掌握C/C++、Java、Python等至少一门语言。
3.良好的学术调研能力，良好的逻…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

团队介绍：
近年来，以大模型为核心的生成式人工智能技术发展取得了突破性进展，视觉内容创作领域展现出前所未有的技术潜力与广泛的应用前景。我们在数字人、视觉理解、2D/3D生成&编辑、人机交互等领域深耕多年，拥有丰富的学术积累与工程实践经验。过去几年，团队在顶级会议发表论文50余篇，相关成果已在阿里集团内外如教育、培训、客服、社交等多场景落地，在多家主流手机厂商中实现深度集成，也成功服务于奥运会、亚运会、春晚等盛会，累计数亿次调用。

如果你对研发规模化的AIGC解决方案感兴趣，期望在计算机视觉、图形学与机器学习领域持续创新，推动图像、视频与3D内容创作的普惠化和产业化发展，欢迎加入我们共同探索生成式AI在视觉内容创作中的无限可能。

岗位职责具体职责包括但不限于：
1.负责视觉生成模型的核心理论与前沿进展相关研究，通过算法创新与性能优化，提升多模态内容的生成质量、多样性与可控性。
2.负责图像/视频生成、编辑与理解等的核心算法研发、系统研发和产品开发，包括文生图/视频、图生图/视频、图像/视频修复、图像/视频编辑、风格迁移等。
3.负责2D/3D数字人核心算法研发、系统研发和产 品开发，包括基于2D/3D数字人重建、2D/3D数字人生成、姿态估计、表情驱动、语音驱动等。
4.负责面向场景的空间智能算法研究、产品开发，包括子弹时间系统、4D体积视频、3D感知、空间定位等。
5.探索理解生成统一的新范式，以及更加高效的多模态生成Scaling方法，包括但不限于高效attention设计、人类反馈和强化学习、模型蒸馏、训练/推理优化、多模态Tokenizer研究。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

OpenCV+

机器学习+

C+

还有更多 •••

登录查看完整学习资料

相关职位

三维重建工程师(J61246)

社招3D楼书研发部

主要职责：（图像识别三维重建经验 51word toC 袋鼠数字孪生新能源汽车） 1. 三维建模技术研究，包括NeRF建模、可微分几何建模、3D Gaussian Splatting建模算法等； 2. 负责非限定场景下的高精度相机位姿估计研究，包含COLMAP算法、SLAM算法等； 3. 负责3D Diffusion相关技术研究，包括多模态3D AIGC、材质生成等； 4. 负责隐式三维模型编辑相关技术研究，包括模型压缩、材质&光照解耦、显式&隐式模型融合等。 5. 负责通过人工智能的方式，提升过程效率和自动化程度，降低人工参与的成本，参与其他相关业务的 AI算法研发、数据处理、模型训练、模型调优和训练流程自动化;

更新于 2025-03-17北京

高德-多模态和大模型算法工程师/专家-北京

社招技术类-算法

团队介绍：我们团队聚焦多模态模型、大语言模型、扩散模型的前沿探索和算法应用。团队承接公司核心业务，深耕人工智能前沿领域，在业内有持续影响力，在NeurIPS/ICLR/CVPR/ACL/EMNLP等顶会已发表多篇论文。具体职责包括但不限于：多模态模型、扩散模型、图像编辑的研究和应用，包含但不限于文本、图像的跨模态对齐和AIGC内容生成。大语言模型的前沿探索和应用，包括但不限于SFT和RLHF算法、CoT、Hallucination、Agent等领域的探索与研究；大模型的效率研究，包括但不限于大模型的量化、蒸馏、训练与推理加速。

更新于 2025-04-07北京

AIGC/内容理解算法工程师-电商业务

社招A139487

1、负责抖音电商短视频和直播间的多模态内容理解、内容挖掘及结构化标签，构建内容分层体系，探索计算机视觉和多模态前沿技术，负责算法模型迭代升级，优化兴趣电商购物体验； 2、利用NLP、CV、多模态技术增强对电商内容理解的能力，在内容冷启、推搜策略、商达成长、供给生态等多个业务方向，支持电商业务目标高速发展； 3、负责AIGC图片/视频生成技术在电商领域的落地，参与电商基础模型构建以及AIGC能力在电商的价值探索； 4、负责抖店AIGC工具研发，不限于背景替换、虚拟试衣、文/图生视频等相关内容，积极跟进业界进展，推动技术在业务落地。

更新于 2024-09-20北京

优酷-AIGC多模态算法工程师-杭州/北京

社招2年以上

1、跟进并实现视觉生成相关核心模块算法研发，并在可控场景下设计并实现业务生成方案与生成逻辑 2、解决文本生图、文本生视频的生成稳定性、一致性、可控性等核心问题 3、解决图像识别理解、图像审核、图像分类、图像分割等应用场景业务问题

更新于 2026-02-05北京|杭州