logo of tongyi

通义AIGC视觉多模态算法工程师

校招全职通义2026届秋季校园招聘地点:北京 | 杭州状态:招聘

任职要求


1.计算机视觉、计算机图形、机器学习等相关专业,熟悉计算机图形学、机器学习、图像/视频分析与处理等相关领域的技术和应用。
2.极佳的工程实现能力,熟练掌握C/C++、Java、Python等至少一门语言。
3.良好的学术调研能力,良好的逻…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


团队介绍:
近年来,以大模型为核心的生成式人工智能技术发展取得了突破性进展,视觉内容创作领域展现出前所未有的技术潜力与广泛的应用前景。我们在数字人、视觉理解、2D/3D生成&编辑、人机交互等领域深耕多年,拥有丰富的学术积累与工程实践经验。过去几年,团队在顶级会议发表论文50余篇,相关成果已在阿里集团内外如教育、培训、客服、社交等多场景落地,在多家主流手机厂商中实现深度集成,也成功服务于奥运会、亚运会、春晚等盛会,累计数亿次调用。

如果你对研发规模化的AIGC解决方案感兴趣,期望在计算机视觉、图形学与机器学习领域持续创新,推动图像、视频与3D内容创作的普惠化和产业化发展,欢迎加入我们共同探索生成式AI在视觉内容创作中的无限可能。

岗位职责具体职责包括但不限于:
1.负责视觉生成模型的核心理论与前沿进展相关研究,通过算法创新与性能优化,提升多模态内容的生成质量、多样性与可控性。
2.负责图像/视频生成、编辑与理解等的核心算法研发、系统研发和产品开发,包括文生图/视频、图生图/视频、图像/视频修复、图像/视频编辑、风格迁移等。
3.负责2D/3D数字人核心算法研发、系统研发和产 品开发,包括基于2D/3D数字人重建、2D/3D数字人生成、姿态估计、表情驱动、语音驱动等。
4.负责面向场景的空间智能算法研究、产品开发,包括子弹时间系统、4D体积视频、3D感知、空间定位等。
5.探索理解生成统一的新范式,以及更加高效的多模态生成Scaling方法,包括但不限于高效attention设计、人类反馈和强化学习、模型蒸馏、训练/推理优化、多模态Tokenizer研究。
包括英文材料
OpenCV+
机器学习+
C+
还有更多 •••
相关职位

logo of ke
社招3D楼书研发部

主要职责: (图像识别 三维重建经验 51word toC 袋鼠 数字孪生 新能源汽车) 1. 三维建模技术研究,包括NeRF建模、可微分几何建模、3D Gaussian Splatting建模算法等; 2. 负责非限定场景下的高精度相机位姿估计研究,包含COLMAP算法、SLAM算法等; 3. 负责3D Diffusion相关技术研究,包括多模态3D AIGC、材质生成等; 4. 负责隐式三维模型编辑相关技术研究,包括模型压缩、材质&光照解耦、显式&隐式模型融合等。 5. 负责通过人工智能的方式,提升过程效率和自动化程度,降低人工参与的成本,参与其他相关业务的 AI算法研发、数据处理、模型训练、模型调优和训练流程自动化;

更新于 2025-03-17北京
logo of amap
社招技术类-算法

团队介绍: 我们团队聚焦多模态模型、大语言模型、扩散模型的前沿探索和算法应用。团队承接公司核心业务,深耕人工智能前沿领域,在业内有持续影响力,在NeurIPS/ICLR/CVPR/ACL/EMNLP等顶会已发表多篇论文。 具体职责包括但不限于: 多模态模型、扩散模型、图像编辑的研究和应用,包含但不限于文本、图像的跨模态对齐和AIGC内容生成。 大语言模型的前沿探索和应用,包括但不限于SFT和RLHF算法、CoT、Hallucination、Agent等领域的探索与研究; 大模型的效率研究,包括但不限于大模型的量化、蒸馏、训练与推理加速。

更新于 2025-04-07北京
logo of bytedance
社招A139487

1、负责抖音电商短视频和直播间的多模态内容理解、内容挖掘及结构化标签,构建内容分层体系,探索计算机视觉和多模态前沿技术,负责算法模型迭代升级,优化兴趣电商购物体验; 2、利用NLP、CV、多模态技术增强对电商内容理解的能力,在内容冷启、推搜策略、商达成长、供给生态等多个业务方向,支持电商业务目标高速发展; 3、负责AIGC图片/视频生成技术在电商领域的落地,参与电商基础模型构建以及AIGC能力在电商的价值探索; 4、负责抖店AIGC工具研发,不限于背景替换、虚拟试衣、文/图生视频等相关内容,积极跟进业界进展,推动技术在业务落地。

更新于 2024-09-20北京
logo of youku
社招2年以上

1、跟进并实现视觉生成相关核心模块算法研发,并在可控场景下设计并实现业务生成方案与生成逻辑 2、解决文本生图、文本生视频的生成稳定性、一致性、可控性等核心问题 3、解决图像识别理解、图像审核、图像分类、图像分割等应用场景业务问题

更新于 2026-02-05北京|杭州