logo of tongyi

通义AIGC视觉多模态算法工程师

校招全职通义2026届秋季校园招聘地点:北京 | 杭州状态:招聘

任职要求


1.计算机视觉、计算机图形、机器学习等相关专业,熟悉计算机图形学、机器学习、图像/视频分析与处理等相关领域的技术和应用。
2.极佳的工程实现能力,熟练掌握C/C++JavaPython等至少一门语言。
3.良好的学术调研能力,良好的逻辑和数据分析能力,有高质量论文、开源项目、ACM竞赛经历、相关学术会议组织的权威比赛获奖经历或落地项目产出者优先。 
4.有良好的自我学习能力及自驱力,对前沿领域有强探索欲和好奇心、善于独立思考并反思总结;具备良好的沟通能力和团队协作能力。

工作职责


团队介绍:
近年来,以大模型为核心的生成式人工智能技术发展取得了突破性进展,视觉内容创作领域展现出前所未有的技术潜力与广泛的应用前景。我们在数字人、视觉理解、2D/3D生成&编辑、人机交互等领域深耕多年,拥有丰富的学术积累与工程实践经验。过去几年,团队在顶级会议发表论文50余篇,相关成果已在阿里集团内外如教育、培训、客服、社交等多场景落地,在多家主流手机厂商中实现深度集成,也成功服务于奥运会、亚运会、春晚等盛会,累计数亿次调用。

如果你对研发规模化的AIGC解决方案感兴趣,期望在计算机视觉、图形学与机器学习领域持续创新,推动图像、视频与3D内容创作的普惠化和产业化发展,欢迎加入我们共同探索生成式AI在视觉内容创作中的无限可能。

岗位职责具体职责包括但不限于:
1.负责视觉生成模型的核心理论与前沿进展相关研究,通过算法创新与性能优化,提升多模态内容的生成质量、多样性与可控性。
2.负责图像/视频生成、编辑与理解等的核心算法研发、系统研发和产品开发,包括文生图/视频、图生图/视频、图像/视频修复、图像/视频编辑、风格迁移等。
3.负责2D/3D数字人核心算法研发、系统研发和产 品开发,包括基于2D/3D数字人重建、2D/3D数字人生成、姿态估计、表情驱动、语音驱动等。
4.负责面向场景的空间智能算法研究、产品开发,包括子弹时间系统、4D体积视频、3D感知、空间定位等。
5.探索理解生成统一的新范式,以及更加高效的多模态生成Scaling方法,包括但不限于高效attention设计、人类反馈和强化学习、模型蒸馏、训练/推理优化、多模态Tokenizer研究。
包括英文材料
OpenCV+
机器学习+
C+
C+++
Java+
Python+
数据分析+
相关职位

logo of sf
社招5-10年

1、针对物流领域场景进行深入的视觉算法研发,包括但不限于图像生成、图像理解、视频生成、视频理解等; 2、负责垂域多模态大模型的继续预训练、SFT等工作,积极跟进AIGC业内应用趋势,包括但不限于MoE、Agent、O1等方向。

更新于 2025-06-10
logo of xiaohongshu
校招AIGC算法

内容理解方向: 1、负责多模态内容理解、图像理解以及NLP相关的工作,应用图像和NLP技术,提升发布侧基础工具效果和体验; 2、负责包括但不限于大规模预训练模型、数据挖掘,持续优化并时刻保持技术先进性,将业界SOTA模型落地并改进以获取业务线上收益; 3、紧密关注相关领域业界的最新进展,并负责在发布&增长等业务的落地应用。 生成方向: 1、负责多模态生成/GAN等图像生成相关算法研发与优化, 跟进计算机视觉领域的前沿技术研究; 2、参与技术规划制定, 把握图像生成技术最新发展趋势; 3、推动技术在特效/素材生成/辅助设计等领域的应用。 基础视觉方向 1、参与计算机视觉(检测、分割、人脸、人体)的前沿技术的研究和落地; 2、为小红书发布侧提供基础视觉算法能力,为更多的模版服务,提升UGC使用体验。 AIGC方向: 1、参与计算机视觉、自然语言处理、多模态等领域的前沿技术研究; 2、利用前沿AIGC算法,打造业内领先的多媒体内容理解和生成能力。

logo of xiaohongshu
校招AIGC算法

创作发布算法方向: 1、负责图像编辑、视频剪辑、文案创作等内容创作相关算法的研发与优化,并在社区发布、商业化&电商创作等场景落地; 2、跟进多模态大模型内容生产、Agent等相关技术的最新发展趋势,保持技术先进性,持续探索Agent在内容创作方面的潜力。 内容理解方向: 1、负责多模态内容理解、图像理解以及NLP相关的算法研发工作,提升搜索、广告、推荐、创作发布的效果和体验; 2、负责包括但不限于多模态大模型Pre/PostTrain、数据挖掘,持续优化并突破业界SOTA效果,兼具落地以获取业务线上收益; 3、紧密关注相关领域业界的最新进展,时刻保持技术先进性,探索前沿技术的落地结合点。 AIGC生成方向: 1、负责多模态生成/GAN/Diffusion等图像&视频生成相关算法研发与优化, 跟进该领域的前沿技术研究; 2、参与技术规划制定, 跟进图像&视频生成技术最新发展趋势,打造业内领先的多模态内容生成能力。; 3、推动技术在图像&视频编辑/素材生成/辅助设计/特效等领域的应用。

更新于 2025-09-16
logo of baidu
社招5-10年MEG

-负责AIGC团队多模态相关业务的算法研发,工作内容包括但不限于:图像/视频的生成与理解,如图像编辑、文生图、图生图、图生视频、语义匹配等 -负责AIGC多模态中台能力建设,追踪并落地应用多模态前沿技术 -负责模型训练和推理性能优化,探索多模态算法新范式 -探索AIGC在具体业务的产品新形态

更新于 2024-08-14