优酷优酷-算法工程师-计算机视觉（AIGC 3D/视频生成方向）-北京

社招全职2年以上2026-01-19地点：北京状态：招聘

扫码手机上打开

任职要求

1、人工智能、计算机及相关相关专业博士或硕士，在视觉生成、计算机视觉、多模态等领域基础扎实
2、代码能力扎实 ，熟练掌握PyTorch开发，有PyTor…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、研究和探索可控的视觉内容生成技术，负责视觉内容生成模型等相关算法的研发和落地，结合公司业务场景进行相关策略迭代
2、探索时空内容可控生成技术，包括图片/视频风格迁移、镜头控制、空间一致性控制等
3、持续跟踪图像和视频生成领域的最新技术动态，评估并实施前沿技术，推动技术在公司产品中的应用与创新

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

OpenCV+

PyTorch+

相关职位

算法工程师-计算机视觉（AIGC 3D/视频生成方向）

实习虎鲸文娱2026

1、研究和探索可控的视觉内容生成技术，负责视觉内容生成模型等相关算法的研发和落地，结合公司业务场景进行相关策略迭代； 2、探索时空内容可控生成技术，包括图片/视频风格迁移、镜头控制、空间一致性控制等； 3、持续跟踪图像和视频生成领域的最新技术动态，评估并实施前沿技术，推动技术在公司产品中的应用与创新。

更新于 2025-05-06北京

算法工程师-计算机视觉（AIGC 3D/视频生成方向）

校招虎鲸文娱2026

1、研究和探索可控的视觉内容生成技术，负责视觉内容生成模型等相关算法的研发和落地，结合公司业务场景进行相关策略迭代 2、探索时空内容可控生成技术，包括图片/视频风格迁移、镜头控制、空间一致性控制等 3、持续跟踪图像和视频生成领域的最新技术动态，评估并实施前沿技术，推动技术在公司产品中的应用与创新

更新于 2025-12-30北京

AIGC视觉多模态算法工程师

校招通义2026届秋

团队介绍：近年来，以大模型为核心的生成式人工智能技术发展取得了突破性进展，视觉内容创作领域展现出前所未有的技术潜力与广泛的应用前景。我们在数字人、视觉理解、2D/3D生成&编辑、人机交互等领域深耕多年，拥有丰富的学术积累与工程实践经验。过去几年，团队在顶级会议发表论文50余篇，相关成果已在阿里集团内外如教育、培训、客服、社交等多场景落地，在多家主流手机厂商中实现深度集成，也成功服务于奥运会、亚运会、春晚等盛会，累计数亿次调用。如果你对研发规模化的AIGC解决方案感兴趣，期望在计算机视觉、图形学与机器学习领域持续创新，推动图像、视频与3D内容创作的普惠化和产业化发展，欢迎加入我们共同探索生成式AI在视觉内容创作中的无限可能。岗位职责具体职责包括但不限于： 1.负责视觉生成模型的核心理论与前沿进展相关研究，通过算法创新与性能优化，提升多模态内容的生成质量、多样性与可控性。 2.负责图像/视频生成、编辑与理解等的核心算法研发、系统研发和产品开发，包括文生图/视频、图生图/视频、图像/视频修复、图像/视频编辑、风格迁移等。 3.负责2D/3D数字人核心算法研发、系统研发和产品开发，包括基于2D/3D数字人重建、2D/3D数字人生成、姿态估计、表情驱动、语音驱动等。 4.负责面向场景的空间智能算法研究、产品开发，包括子弹时间系统、4D体积视频、3D感知、空间定位等。 5.探索理解生成统一的新范式，以及更加高效的多模态生成Scaling方法，包括但不限于高效attention设计、人类反馈和强化学习、模型蒸馏、训练/推理优化、多模态Tokenizer研究。

更新于 2025-08-07北京|杭州

3D/动作-多模态大模型算法工程师-抖音V-AI-筋斗云人才计划

社招A11449

团队介绍：V-AI团队当前支持抖音直播、开放平台、V项目（AI分身/小火人等）业务方向，涵盖了自然语言处理、计算机视觉、图形学等技术领域，通过大模型技术来创造新的互动玩法、制作美术资产、提升研发运营效率等，当前已上线和开展中的项目包括直播大模型（助播/伴播/独播）、角色多模态对话大模型、研发智能助手、3D模型生成大模型、动作生成大模型等。课题介绍：背景：随着虚拟现实、增强现实、数字孪生等技术的快速应用，3D数字资产已成为构建沉浸式数字空间的核心要素。在影视动画、游戏开发、直播、社交等领域，3D模型与3D动作的需求呈现爆发式增长。然而，传统3D内容生产高度依赖人工建模与动作捕捉技术，存在效率低、成本高、创作门槛高等瓶颈，难以满足直播等场景中大规模、高保真、多样化、高频迭代的3D内容需求。近年来，以生成式人工智能（AIGC）为代表的大模型技术在2D图像与视频生成领域取得突破性进展，但在3D内容生成领域仍面临表征复杂、多模态数据稀缺、物理规律约束严格等难题。如何将大模型技术与3D生成任务深度融合，实现“文本/图像到3D模型”、“文本/语音到动作”的高质量生成，形成建模+驱动的一站式美术资产生成管线以适配直播场景下资产迭代速度快，品质要求高的需求是当前的重要研究内容。课题挑战：传统方法依赖人工建模工具或程序化生成算法，存在生成效率与创作自由度之间的固有矛盾。AI技术虽然能很好地弥补人工生成效率不足的问题，但仍然存在如下挑战 1. 表征困难：与一维文本和二维图像可以自然地实现结构化表征不同，3D模型由于其多模态（如几何、纹理、材质等）、结构复杂和高维度等特性，使得其表征更为复杂。而3D动作又与物理世界紧密相关，且动态复杂度高。因此，如何高效地表征3D几何形状和3D动作，同时确保高品质的生成，仍然是亟需突破的课题。 2. 生成困难：模型生成需同时保障结构完整性、拓扑合理性和细节丰富性；动作生成需兼顾运动多样性、物理约束与时空连续性。现有方法易出现模型畸变、贴图瑕疵、动作力度不足和多样性差等问题。 3. 数据不足：3D数据标注成本高、多模态对齐难度大，且现有公开数据集规模有限，导致大模型训练面临数据不足的问题；如何把相关模态数据（图像、视频）利用起来，提升3D模型和3D动作的生成品质也是当前的重大挑战。 4. 评估体系不完善：缺乏统一的3D生成质量量化指标，现有评价多依赖人工主观判断，难以客观衡量生成的几何精度、动作自然度与多模态语义一致性，因此建立完善、客观、可量化的评价体系是保障技术迭代的关键基石。 1、负责抖音、抖音直播及相关产品的大语言模型/多模态大模型/AIGC算法研发，如数字人、3D生成、动作生成、智能对话等相关工作； 2、负责关键场景的算法优化，构建高质量的模型和Agent系统，提升业务效果； 3、跟踪AI前沿技术进展，推动前沿技术的产品化落地。

更新于 2025-05-27北京