字节跳动3D视觉生成工程师-智能创作

校招全职A2236712025-07-23地点：北京状态：招聘

扫码手机上打开

任职要求

1、2026届获得硕士及以上学位，计算机、软件工程、电子信息等相关专业优先；
2、在计算机视觉某个领域有较深入的研究，包括但不限于：视频生成、3D生成、3D重建、3D数字人、3D视觉等；对深度学习算法有深刻理解，熟悉常用深度学习框架；
3、具备快速学习新技术的能力，能够在较短时间内理解前沿论文并…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

团队介绍：智能创作团队是字节跳动的创作场景业务中台，以AI赋能创造，致力于通过AI技术降低创作门槛，赋能视觉内容生产与创作的智能化升级。团队深度支持抖音、剪映、即梦、豆包、商业化等多个业务线，持续深耕图片与视频生成、智能剪辑、数字人、特效等多个业务场景，通过由AI驱动的智能化工具与算法，为用户提供了更智能、更便捷、更丰富的创作体验，助力普通用户轻松实现高质量内容创作，同时为专业创作者提供强大的技术支持，推动内容生态的繁荣与创新。

1、参与3D视觉与多模态生成结合的相关算法研发与优化，包括3D生成、视频生成等，跟进计算机视觉领域的前沿技术研究；
2、参与和推动上述相关技术在抖音、剪映、火山引擎等产品线的落地。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

OpenCV+

数字人+

深度学习+

还有更多 •••

登录查看完整学习资料

相关职位

3D内容生成算法工程师-智能创作

社招85WS1

1、负责3D内容生成前沿技术的攻坚，包括文生3D、图生3D等； 2、支持字节跳动各个产品线3D内容生成相关的业务需求； 3、跟进3D内容生成领域的新技术； 4、负责推动3D内容生成技术落地于AR/VR/XR场景； 5、根据团队的整体目标和规划，进行相关的研发工作。

更新于 2018-09-12北京

AIGC视觉多模态算法工程师

校招通义2026届秋

团队介绍：近年来，以大模型为核心的生成式人工智能技术发展取得了突破性进展，视觉内容创作领域展现出前所未有的技术潜力与广泛的应用前景。我们在数字人、视觉理解、2D/3D生成&编辑、人机交互等领域深耕多年，拥有丰富的学术积累与工程实践经验。过去几年，团队在顶级会议发表论文50余篇，相关成果已在阿里集团内外如教育、培训、客服、社交等多场景落地，在多家主流手机厂商中实现深度集成，也成功服务于奥运会、亚运会、春晚等盛会，累计数亿次调用。如果你对研发规模化的AIGC解决方案感兴趣，期望在计算机视觉、图形学与机器学习领域持续创新，推动图像、视频与3D内容创作的普惠化和产业化发展，欢迎加入我们共同探索生成式AI在视觉内容创作中的无限可能。岗位职责具体职责包括但不限于： 1.负责视觉生成模型的核心理论与前沿进展相关研究，通过算法创新与性能优化，提升多模态内容的生成质量、多样性与可控性。 2.负责图像/视频生成、编辑与理解等的核心算法研发、系统研发和产品开发，包括文生图/视频、图生图/视频、图像/视频修复、图像/视频编辑、风格迁移等。 3.负责2D/3D数字人核心算法研发、系统研发和产品开发，包括基于2D/3D数字人重建、2D/3D数字人生成、姿态估计、表情驱动、语音驱动等。 4.负责面向场景的空间智能算法研究、产品开发，包括子弹时间系统、4D体积视频、3D感知、空间定位等。 5.探索理解生成统一的新范式，以及更加高效的多模态生成Scaling方法，包括但不限于高效attention设计、人类反馈和强化学习、模型蒸馏、训练/推理优化、多模态Tokenizer研究。

更新于 2025-08-07北京|杭州

3D高精人脸算法工程师-PICO（北京）

社招A215479

1、在3D视觉领域，特别是人脸和人体的3D数字内容创作方面，进行前沿研究和开发； 2、将先进技术转化为PICO产品； 3、探索以数字人和人工智能技术为核心的新产品。

更新于 2024-08-29北京

3D/动作-多模态大模型算法工程师-抖音V-AI-筋斗云人才计划

社招A11449

团队介绍：V-AI团队当前支持抖音直播、开放平台、V项目（AI分身/小火人等）业务方向，涵盖了自然语言处理、计算机视觉、图形学等技术领域，通过大模型技术来创造新的互动玩法、制作美术资产、提升研发运营效率等，当前已上线和开展中的项目包括直播大模型（助播/伴播/独播）、角色多模态对话大模型、研发智能助手、3D模型生成大模型、动作生成大模型等。课题介绍：背景：随着虚拟现实、增强现实、数字孪生等技术的快速应用，3D数字资产已成为构建沉浸式数字空间的核心要素。在影视动画、游戏开发、直播、社交等领域，3D模型与3D动作的需求呈现爆发式增长。然而，传统3D内容生产高度依赖人工建模与动作捕捉技术，存在效率低、成本高、创作门槛高等瓶颈，难以满足直播等场景中大规模、高保真、多样化、高频迭代的3D内容需求。近年来，以生成式人工智能（AIGC）为代表的大模型技术在2D图像与视频生成领域取得突破性进展，但在3D内容生成领域仍面临表征复杂、多模态数据稀缺、物理规律约束严格等难题。如何将大模型技术与3D生成任务深度融合，实现“文本/图像到3D模型”、“文本/语音到动作”的高质量生成，形成建模+驱动的一站式美术资产生成管线以适配直播场景下资产迭代速度快，品质要求高的需求是当前的重要研究内容。课题挑战：传统方法依赖人工建模工具或程序化生成算法，存在生成效率与创作自由度之间的固有矛盾。AI技术虽然能很好地弥补人工生成效率不足的问题，但仍然存在如下挑战 1. 表征困难：与一维文本和二维图像可以自然地实现结构化表征不同，3D模型由于其多模态（如几何、纹理、材质等）、结构复杂和高维度等特性，使得其表征更为复杂。而3D动作又与物理世界紧密相关，且动态复杂度高。因此，如何高效地表征3D几何形状和3D动作，同时确保高品质的生成，仍然是亟需突破的课题。 2. 生成困难：模型生成需同时保障结构完整性、拓扑合理性和细节丰富性；动作生成需兼顾运动多样性、物理约束与时空连续性。现有方法易出现模型畸变、贴图瑕疵、动作力度不足和多样性差等问题。 3. 数据不足：3D数据标注成本高、多模态对齐难度大，且现有公开数据集规模有限，导致大模型训练面临数据不足的问题；如何把相关模态数据（图像、视频）利用起来，提升3D模型和3D动作的生成品质也是当前的重大挑战。 4. 评估体系不完善：缺乏统一的3D生成质量量化指标，现有评价多依赖人工主观判断，难以客观衡量生成的几何精度、动作自然度与多模态语义一致性，因此建立完善、客观、可量化的评价体系是保障技术迭代的关键基石。 1、负责抖音、抖音直播及相关产品的大语言模型/多模态大模型/AIGC算法研发，如数字人、3D生成、动作生成、智能对话等相关工作； 2、负责关键场景的算法优化，构建高质量的模型和Agent系统，提升业务效果； 3、跟踪AI前沿技术进展，推动前沿技术的产品化落地。

更新于 2025-05-27北京