
Momenta世界模型算法实习生(视频生成方向)
任职要求
1、计算机科学/人工智能/机器人/自动化等相关专业硕士及以上学历,博士优先; 2、在自动驾驶/机器人等对时空一致性要求较高的任务中有实际应用经验者优先; 3、有Diffusion Model/自回归时序模型或世界模型相关研究与实践经验优先; 4、扎实的编程能力,熟练使用 Python/C++,具备良好的数据结构与算法基础; 5、熟悉主流深度学习框架(PyTorch等),并对模型训练、优化与工程实现有深入理解; 6…
工作职责
1、主导研发具备时空一致性的端到端智驾大模型(World Model),聚焦视频生成相关技术落地,支撑环境建模、未来预测与策略评估等核心任务; 2、结合Diffusion/自回归等生成式模型,提升真实交通场景下的多模态预测、不确定性建模精度与鲁棒性; 3、泛化端到端模型性能,重点解决在长时序、复杂交互场景中的时空连贯性问题,保障模型的稳定性与泛化能力; 4、负责端到端模型在L4无人物流场景的规模化落地,推动技术从研发到实际应用的转化。
参与团队在世界模型(world model),视频生成模型,3D/4D生成模型等相关方向大模型的研发。同时结合自研产品需求,深度参与模型在公司相关场景的应用落地。 1、负责相关大模型算法的设计、开发和优化,提高模型的性能和精度; 2、负责模型的训练、测试、验证和部署,保证模型的稳定性和可靠性; 3、负责模型的监控和维护,及时发现和解决模型的问题; 4、参与团队的技术交流和分享,提高团队的技术水平。

聚焦探索实时可交互视频生成方向,产出高水平学术成果与影响力技术落地。 专项课题: 研究方向一:实时视频生成范式探索 1. 实时视频生成范式的探索,系统性验证AR或AR+Diffusion视频生成方案; 2. 尝试垂直领域AR生成范式和AR生成范式在数据上的scaling law和智能涌现能力; 3. DiT视频生成效率提升,包括但不限高效率、低精度损失、高压缩比的视频VAE和tokenizer、包括稀疏架构、MoE等DiT结构探索。 研究方向二:长视频生成的一致性保持 1.DIT范式,AR范式 和 AR + DiT范式下的视频生成记忆框架实现与调研,包括但不限于3D 世界模型表征记忆,预测帧缓存与重用机制 和 用户状态与意图记忆等; 2.基于隐式视觉记忆机制(跨时间追踪关键环境状态),探索无需显式3D建模的动态场景表征,支持对场景物体、光照、环境的长期记忆存储与检索。
团队介绍:V-AI团队当前支持抖音直播、开放平台、V项目(AI分身/小火人等)业务方向,涵盖了自然语言处理、计算机视觉、图形学等技术领域,通过大模型技术来创造新的互动玩法、制作美术资产、提升研发运营效率等,当前已上线和开展中的项目包括直播大模型(助播/伴播/独播)、角色多模态对话大模型、研发智能助手、3D模型生成大模型、动作生成大模型等。 课题介绍: 背景:随着虚拟现实、增强现实、数字孪生等技术的快速应用,3D数字资产已成为构建沉浸式数字空间的核心要素。在影视动画、游戏开发、直播、社交等领域,3D模型与3D动作的需求呈现爆发式增长。然而,传统3D内容生产高度依赖人工建模与动作捕捉技术,存在效率低、成本高、创作门槛高等瓶颈,难以满足直播等场景中大规模、高保真、多样化、高频迭代的3D内容需求。近年来,以生成式人工智能(AIGC)为代表的大模型技术在2D图像与视频生成领域取得突破性进展,但在3D内容生成领域仍面临表征复杂、多模态数据稀缺、物理规律约束严格等难题。如何将大模型技术与3D生成任务深度融合,实现“文本/图像到3D模型”、“文本/语音到动作”的高质量生成,形成建模+驱动的一站式美术资产生成管线以适配直播场景下资产迭代速度快,品质要求高的需求是当前的重要研究内容。 课题挑战: 传统方法依赖人工建模工具或程序化生成算法,存在生成效率与创作自由度之间的固有矛盾。AI技术虽然能很好地弥补人工生成效率不足的问题,但仍然存在如下挑战 1. 表征困难:与一维文本和二维图像可以自然地实现结构化表征不同,3D模型由于其多模态(如几何、纹理、材质等)、结构复杂和高维度等特性,使得其表征更为复杂。而3D动作又与物理世界紧密相关,且动态复杂度高。因此,如何高效地表征3D几何形状和3D动作,同时确保高品质的生成,仍然是亟需突破的课题。 2. 生成困难:模型生成需同时保障结构完整性、拓扑合理性和细节丰富性;动作生成需兼顾运动多样性、物理约束与时空连续性。现有方法易出现模型畸变、贴图瑕疵、动作力度不足和多样性差等问题。 3. 数据不足:3D数据标注成本高、多模态对齐难度大,且现有公开数据集规模有限,导致大模型训练面临数据不足的问题;如何把相关模态数据(图像、视频)利用起来,提升3D模型和3D动作的生成品质也是当前的重大挑战。 4. 评估体系不完善:缺乏统一的3D生成质量量化指标,现有评价多依赖人工主观判断,难以客观衡量生成的几何精度、动作自然度与多模态语义一致性,因此建立完善、客观、可量化的评价体系是保障技术迭代的关键基石。 1、负责抖音、抖音直播及相关产品的大语言模型/多模态大模型/AIGC算法研发,如数字人、3D生成、动作生成、智能对话等相关工作; 2、负责关键场景的算法优化,构建高质量的模型和Agent系统,提升业务效果; 3、跟踪AI前沿技术进展,推动前沿技术的产品化落地。