字节跳动3D/动作-多模态大模型算法实习生-抖音V-AI-筋斗云人才计划

实习兼职A82690A2025-03-10地点：杭州状态：招聘

扫码手机上打开

任职要求

1、2026届及之后毕业，博士在读，人工智能、自然语言处理、计算机视觉、计算机图形学相关专业优先；
2、具有优秀的编程能力，熟练使用PyTorch深度学习框架和相关高性能计算框架；
3、具有丰富的自然语言处理、计算机视觉、计算机图形学、强化学习相关研究经验，在Siggraph/CVPR/ICCV/ECCV/ACL/ICLR…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

团队介绍：V-AI团队当前支持抖音直播、开放平台、V项目（AI分身/小火人等）业务方向，涵盖了自然语言处理、计算机视觉、图形学等技术领域，通过大模型技术来创造新的互动玩法、制作美术资产、提升研发运营效率等，当前已上线和开展中的项目包括直播大模型（助播/伴播/独播）、角色多模态对话大模型、研发智能助手、3D模型生成大模型、动作生成大模型等。

课题介绍：
背景：随着虚拟现实、增强现实、数字孪生等技术的快速应用，3D数字资产已成为构建沉浸式数字空间的核心要素。在影视动画、游戏开发、直播、社交等领域，3D模型与3D动作的需求呈现爆发式增长。然而，传统3D内容生产高度依赖人工建模与动作捕捉技术，存在效率低、成本高、创作门槛高等瓶颈，难以满足直播等场景中大规模、高保真、多样化、高频迭代的3D内容需求。近年来，以生成式人工智能（AIGC）为代表的大模型技术在2D图像与视频生成领域取得突破性进展，但在3D内容生成领域仍面临表征复杂、多模态数据稀缺、物理规律约束严格等难题。如何将大模型技术与3D生成任务深度融合，实现“文本/图像到3D模型”、“文本/语音到动作”的高质量生成，形成建模+驱动的一站式美术资产生成管线以适配直播场景下资产迭代速度快，品质要求高的需求是当前的重要研究内容。

课题挑战： 
传统方法依赖人工建模工具或程序化生成算法，存在生成效率与创作自由度之间的固有矛盾。AI技术虽然能很好地弥补人工生成效率不足的问题，但仍然存在如下挑战
1. 表征困难：与一维文本和二维图像可以自然地实现结构化表征不同，3D模型由于其多模态（如几何、纹理、材质等）、结构复杂和高维度等特性，使得其表征更为复杂。而3D动作又与物理世界紧密相关，且动态复杂度高。因此，如何高效地表征3D几何形状和3D动作，同时确保高品质的生成，仍然是亟需突破的课题。
2. 生成困难：模型生成需同时保障结构完整性、拓扑合理性和细节丰富性；动作生成需兼顾运动多样性、物理约束与时空连续性。现有方法易出现模型畸变、贴图瑕疵、动作力度不足和多样性差等问题。 
3. 数据不足：3D数据标注成本高、多模态对齐难度大，且现有公开数据集规模有限，导致大模型训练面临数据不足的问题；如何把相关模态数据（图像、视频）利用起来，提升3D模型和3D动作的生成品质也是当前的重大挑战。
4. 评估体系不完善：缺乏统一的3D生成质量量化指标，现有评价多依赖人工主观判断，难以客观衡量生成的几何精度、动作自然度与多模态语义一致性，因此建立完善、客观、可量化的评价体系是保障技术迭代的关键基石。 

1、负责抖音、抖音直播及相关产品的大语言模型/多模态大模型/AIGC算法研发，如数字人、3D生成、动作生成、智能对话等相关工作；
2、负责关键场景的算法优化，构建高质量的模型和Agent系统，提升业务效果；
3、跟踪AI前沿技术进展，推动前沿技术的产品化落地。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

NLP+

OpenCV+

PyTorch+

深度学习+

强化学习+

CVPR+

ICCV+

还有更多 •••

登录查看完整学习资料

相关职位

3D/动作-多模态大模型算法实习生-抖音V-AI-筋斗云人才计划

实习A58912

团队介绍：V-AI团队当前支持抖音直播、开放平台、V项目（AI分身/小火人等）业务方向，涵盖了自然语言处理、计算机视觉、图形学等技术领域，通过大模型技术来创造新的互动玩法、制作美术资产、提升研发运营效率等，当前已上线和开展中的项目包括直播大模型（助播/伴播/独播）、角色多模态对话大模型、研发智能助手、3D模型生成大模型、动作生成大模型等。课题介绍：背景：随着虚拟现实、增强现实、数字孪生等技术的快速应用，3D数字资产已成为构建沉浸式数字空间的核心要素。在影视动画、游戏开发、直播、社交等领域，3D模型与3D动作的需求呈现爆发式增长。然而，传统3D内容生产高度依赖人工建模与动作捕捉技术，存在效率低、成本高、创作门槛高等瓶颈，难以满足直播等场景中大规模、高保真、多样化、高频迭代的3D内容需求。近年来，以生成式人工智能（AIGC）为代表的大模型技术在2D图像与视频生成领域取得突破性进展，但在3D内容生成领域仍面临表征复杂、多模态数据稀缺、物理规律约束严格等难题。如何将大模型技术与3D生成任务深度融合，实现“文本/图像到3D模型”、“文本/语音到动作”的高质量生成，形成建模+驱动的一站式美术资产生成管线以适配直播场景下资产迭代速度快，品质要求高的需求是当前的重要研究内容。课题挑战：传统方法依赖人工建模工具或程序化生成算法，存在生成效率与创作自由度之间的固有矛盾。AI技术虽然能很好地弥补人工生成效率不足的问题，但仍然存在如下挑战 1. 表征困难：与一维文本和二维图像可以自然地实现结构化表征不同，3D模型由于其多模态（如几何、纹理、材质等）、结构复杂和高维度等特性，使得其表征更为复杂。而3D动作又与物理世界紧密相关，且动态复杂度高。因此，如何高效地表征3D几何形状和3D动作，同时确保高品质的生成，仍然是亟需突破的课题。 2. 生成困难：模型生成需同时保障结构完整性、拓扑合理性和细节丰富性；动作生成需兼顾运动多样性、物理约束与时空连续性。现有方法易出现模型畸变、贴图瑕疵、动作力度不足和多样性差等问题。 3. 数据不足：3D数据标注成本高、多模态对齐难度大，且现有公开数据集规模有限，导致大模型训练面临数据不足的问题；如何把相关模态数据（图像、视频）利用起来，提升3D模型和3D动作的生成品质也是当前的重大挑战。 4. 评估体系不完善：缺乏统一的3D生成质量量化指标，现有评价多依赖人工主观判断，难以客观衡量生成的几何精度、动作自然度与多模态语义一致性，因此建立完善、客观、可量化的评价体系是保障技术迭代的关键基石。 1、负责抖音、抖音直播及相关产品的大语言模型/多模态大模型/AIGC算法研发，如数字人、3D生成、动作生成、智能对话等相关工作； 2、负责关键场景的算法优化，构建高质量的模型和Agent系统，提升业务效果； 3、跟踪AI前沿技术进展，推动前沿技术的产品化落地。

更新于 2025-03-03北京

3D/动作-多模态大模型算法实习生-抖音V-AI-筋斗云人才计划

实习A227228

更新于 2025-03-03上海

3D/动作-多模态大模型算法实习生-抖音V-AI-筋斗云人才计划

实习A77052A

更新于 2025-03-03深圳

大模型训练框架研发工程师/专家

社招5-10年引擎

我们是小红书中台大模型 Infra 团队，专注打造领先易用的「AI 大模型全链路基础设施」！团队深耕大模型「数-训-压-推-评」技术闭环，在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势，基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品，持续赋能社区、商业、交易、安全、数平、研效等多个核心业务，实现 AI 技术高效落地！ 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架，优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline； 2、研发支持多机多卡 RL 的分布式训练框架，开发TP/PP/ZeRO-3与RL流程的动态协同机制，解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链，主导框架与 MLOps 平台集成，提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作，参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代； 5、参与分析各业务 GPU 利用率与饱和度等指标，结合业务场景持续优化训练框架能力，提升框架领先性。

更新于 2026-03-28上海|北京