logo of tencent

腾讯腾讯游戏-多模态大模型算法研究员-动作生成方向

社招全职2年以上Aivatar_动画生成技术地点:深圳状态:招聘

任职要求


1.计算机、人工智能等相关专业硕士或博士学位,在深度学习领域有扎实的理论功底;
2.深入理解主流多模态融合架构(例如 Single-stream、Double-stream 等),能够针对不同模态特征进行灵活的 Transformer 模块设计;
3.熟悉端到端预训练、SFT、RL 微调等流程;
4.熟练使用 Python,熟练使用 PyTorch 框架;
5.具备 3D 骨骼动画或人体运动学(IK/…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.负责构建和优化面向动作生成的多模态大模型架构,探索文本、视觉信号、3D 动作序列等模态的深度融合与对齐;
2.负责研究多模态场景下,高维、连续3D动作数据的Tokenization 方法;
3.负责探索多模态动作大模型 Scaling Law,包括数据量、参数量级、计算量等,通过模型规模化提升生成能力;
4.负责探索多模态对齐大模型,支持语音、文本、动作等多模态对齐,未来进一步支持多模态实时输出;
5.负责探索任意角色动画生成,可对任意角色与骨架均能生成自然的动画;
6.负责探索、研发动捕精修大模型,可对动捕过程各类噪声自动去除,达到精修品质;
7.负责探索环境感知的交互动画生成,支持角色与物体、场景、其他角色的交互,确保生成交互动作的合理性。
包括英文材料
学历+
深度学习+
相关职位

logo of mi
校招

1、围绕视觉-语言-动作 (VLA) 模型与具身世界模型方向,研发面向机器人感知、理解、预测、决策与动作生成的一体化算法,推动多模态端到端模型在复杂场景中的能力上限。 2、具身大模型全生命周期研发,包括模型架构设计、预训练、后训练、评测与部署,持续优化模型在真实任务中的成功率、鲁棒性与泛化能力。 3、主导或参与视觉/动作编码器、多模态表征学习、离散/连续tokenizer等核心模块研发,提升模型对视觉、动作、时空信息的压缩、建模与生成能力。 4、与数据、Infra等团队,推动数据-训练-测评的协同迭代。 5、跟踪具身智能、多模态大模型、生成式建模等前沿方向,复现并创新相关方法,推动高水平论文、开源项目及专利产出。

更新于 2026-04-03北京
logo of meituan
校招核心本地商业-基

研究方向一:图像生成大模型技术研究 1.负责下一代图像生成模型架构建设,包括但不限于AR-Diffusion、生成编辑统一架构构建; 2.负责生图专项能力升级,包括Reward model设计、多语言文字生成能力。 研究方向二:视频生成大模型技术研究 1.负责下一代视频生成模型架构建设,以及高效率、低精度损失、高压缩比的视频VAE和tokenizer建设; 2.负责视频生成下游功能拓展,包括多概念注入生成、交互式生成、长视频生成等。 研发方向三:视觉内容创作Agent 1.负责对话式创作助手核心能力攻坚,包括图像视频创作场景的CoT能力、交互式编辑能力提升。 2.负责图文海报、剧情化成片等典型应用场景的模型微调、Agent能力建设。 研究方向四:拟人化多模交互前沿路线研究 1.构建多模输入的人物视频生成模型,具备高度拟人化的面部驱动、人体动作生成。 2.构建基于多模态大模型的端到端交互模型,实现智能双工交互和人-物-场景的交互。

更新于 2025-05-23北京|上海|深圳
logo of tencent
社招Aivatar_

1.负责通用3D面部动画生成方向的技术方案设计与核心算法研发,构建可泛化的面部动画生成能力; 2.深入研究面部表演的建模与生成方法,探索统一的三维表征与驱动方式; 3.基于大模型与多模态技术,构建将语音、文本、表情、情绪标签等映射到3D面部动画空间的可控生成框架; 4.结合面部动作捕捉数据及数字人制作流程,提升面部动画质量、表现力与制作效率; 5.跟踪面部动画、数字人、多模态生成等领域前沿研究,形成高质量技术输出,并推动成果在游戏及数字人业务中的落地。

更新于 2026-03-25深圳
logo of sensetime
校招算法研究类

1. 负责下一代视觉感知AI生产力平台相关AI技术研发,推动其在城市服务和企业数字化等领域的落地; 2. 负责生产力平台中涉及的图片/视频生成、多模态大模型等技术和方案的研究和应用; 3. 承担部分业务场景中的长尾视觉感知任务,包括但不限于目标检测、分类、动作识别等; 4. 跟进图片及视频生成,3D生成相关前沿技术,持续创新和改进优化;

更新于 2025-11-03上海|深圳