腾讯多模态大模型在游戏场景中的研究与应用

校招全职青云计划-实习生地点：深圳状态：招聘

扫码手机上打开

任职要求

加分项
此课题同时招聘应…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

相关职位

智能体研发工程师（智能体工程与多模态方向）

社招3-5年网易伏羲

参与构建游戏场景下的智能体（AI Agent）系统与多模态内容生成管线，推动交互体验和生产方式的变革。包括不限于：智能体与多模态算法创新与应用：研究并实践业界前沿算法，重点聚焦于智能体框架、多模态大模型、工作流构建。将这些技术应用于游戏场景，构建全新的研发体系和用户体验。高性能模型优化与部署：运用模型量化、剪枝等优化技术，显著降低模型推理延迟与成本，确保AI能力能在游戏环境中高效、稳定地运行。探索分布式计算与硬件特性（如GPU/CPU芯片）的工程结合，突破新技术在复杂游戏场景中的应用边界。智能体系统交付与整合：为游戏研发流程构建高效的智能体解决方案。完成基于多模态能力的完整技术链路构建及工程化封装，为游戏产品提供强大而可靠的技术支持。

更新于 2025-12-11杭州

资深多模态算法工程师

社招3-5年网易游戏（互娱）

1. 负责多模态大模型（涵盖图像、视频、音频、文本等模态）在内容安全、活体检测、人脸识别、内容理解等场景的算法研发与性能优化； 2. 探索和实现图像、视频、文本等多模态数据的统一建模与高效表征学习，提升模型在内容审核、短视频内容理解等任务中的泛化性和鲁棒性； 3. 紧密跟进与研究业界领先的大模型技术，如InternVL3、Qwen2.5-VL等，探索并落地其在图文审核、视频内容审核、身份核验等业务场景中的应用策略及精调方法； 4. 负责构建并持续优化模型训练及推理系统，显著提升多模态模型在安全审核领域的准确率、召回率与实时响应性能； 5. 探索并实现文本生成图像技术在内容生成与审核中的应用，提升系统的生成与理解能力； 6. 与产品、工程等相关团队密切合作，推动多模态审核、识别系统的业务落地，实现业务场景的闭环验证与持续迭代优化。

更新于 2025-07-25广州

通义实验室-视觉语言大模型算法工程师-通义千问

社招2年以上技术类-算法

通义千问（Qwen）是由通义实验室自主研发的超大规模语言模型，具备跨语言、跨任务的理解与生成能力。Qwen系列模型，涵盖参数量从几百 M 到 T 级的基座大语言模型，并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成，从逻辑推理到内容创作，从单一多模态到全模态统一理解生成，Qwen 正在打造全球领先的全模态模型技术体系，推动AI在企业服务、开发者生态、个人用户等领域的深度应用，引领下一代人工智能的发展。视觉语言理解能力是Qwen最重要的能力之一，围绕 LLM 建设出具有视觉深度理解与推理能力的基座模型是团队的必经之路。结合视觉理解和推理能力的基础模型，将拓展到视频理解，GUI Agent，以及VLA 和机器人等场景中。团队负责：1）多模态基础模型的研发，包括融合视觉语言的跨模态理解模型设计，提升视觉基础模型在图像/视频中的视觉知识、空间感知、Omni Parsing等核心能力，并优化多模态大模型AI infra；2）探索多模态Agent和推理能力，构建支持网络世界（PC/Mobile/Web/游戏）交互的通用智能体；3）研究生成与理解统一的模型架构，实现跨模态生成与推理的协同优化。工作职责 1. 多模态Pre-training：开展研究及进行实验。研究内容包括：数据清洗与筛选、数据配比优化、课程学习、视觉语言模型结构设计与优化、训练策略优化、预训练数据合成、scaling law预测、词表优化、模型蒸馏与压缩、长上下文能力优化等。 2. 多模态Post-training：迭代Post-training训练策略（SFT/RLHF），专项能力数据迭代，参与模型能力评测及评测数据和评估标准的迭代。 3. 多模态推理和通用Agent：通过强化学习（RL）持续提升多模态模型推理能力和执行任务能力，打造多模态的Test Scaling Laws，并推动模型对网络和虚拟世界的交互和任务完成能力。 4. 统一理解生成：构建视觉统一理解生成大模型，推进多模态统一生成与理解的推理和交互新范式。

更新于 2025-12-06北京|杭州|上海

3D/动作-多模态大模型算法工程师-抖音V-AI-筋斗云人才计划

社招A11449

团队介绍：V-AI团队当前支持抖音直播、开放平台、V项目（AI分身/小火人等）业务方向，涵盖了自然语言处理、计算机视觉、图形学等技术领域，通过大模型技术来创造新的互动玩法、制作美术资产、提升研发运营效率等，当前已上线和开展中的项目包括直播大模型（助播/伴播/独播）、角色多模态对话大模型、研发智能助手、3D模型生成大模型、动作生成大模型等。课题介绍：背景：随着虚拟现实、增强现实、数字孪生等技术的快速应用，3D数字资产已成为构建沉浸式数字空间的核心要素。在影视动画、游戏开发、直播、社交等领域，3D模型与3D动作的需求呈现爆发式增长。然而，传统3D内容生产高度依赖人工建模与动作捕捉技术，存在效率低、成本高、创作门槛高等瓶颈，难以满足直播等场景中大规模、高保真、多样化、高频迭代的3D内容需求。近年来，以生成式人工智能（AIGC）为代表的大模型技术在2D图像与视频生成领域取得突破性进展，但在3D内容生成领域仍面临表征复杂、多模态数据稀缺、物理规律约束严格等难题。如何将大模型技术与3D生成任务深度融合，实现“文本/图像到3D模型”、“文本/语音到动作”的高质量生成，形成建模+驱动的一站式美术资产生成管线以适配直播场景下资产迭代速度快，品质要求高的需求是当前的重要研究内容。课题挑战：传统方法依赖人工建模工具或程序化生成算法，存在生成效率与创作自由度之间的固有矛盾。AI技术虽然能很好地弥补人工生成效率不足的问题，但仍然存在如下挑战 1. 表征困难：与一维文本和二维图像可以自然地实现结构化表征不同，3D模型由于其多模态（如几何、纹理、材质等）、结构复杂和高维度等特性，使得其表征更为复杂。而3D动作又与物理世界紧密相关，且动态复杂度高。因此，如何高效地表征3D几何形状和3D动作，同时确保高品质的生成，仍然是亟需突破的课题。 2. 生成困难：模型生成需同时保障结构完整性、拓扑合理性和细节丰富性；动作生成需兼顾运动多样性、物理约束与时空连续性。现有方法易出现模型畸变、贴图瑕疵、动作力度不足和多样性差等问题。 3. 数据不足：3D数据标注成本高、多模态对齐难度大，且现有公开数据集规模有限，导致大模型训练面临数据不足的问题；如何把相关模态数据（图像、视频）利用起来，提升3D模型和3D动作的生成品质也是当前的重大挑战。 4. 评估体系不完善：缺乏统一的3D生成质量量化指标，现有评价多依赖人工主观判断，难以客观衡量生成的几何精度、动作自然度与多模态语义一致性，因此建立完善、客观、可量化的评价体系是保障技术迭代的关键基石。 1、负责抖音、抖音直播及相关产品的大语言模型/多模态大模型/AIGC算法研发，如数字人、3D生成、动作生成、智能对话等相关工作； 2、负责关键场景的算法优化，构建高质量的模型和Agent系统，提升业务效果； 3、跟踪AI前沿技术进展，推动前沿技术的产品化落地。

更新于 2025-05-27北京