logo of tencent

腾讯腾讯游戏-多模态世界模型算法研究员-视频生成方向

社招全职3年以上公共技术地点:深圳状态:招聘

任职要求


1.教育背景:人工智能、计算机科学、数学或相关专业,硕士及以上学历,博士优先;
2.编程能力:熟练掌握 PyTorch 等主流深度学习框架,具备扎实的编程能力与工程实现能力;能够高质量复现前沿论文,并推动算法从研究原型到工程实现;
3.满足以下任意一种技术栈要求:(1)生成模型:深入理解Diffusion Models, GANs, VAEs, …
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.负责世界模型(World Model)相关核心算法的研发与落地,包括但不限于视频生成、视频预测、视频编辑等方向;
2.探索面向游戏世界场景的新一代视频生成技术,构建具备可交互性、可编辑性、物理一致性和时空一致性的世界模型。
包括英文材料
学历+
PyTorch+
深度学习+
算法+
还有更多 •••
相关职位

logo of tencent
社招3年以上公共技术

1.负责世界模型(World Model)相关核心算法的研发与落地,包括但不限于视频生成、视频预测、视频编辑等方向; 2.探索面向游戏世界场景的新一代视频生成技术,构建具备可交互性、可编辑性、物理一致性和时空一致性的世界模型。

更新于 2026-01-08上海
logo of tencent
社招2年以上微信读书技术

1.负责多模态内容理解、多模态生成等算法技术在视频剪辑、多模态理解和生成业务上的落地工作:; 2.图像、视频、语音等多模态内容理解和生成算法的模型设计、训练、优化; 3.文生图、文生视频、图生视频等算法的探索和落地; 4.实现模型轻量化(知识蒸馏、量化剪枝)及推理加速,满足低延迟需求; 5.跟踪多模态大模型、世界模型等前沿方向,探索业务结合点。

更新于 2025-07-30北京|广州
logo of tencent
社招3年以上ARC预研技术

1.负责多模态理解和统一大模型方向的研究与开发; 2.探索基于文本的高保真长视频生成方法,解决现有技术的局限性; 3.深入研究三维物理世界的建模与对应的物理规律,提升视频生成质量; 4.优化视频生成模型的控制与编辑流程,提高生产效率。

更新于 2025-10-22深圳
logo of meituan
校招核心本地商业-基

视觉方向 1.探索大规模/超大规模多模态视觉大模型,并进行极致系统优化,数据建设、指令微调、偏好对齐、模型优化。 2.探索统一的多模态大模型架构,打通理解与生成之间的壁垒,研究如何在单一模型框架下实现对多模态信息的深度理解与高质量生成。 3.探索多模态推理模型(Reasoning)架构、提升多模态在学科、通用视觉任务上的思考和推理能力。 4.探索视觉GUI Agent模型构建,提升GUI场景下的理解、规划和决策能力,进而提升人机交互的性能。 5.探索具身智能大模型的构建,提升机器人在物理场景中的模仿学习和强化学习算法,提升具身智能的多模态处理能力以及与开放世界的物理交互能力。 6.探索多模态视觉大模型后训练方法,探索指令微调、强化学习等后训练策略,提升模型的性能。 语音方向 1.语音表征学习:探索同时适用于理解和生成任务、兼顾学习效率和效果的语音表征。 2.模型结构与预训练方法:研究可大规模扩展的模型结构,高效学习语音和文本知识,提升模型的理解和生成能力。 3.音频理解:在语音(Speech)之外,探索更广泛的音频(Audio,如音乐、环境声)理解能力。 4.音频生成:探索高质量音频生成能力,具备强表现力、多风格、多语种、多音色等。 5.后训练方法:探索基于 SFT 和 RL 的后训练策略,进一步提升模型能力上限,。 6.智能交互技术研究,探索高效的智能交互技术,增强系统交互过程中的智能能力、拟人度、自然度和主动性。 全模态融合 大语言模型最近取得的突破,加速了多模态大模型的发展。全模态大模型(Omni-MLLM)通过融入如视觉、语音等模态,拓展了多模态大语言模型的能力,有助于更全面、多维度地理解与生成各种模态,提供更强的智能以及更智能的交互模式。 1.多模态表征对齐:研究在统一模型架构下提取并共享视觉、语音、语言等模态的特征;基于对比学习、自监督学习,优化多模态对齐过程;针对视频、音频等数据,研究时间序列信息的对齐技巧。 2.多模态统一模型架构:探索统一全模态大模型架构,研究高效全模态预训练技术,使之能够高效处理文本、图像、视频和语音数据,并生成涵盖文本、音频和图像等多种模态的输出 3.多模态知识迁移与能力增强:研究在不同模态间的能力迁移,激发模型在跨模态任务中的涌现能力。

更新于 2025-05-23北京|上海|深圳