通义Token Foundry-算法专家-多模态智能体
任职要求
1. 计算机科学、人工智能、机器学习或相关领域的硕士或博士学位。 2. 在多模态、大语言模型、Agent、强化学习、机器学习等一个或多个领域有较深入的研究。 3. 具有出色的分析与解决问题能力,能深入解决大模型训练与 agent 系统落地中存在的问题,具备自主探索解决方案的能力。 4. 能够积极创新,乐于面对挑战,负责敬业,具备优秀的团队合作精神,一起探索新技术、推进技术进步。 加分项 1. 具有扎实的机器学习基础与优秀的基础算法能力,在 Neu…
工作职责
1. 探索研究多模态大模型、GUI agent、agentic RL、long-horizon agent、self-improving agent等前沿技术。 2. 参与研发多模态、全模态大模型等下一代人工智能核心技术,重点探索面向真机环境的多模态智能体大规模强化学习与自我演进。 3. 参与 GUI 垂类基座模型与真机 agent 系统的迭代,推动核心能力达到业界第一梯队。 4. 跟踪研究多模态大模型前沿进展,参与 AIOS 等 to C / to B 重点业务场景的端到端落地。
【部门介绍】 随着大模型技术的飞速发展,理解和生成多模态数据(图像、视频、音频、3D素材等)的能力日益增强。目前,构建能够同时进行输入和输出的多模态世界模型已成为业界的研究热点,也是实现通用人工智能(AGI)的重要技术路径之一。 万相Wan将持续在世界模型、原生多模态预训练、理解-生成融合范式、统一Tokenizer研究、人类反馈与强化学习等前沿技术方向上进行探索,始终追求在多模态世界模型领域的领先研究地位,致力于建立世界级的技术影响力。 【工作内容】 1、负责原生多模态模型研究和开发,结合多模态能力(支持文本、图像、语音输入)实现复杂指令生成,包括但不限于文生图、图生图、文档生成、可控编辑等核心方向。 2、负责图像生成模型效果优化,探索扩散模型、自回归模型结构和策略优化等核心技术课题。 3、负责人类反馈与强化学习,聚焦于更加精细的RL算法设计,并基于万相用户反馈的RLHF图像生成质量提升。
1. 探索研究多模态生成大模型的设计与开发,探究高效生成、生成理解统一、多模态理解、强化学习/RLHF后训练和高效数据管线设计等方向。 2. 参与研发多模态生成大模型开发等下一代人工智能核心技术,参与大规模生成基础模型预训练与后训练开发。 3. 负责跟踪和研究多模态生成大模型前沿技术调研、落地、对业务进行优化。
1. 具身智能大模型研究与优化 (1) 研究和构建具身智能大模型(Embodied Foundation Models)与机器人大脑。 (2) 探索语言、视觉、动作等多模态融合机制(VLM / VLA / VLA-Agent)。 (3) 优化模型的长时记忆、推理能力与可泛化性。 2. 机器人智能算法研发 (1) 设计和实现机器人多模态感知、导航、操作、交互等核心算法模块。 (2) 推进大模型驱动的机器人任务规划与决策。 (3) 基于模拟器与真实世界数据,进行大规模对齐与强化学习(Sim2Real, RLHF, Imitation Learning)。 3. 系统落地与协同研发 (1) 与硬件与系统团队协作,推动模型算法在真实机器人平台上的部署与性能调优。 (2) 支撑具身智能大模型的云端训练体系、数据闭环与MLOps工程。 (3) 发表高水平论文或申请相关专利,推动业界与学界前沿研究。
【部门介绍】 随着大模型技术的飞速发展,理解和生成多模态数据(图像、视频、音频、3D素材等)的能力日益增强。目前,构建能够同时进行输入和输出的多模态世界模型已成为业界的研究热点,也是实现通用人工智能(AGI)的重要技术路径之一。 万相Wan将持续在世界模型、原生多模态预训练、理解-生成融合范式、统一Tokenizer研究、人类反馈与强化学习等前沿技术方向上进行探索,始终追求在多模态世界模型领域的领先研究地位,致力于建立世界级的技术影响力。 【职位描述】 1. 负责万相Wan多模态生成大模型研发,重点解决生成大模型的训练和推理效率问题。 2. 负责研发各种蒸馏加速算法,包括CFG蒸馏,推理步数蒸馏等。 3. 负责研发各种Training-free推理加速算法,不限于cache、量化、采样优化等策略。 4. 负责研发生成模型的高效训练架构,包括但不限于sparse/linear attention、时空独立建模、超分模块等策略。