安克创新多模态世界模型算法工程师-具身智能方向(北京)
任职要求
1. 硕士及以上学历,计算机、电子、数学等相关专业; 2. 在计算机视觉、多模态大模型等一个或多个领域有较深入的研究者; 3. 具有出色的分析、解决问题的能力,能深入解决大模型训练、应用存在的问题,有自主探索解决方案的能力者; 4. 具有良好的沟通协作能力,工作积极主动,能够与团队融洽合作,一起探索新技术,推进技术进步。 加分项 1. 具有优秀的基础算法、扎实的机器学习基础,熟悉CV、…
工作职责
1. 探索研究具身智能领域的多模态大模型、世界模型、生成式模型、AIGC等人工智能前沿技术; 2. 探索大规模多模态理解与生成交织的基础模型,并进行极致系统优化;数据建设、指令微调、偏好对齐、RLHF、模型优化;提升数据合成、模型推理、规划能力,构建全面客观准确的评测体系,探索提升大模型能力; 3. 探索突破包括而不限于多模态大模型、端到端VLA模型、视觉COT与Agent在内的多模态模型、世界模型; 4. 通过预训练或SFT,使用生成式模型技术能力对现实世界的各类环境进行建模,提供多模态交互探索的基本能力,推动应用落地,研发以人工智能技术为核心的新技术、新产品。
1. 探索研究具身智能领域的多模态大模型、世界模型、生成式模型、AIGC等人工智能前沿技术; 2. 探索大规模多模态理解与生成交织的基础模型,并进行极致系统优化;数据建设、指令微调、偏好对齐、RLHF、模型优化;提升数据合成、模型推理、规划能力,构建全面客观准确的评测体系,探索提升大模型能力; 3. 探索突破包括而不限于多模态大模型、端到端VLA模型、视觉COT与Agent在内的多模态模型、世界模型; 4. 通过预训练或SFT,使用生成式模型技术能力对现实世界的各类环境进行建模,提供多模态交互探索的基本能力,推动应用落地,研发以人工智能技术为核心的新技术、新产品。
1. 探索研究具身智能领域的多模态大模型、世界模型、生成式模型、AIGC等人工智能前沿技术; 2.探索大规模多模态理解与生成交织的基础模型,并进行极致系统优化;数据建设、指令微调、偏好对齐、RLHF、模型优化;提升数据合成、模型推理、规划能力,构建全面客观准确的评测体系,探索提升大模型能力; 3. 探索突破包括而不限于多模态大模型、端到端VLA模型、视觉COT与Agent在内的多模态模型、世界模型; 4. 通过预训练或SFT,使用生成式模型技术能力对现实世界的各类环境进行建模,提供多模态交互探索的基本能力,推动应用落地,研发以人工智能技术为核心的新技术、新产品。
1. 具身智能大模型研究与优化 (1) 研究和构建具身智能大模型(Embodied Foundation Models)与机器人大脑。 (2) 探索语言、视觉、动作等多模态融合机制(VLM / VLA / VLA-Agent)。 (3) 优化模型的长时记忆、推理能力与可泛化性。 2. 机器人智能算法研发 (1) 设计和实现机器人多模态感知、导航、操作、交互等核心算法模块。 (2) 推进大模型驱动的机器人任务规划与决策。 (3) 基于模拟器与真实世界数据,进行大规模对齐与强化学习(Sim2Real, RLHF, Imitation Learning)。 3. 系统落地与协同研发 (1) 与硬件与系统团队协作,推动模型算法在真实机器人平台上的部署与性能调优。 (2) 支撑具身智能大模型的云端训练体系、数据闭环与MLOps工程。 (3) 发表高水平论文或申请相关专利,推动业界与学界前沿研究。
通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 团队致力于实现理解生成一体化的世界模型,达成“交互”和“创造”两大目标。本方向专注于研发视觉生成技术的突破,其中研究内容包括但不限于:理解生成一体化、视觉生成等,充分探索相关数据及训练方法研究,以期解决计算机视觉基本问题的同时,为 AI 赋予创造力,理解世界及预测未来世界。 工作描述: 1. 下一代理解生成一体化的模型结构设计与研发,探索 Autoregressive LLM 、Diffusion、及两者结合的多种技术路线。 2. 研究及探索世界模型的多模态训练数据及对应训练策略。 3. 设计及研发自动化评估方法设计与实现,为模型研发提供科学指导。