
智能互联通义实验室-具身智能大模型与机器人工程专家-北京/杭州
任职要求
1. 计算机、自动化、机器人等相关专业本科及以上学历。 2. 熟悉机器人系统架构(感知一规划—控制)或具身大模型工程体系。 3. 熟练掌握C++/Python,具备扎实的工程实现能力。 4. 具备至少以下任意两类经验: (1)机器人系统工程或应用开发。 (2)多模态/具身数据采集与数据工程。 (3)大模型训练、推理优化、系统加速。 (4)端侧模型部署、量化、编…
工作职责
工程岗位的职责包括以下至少一个或多个方向: 1. 具身机器人应用解决方案研发 (1)参与多模态/具身智能机器人在真实场景中的应用方案设计、系统集成与验证。 (2)搭建端到端具身机器人任务pipeline,包括感知、理解、规划、控制、执行等模块的工程化实现。 (3)推动具身智能大模型能力在机器人实际任务中的落地优化(如操作、导航、交互等)。 2. 具身大模型数据采集与处理 (1)负责机器人数据采集系统搭建,包括传感器标定、采集流程、数据质量控制与自动化工具链。 (2)建设具身大模型训练数据pipeline:数据清洗、切分、标注、同步、增强、格式转换等工程化流程。 (3)参与构建多模态数据集(视频、RGB-D、触觉、关节状态、语言指令等)。 3. 具身大模型云端训练与推理优化 (1)基于GPU/加速器的训练平台优化具身大模型训练性能(并行策略、数据流优化、算子优化)。 (2)负责推理引擎优化,包括模型裁剪、编译器优化、图优化、缓存管理、多线程并发调度等。 (3) 参与构建具身智能模型的训练与推理服务基础设施(MLOps、分布式训练、数据版本管理等)。 4. 端侧模型量化部署与优化 (1)主导端侧模型的压缩、量化(INT8/FP8/混合精度等)、剪枝、蒸馏等部署优化工作。 (2)熟悉ONNXRuntime、TensorRT、TFLite、NPU/DSP编译工具链,进行端侧加加速与算子调优。 (3)推动具身大模型在机器人嵌入式/边缘计算平台上的高效部署。 5. 机器人操作系统与系统优化 (1)优化机器人操作系统(ROS2、RTOS、Linux)性能,包括实时性、通信延迟、资源调度、驱动层稳定性等。 (2)推动机器人软硬件协同优化,包括传感器驱动、控制链路优化、系统级profiling/debugging。 (3)支撑机器人任务的稳定运行与系统级可靠性优化。
通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 团队致力于实现理解生成一体化的世界模型,达成“交互”和“创造”两大目标。本方向专注于研发视觉生成技术的突破,其中研究内容包括但不限于:理解生成一体化、视觉生成等,充分探索相关数据及训练方法研究,以期解决计算机视觉基本问题的同时,为 AI 赋予创造力,理解世界及预测未来世界。 工作描述: 1. 下一代理解生成一体化的模型结构设计与研发,探索 Autoregressive LLM 、Diffusion、及两者结合的多种技术路线。 2. 研究及探索世界模型的多模态训练数据及对应训练策略。 3. 设计及研发自动化评估方法设计与实现,为模型研发提供科学指导。
通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 团队致力于实现理解生成一体化的世界模型,达成“交互”和“创造”两大目标。本方向专注于研发视觉生成技术的突破,其中研究内容包括但不限于:理解生成一体化、视觉生成等,充分探索相关数据及训练方法研究,以期解决计算机视觉基本问题的同时,为 AI 赋予创造力,理解世界及预测未来世界。 工作描述: 1. 下一代理解生成一体化的模型结构设计与研发,探索 Autoregressive LLM 、Diffusion、及两者结合的多种技术路线。 2. 研究及探索世界模型的多模态训练数据及对应训练策略。 3. 设计及研发自动化评估方法设计与实现,为模型研发提供科学指导。
通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 视觉语言理解能力是Qwen最重要的能力之一,围绕 LLM 建设出具有视觉深度理解与推理能力的基座模型是团队的必经之路。结合视觉理解和推理能力的基础模型,将拓展到视频理解,GUI Agent,以及VLA 和机器人等场景中。团队负责:1)多模态基础模型的研发,包括融合视觉语言的跨模态理解模型设计,提升视觉基础模型在图像/视频中的视觉知识、空间感知、Omni Parsing等核心能力,并优化多模态大模型AI infra;2)探索多模态Agent和推理能力,构建支持网络世界(PC/Mobile/Web/游戏)交互的通用智能体;3)研究生成与理解统一的模型架构,实现跨模态生成与推理的协同优化。 工作职责 1. 多模态Pre-training:开展研究及进行实验。研究内容包括:数据清洗与筛选、数据配比优化、课程学习、视觉语言模型结构设计与优化、训练策略优化、预训练数据合成、scaling law预测、词表优化、模型蒸馏与压缩、长上下文能力优化等。 2. 多模态Post-training:迭代Post-training训练策略(SFT/RLHF),专项能力数据迭代,参与模型能力评测及评测数据和评估标准的迭代。 3. 多模态推理和通用Agent:通过强化学习(RL)持续提升多模态模型推理能力和执行任务能力,打造多模态的Test Scaling Laws,并推动模型对网络和虚拟世界的交互和任务完成能力。 4. 统一理解生成:构建视觉统一理解生成大模型,推进多模态统一生成与理解的推理和交互新范式。
通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备多模态、多语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从亿级到万亿级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 若你对以下一个或者多个方向感兴趣均欢迎投递: 1)多模态基础模型的研发,包括融合视觉语言的跨模态理解模型设计,提升视觉基础模型在图像/视频中的视觉知识、空间感知、Omni Parsing 等核心能力,并同时优化多模态大模型的AI infra。 2)通过强化学习(RL)持续提升多模态模型推理能力和执行任务能力,构建支持网络世界(PC/Mobile/Web/游戏)交互的通用智能体,将相关能力拓展到GUI agent,VLA,以及具身智能场景中。 3)研究理解与生成统一的模型架构,实现跨模态生成与推理的协同优化。 工作职责: 1. 多模态 pre-training:开展研究及进行实验,研究内容包括:数据清洗筛选、数据配比优化、课程学习、视觉语言模型结构设计与优化、训练策略优化、预训练数据合成、scaling law 预测、词表优化、模型蒸馏与压缩、长上下文能力优化等。 2. 多模态 post-training:迭代 post-training 训练策略(SFT/RLHF),专项能力数据迭代,参与模型能力评测及评测数据和评估标准的迭代。 3. 多模态推理和通用 agent:通过强化学习(RL)持续提升多模态模型推理能力和执行任务能力,打造多模态的 test scaling laws,并推动模型对网络和虚拟世界的交互和任务完成能力。 4. 统一理解生成:构建视觉统一理解生成大模型,推进多模态统一生成与理解的推理和交互新范式。