顺丰VLA算法工程师
任职要求
1、人工智能、模式识别或计算机专业的硕士或者博士; 2、数学基础扎实,熟悉概率统计和机器学习相关的理论体系; 3、熟悉主流3D视觉相关算法及算法库; 4、具备VLA/VLM/LLM等大模型网络设计、调参和优化经验…
工作职责
1、负责机器人大模型和室内语义导航技术方案设计与实现; 2、负责任务规划与控制策略,提升系统的泛化性与灵活性,以及物理执行模块高效性; 3、构建面向物流作业场景的VLA数据集与仿真环境;
1、负责机器人大模型和室内语义导航技术方案设计与实现; 2、负责任务规划与控制策略,提升系统的泛化性与灵活性,以及物理执行模块高效性; 3、构建面向物流作业场景的VLA数据集与仿真环境;
通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备多模态、多语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从亿级到万亿级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 在此基础上,我们致力于研究Qwen面向具身智能领域的下一代基础模型,将Qwen强大的认知与推理能力赋予物理世界的机器人智能体,打破数字世界与物理世界的壁垒。团队的目标是研发能够理解人类意图、感知物理环境、并自主规划执行复杂任务的通用具身基础模型。我们相信,通过融合前沿的多模态大模型与机器人技术,我们将开创通用人工智能的下一个篇章,让AI真正走进并服务于现实生活。 工作职责: 1. 具身基础模型研究:构建面向机器人的多模态基础模型,将视觉语言模型与机器人中心的物理世界理解与决策深度融合,构建具身领域的高质量的大规模真实与仿真数据集,设计并训练支持感知、动作、记忆、规划与语言理解统一的具身基础模型。 2. 测评基准建立:构建面向机器人多模态基础模型的能力基准,设计有效的测试基准,持续构建能反映基础模型在物理世界真实能力的高效测评系统。 3. 软硬件系统整合部署:构建机器人软硬件一体化系统,将算法部署在真实机器人平台(如机械臂、人形机器人)上,进行端到端的验证与迭代,推动研究成果的实际落地。
1. 推进机器人多模态大模型(VLM/VLA)的工程化落地:涵盖预训练、微调、训练加速和效果调优; 2. 基于issac sim搭建仿真环境验证操作模型,设计real2sim2real迁移框架,加速算法验证与落地; 3. 具身智能算法研发,包括不同数据配比/网络结构/本体构型,在toC场景完成长序列任务和技能泛化; 4. 研发自动化标注算法(2D/3D/VLA等),降低标注成本和提升标注质量; 5. 设计多模态数据(图像、视频和点云等)生成算法,增强数据多样性。