顺丰VLA算法工程师
任职要求
1、人工智能、模式识别或计算机专业的硕士或者博士; 2、数学基础扎实,熟悉概率统计和机器学习相关的理论体系; 3、熟悉主流3D视觉相关算法及算法库; 4、具备VLA/VLM/LLM等大模型网络设计、调参和优化经验…
工作职责
1、负责机器人大模型和室内语义导航技术方案设计与实现; 2、负责任务规划与控制策略,提升系统的泛化性与灵活性,以及物理执行模块高效性; 3、构建面向物流作业场景的VLA数据集与仿真环境;
1、负责机器人大模型和室内语义导航技术方案设计与实现; 2、负责任务规划与控制策略,提升系统的泛化性与灵活性,以及物理执行模块高效性; 3、构建面向物流作业场景的VLA数据集与仿真环境;
通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备多模态、多语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从亿级到万亿级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder、Qwen-Image等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 在此基础上,我们致力于研究Qwen面向具身智能领域的下一代基础模型,将Qwen强大的认知与推理能力赋予物理世界的机器人智能体,打破数字世界与物理世界的壁垒。团队的目标是研发能够理解人类意图、感知物理环境、并自主规划执行复杂任务的通用具身基础模型。我们相信,通过融合前沿的多模态大模型与机器人技术,我们将开创通用人工智能的下一个篇章,让AI真正走进并服务于现实生活。 工作职责: 1. 具身基础模型研究:构建面向机器人的多模态基础模型,将视觉语言模型与机器人中心的物理世界理解与决策深度融合,构建具身领域的高质量的大规模真实与仿真数据集,设计并训练支持感知、动作、记忆、规划与语言理解统一的具身基础模型。 2. 测评基准建立:构建面向机器人多模态基础模型的能力基准,设计有效的测试基准,持续构建能反映基础模型在物理世界真实能力的高效测评系统。 3. 软硬件系统整合部署:构建机器人软硬件一体化系统,将算法部署在真实机器人平台(如机械臂、人形机器人)上,进行端到端的验证与迭代,推动研究成果的实际落地。
围绕智能辅助驾驶技术,探索以量产为目标的前沿方向,工作职责包括但不限于: 探索 LLM、VLM、VLA 等技术在智能辅助驾驶领域的应用范式,推进高阶辅助驾驶能力的迭代升级。 负责核心模型与算法的研发与优化,包括数据处理、模型设计、训练与部署,提升模型在多种驾驶场景下的性能与稳定性。