TCLVLM视觉大模型算法工程师
任职要求
1. 学历背景:计算机科学、人工智能、电子工程、自动化等相关专业的硕士或博士学历。 2. 编程能力:精通Python编程,具备扎实的数据结构和算法基础;熟练掌握PyTorch,Transformers,VLLM等常见深度学习库。 3. 熟悉多模态领域的核心算法,对VLM的主流模型架构(如CLIP, BLIP, LLaVA等)有深入理解和实践经验。 4. 具备扎实的CV(计算机视觉)领域知识,熟悉ViT, SAM, Diffusion等模型。 5. 具备扎实的NLP(自然语言处理)领域知识,熟悉Transformer, GPT, Llama等模型。 6. 项目经验:有实际的大模型…
工作职责
1. 前沿算法研发:负责探索和研发最前沿的视觉语言大模型(VLM)算法,跟进并掌握领域内的最新技术动态(如InternVL Qwen-VL等)。 2. 模型训练与优化:参与或主导公司VLM模型的训练,包括但不限于数据处理、CPT、指令微调(SFT)、以及基于人类反馈的强化学习(RLHF)等全流程算法的研发与优化。 3. 多模态能力融合:致力于提升模型在图像、视频等多种视觉模态上的理解、推理和生成能力,实现视觉信息与语言能力的深度融合。 4. 应用场景落地:推动VLM技术在公司具体业务场的应用落地,解决实际业务中的挑战。 性能优化与部署:负责模型的性能优化,包括模型剪枝、量化、蒸馏等,并配合工程团队将模型高效部署到云端或嵌入式设备,实现低延迟、高吞吐的推理服务。
【关于机器人中心】小鹏机器人中心专注于构建面向未来的人形机器人系统,融合先进的人工智能(AI)、控制、机械与系统工程,打造能感知、理解、操作并能和现实世界进行交互的下一代机器人。 【关于团队】该部门承担前沿智能方法的预研工作,专注于实现机器人三大核心智能能力:自主移动(导航)、灵巧操作和人机交互。我们深入布局大语言模型(LLM)、多模态视觉语言模型(VLM)和视觉语言行动模型(VLA),实现全流程自研,推动机器人从感知到决策的全面智能化落地。团队成员遍布深圳、上海和美国硅谷,聚集了世界一流的科研与工程人才,致力于将大模型技术真正落地到复杂、动态的物理环境中。在这里,你将:与来自 AI、机器人硬件、控制等领域的优秀工程师合作;参与推动 LLM/VLM/VLA 与机器人智能体的融合;构建能够自主学习与进化的“具身智能体”。 - 负责多模态大模型(VLM: Vision-Language Model / VLA: Vision-Language-Action Model)在人形机器人中的算法设计与开发,将VLM/VLA 应用于人形机器人的智能操作与人机交互任务; - 参与大模型的预训练、后训练(SFT + RL)及部署工作,支持机器人在复杂环境下的感知与行为能力; - 与机器人平台团队、硬件团队紧密协作,实现模型在实际机器人系统中的高效运行; - 跟踪前沿研究,推动新技术在产品中的落地应用。
参与视觉语言大模型的研发工作,主要负责: 1、VIT Pretrain:提升模型感知能力,包括但不限于 Vision Encoder Pretrain 算法架构 / 多种感知能力数据构建; 2、VLM Pretrain:提升 vlm pretrain 的通用能力,探索各种不同训练阶段设计 / 不同通用数据的组织形式; 3、VLM Post train:提升 vlm 通用能力,包括但不限于合成数据 / RL 等方法; 4、生成理解统一:探索生成理解统一架构,同时提升理解和生成能力。
团队介绍: 作为中国领先的数字地图内容及导航服务提供商,高德地图日均服务数亿用户出行决策,每日处理超百亿级位置数据。视觉技术中心是驱动高德实现高精度地图、三维重建、LLM/VLM,AI Agent等核心技术,持续突破自动驾驶、AR导航、具身智能、推广搜和生活服务等领域的技术边界。团队不仅在计算机视觉领域持续深耕,更将计算机视觉及AI技术在自主导航、高德打车、生活服务等多元化应用场景。 作为高德地图的核心技术驱动部门,我们以下一代三维地图引擎、多模态理解与生成、空间智能、世界模型等方向为核心,推动智能出行与真实世界连接的深度融合。 团队gihub主页: https://github.com/amap-cvlab 为何加入我们? 1. 挑战业界顶尖难题: 处理百亿级位置数据,攻克动态世界中海量POI的实时、精准感知与理解,定义未来地图的“AI之眼”。 2. 驱动国民级应用创新: 你的技术将直接应用于高德地图数亿用户依赖的扫街榜等核心功能,实现从技术突破到产品颠覆的全流程落地。 3. 置身前沿技术浪潮: 在三维地图、世界模型、具身智能等前沿领域进行深度探索与研发。 4. 预研与业务深度结合:在这里,你将同时接触到面向未来的技术预研和支撑亿级用户的业务算法。我们提供从0到1的创新探索环境,也看重从1到N的规模化落地能力。 职位描述: 我们正在寻找一位专注多模态视觉理解的算法工程师。您将主要负责利用多模态大模型技术,从海量街景图片与视频中自动发现、识别与更新地图POI信息,提升地图数据的鲜度、广度与精度,为用户提供更智能、更沉浸的出行与生活服务。本岗位兼具前瞻性技术探索与规模化业务落地的双重属性,你将有机会完整参与从创新模型研究到核心业务系统迭代的全过程。 主要职责: 1. 前瞻性模型预研与业务驱动研发:探索并研发适用于大规模街景图像/视频理解的下一代视觉-语言大模型(VLM),重点攻克POI变化发现、细粒度属性理解等关键课题,并将创新技术转化为实际业务解决方案。 2. 端到端业务落地与闭环优化: 主导多模态POI发现技术在“高德扫街榜”等核心业务中的集成、优化与全流程落地。 3. 前沿技术跟踪与创新: 持续跟踪多模态理解、视频表征学习、地理空间智能等领域的最新进展,探索技术边界发表高质量论文,实现空间感知理解的学术突破,持续迭代核心算法,达到业界sota。