蚂蚁金服蚂蚁集团-AI工程训练优化工程师-具身智能方向
任职要求
1. 计算机、通信、人工智能等相关专业本科以上学历,5年以上工作经验;
2. 熟悉大规模分布式训练框架,了解类似lerob…工作职责
优化具身AI模型大规模分布式训练任务下训练效率(包含不限于计算优化、通信优化等),熟悉各类分布式训练后端(FSDP、deepspeed、megatron),并有相关调优经验
1. 性能优化: - 诊断大规模训练任务中的系统瓶颈(GPU 利用率、显存开销、通信延迟、I/O 等)。 - 使用分布式优化技术(如数据并行、模型并行或混合并行),提升资源利用效率。 - 研究并实现显存优化技术(如梯度检查点、ZeRO 优化器、多精度训练等)。 - 构建高效的数据加载/预处理流水线(支持多线程与分布式 I/O)。 2. 系统监控与诊断: - 开发或集成性能分析工具(如 NVIDIA Nsight、PyTorch Profiler),监测 GPU/CPU 使用情况和通信开销。 - 提供性能分析报告,评估系统各模块的优化效果。 - 优化大规模模型的训练效率与显存利用,权衡资源成本与性能。
作为具身智能开放平台团队的核心成员,参与具身智能的核心组件、服务框架和生态平台的研发工作,帮助开发者高效地利用具身大模型能力,实现机器人应用的快速落地,您将参与如下工作: 1.平台核心架构研发: 参与具身智能开放平台 后端服务 的设计、开发和维护,包括高并发、低延迟的 API 网关、任务调度系统和云边协同架构。 2.AI与具身集成: 设计和实现 大模型(LLM/VLM)与机器人控制系统 之间的通信接口和数据转换服务,确保高级语义指令(如自然语言)能稳定、高效地转化为机器人可执行的动作序列。 3.开发者生态工具: 负责开发和优化平台 SDK、API 接口和后台管理系统,为全球机器人开发者提供友好、强大的工具和服务。 4.数据与存储服务: 构建和维护机器人感知数据、行为数据和模型训练数据的存储、索引及检索服务,确保数据的高可靠性和高吞吐量。 5.性能优化与稳定性: 负责解决系统瓶颈,进行代码重构和性能调优,确保平台在数千台甚至数万台机器人并发连接下的高可用性和稳定性。
1. 具身智能大模型研究与优化 (1) 研究和构建具身智能大模型(Embodied Foundation Models)与机器人大脑。 (2) 探索语言、视觉、动作等多模态融合机制(VLM / VLA / VLA-Agent)。 (3) 优化模型的长时记忆、推理能力与可泛化性。 2. 机器人智能算法研发 (1) 设计和实现机器人多模态感知、导航、操作、交互等核心算法模块。 (2) 推进大模型驱动的机器人任务规划与决策。 (3) 基于模拟器与真实世界数据,进行大规模对齐与强化学习(Sim2Real, RLHF, Imitation Learning)。 3. 系统落地与协同研发 (1) 与硬件与系统团队协作,推动模型算法在真实机器人平台上的部署与性能调优。 (2) 支撑具身智能大模型的云端训练体系、数据闭环与MLOps工程。 (3) 发表高水平论文或申请相关专利,推动业界与学界前沿研究。
团队介绍: 作为中国领先的数字地图内容及导航服务提供商,高德地图日均服务数亿用户出行决策,每日处理超百亿级位置数据。视觉技术中心是驱动高德实现高精度地图、三维重建、LLM/VLM,AI Agent等核心技术,持续突破自动驾驶、AR导航、具身智能、推广搜和生活服务等领域的技术边界。团队不仅在计算机视觉领域持续深耕,更将计算机视觉及AI技术在自主导航、高德打车、生活服务等多元化应用场景。 作为高德地图的核心技术驱动部门,我们以下一代三维地图引擎、多模态理解与生成、空间智能、世界模型等方向为核心,推动智能出行与真实世界连接的深度融合。 团队gihub主页: https://github.com/amap-cvlab 为何加入我们? 1. 挑战业界顶尖难题: 处理百亿级位置数据,攻克动态世界中海量POI的实时、精准感知与理解,定义未来地图的“AI之眼”。 2. 驱动国民级应用创新: 你的技术将直接应用于高德地图数亿用户依赖的扫街榜等核心功能,实现从技术突破到产品颠覆的全流程落地。 3. 置身前沿技术浪潮: 在三维地图、世界模型、具身智能等前沿领域进行深度探索与研发。 4. 预研与业务深度结合:在这里,你将同时接触到面向未来的技术预研和支撑亿级用户的业务算法。我们提供从0到1的创新探索环境,也看重从1到N的规模化落地能力。 职位描述: 我们正在寻找一位专注多模态视觉理解的算法工程师。您将主要负责利用多模态大模型技术,从海量街景图片与视频中自动发现、识别与更新地图POI信息,提升地图数据的鲜度、广度与精度,为用户提供更智能、更沉浸的出行与生活服务。本岗位兼具前瞻性技术探索与规模化业务落地的双重属性,你将有机会完整参与从创新模型研究到核心业务系统迭代的全过程。 主要职责: 1. 前瞻性模型预研与业务驱动研发:探索并研发适用于大规模街景图像/视频理解的下一代视觉-语言大模型(VLM),重点攻克POI变化发现、细粒度属性理解等关键课题,并将创新技术转化为实际业务解决方案。 2. 端到端业务落地与闭环优化: 主导多模态POI发现技术在“高德扫街榜”等核心业务中的集成、优化与全流程落地。 3. 前沿技术跟踪与创新: 持续跟踪多模态理解、视频表征学习、地理空间智能等领域的最新进展,探索技术边界发表高质量论文,实现空间感知理解的学术突破,持续迭代核心算法,达到业界sota。