蚂蚁金服蚂蚁集团-AI 系统优化工程师-具身智能方向
任职要求
教育背景: 计算机科学、软件工程、电子信息工程或相关专业本科及以上学历。 技术技能: - 深入掌握深度学习的核心原理(如反向传播、梯度下降、优化器机制等)。 - 熟悉分布式训练技术(如数据并行、ZeRO、混合精度训练、梯度累积等)。 - 熟悉至少一个主流深度学习框架(如 PyTorch、TensorFlow 等),并有解决训练性…
工作职责
1. 性能优化: - 诊断大规模训练任务中的系统瓶颈(GPU 利用率、显存开销、通信延迟、I/O 等)。 - 使用分布式优化技术(如数据并行、模型并行或混合并行),提升资源利用效率。 - 研究并实现显存优化技术(如梯度检查点、ZeRO 优化器、多精度训练等)。 - 构建高效的数据加载/预处理流水线(支持多线程与分布式 I/O)。 2. 系统监控与诊断: - 开发或集成性能分析工具(如 NVIDIA Nsight、PyTorch Profiler),监测 GPU/CPU 使用情况和通信开销。 - 提供性能分析报告,评估系统各模块的优化效果。 - 优化大规模模型的训练效率与显存利用,权衡资源成本与性能。
1. 遥操作系统开发: ‒ 设计并实现机器人遥操作系统的核心功能,包括实时控制、低延迟通信和人机交互模块; ‒ 开发和优化远程控制算法,确保系统的响应速度和精确性。 2. 通讯与数据传输: ‒ 实现高效的远程通信协议(如TCP/IP、UDP、WebRTC),优化数据传输的低延迟和高可靠性; ‒ 处理远程视频流传输、传感器数据融合以及控制信号反馈。 3. 系统集成: ‒ 集成机器人硬件(如机械臂、移动平台、无人机)与遥操作软件模块; ‒ 实现机器人与远程操作终端之间的无缝交互。 4. 人机交互开发: ‒ 开发直观的遥操作界面(GUI)或VR/AR交互系统,提升用户的操作体验; ‒ 设计力反馈、触觉反馈等增强操控感知的功能。 5. 仿真与测试: ‒ 基于仿真工具(如Gazebo、V-REP、Unity)设计并测试遥操作系统; ‒ 在实际场景中测试系统性能,确保其稳定性和可靠性。 6. 系统优化与迭代: ‒ 分析遥操作过程中出现的问题,优化系统性能; ‒ 实现智能化辅助功能(如路径规划、碰撞检测、自动校准等)。 7. 技术文档撰写: ‒ 编写清晰的技术文档,包括设计方案、开发流程和操作手册; ‒ 为团队成员提供技术支持与培训。
1. 基于 NVIDIA Isaac 的仿真平台开发 ‒ 搭建和维护基于 NVIDIA Isaac Sim 的机器人仿真系统,支持多种机器人类型(例如移动机器人、机械臂、无人车等)。 ‒ 利用 NVIDIA Omniverse 技术,构建高保真的虚拟环境,模拟物理特性(如动力学、传感器特性、碰撞检测等)。 ‒ 开发和优化 Isaac Sim 中的自定义扩展模块,满足项目需求。 2. 环境建模与场景构建 ‒ 使用 NVIDIA Omniverse 和其他建模工具(如 Blender、Maya)创建逼真的仿真环境和场景。 ‒ 配置和调试虚拟传感器(如激光雷达、摄像头、IMU)以模拟真实硬件行为。 ‒ 构建动态交互场景,用于测试机器人在复杂环境中的性能。 3. 机器人控制与算法验证 ‒ 在仿真环境中集成和测试机器人算法(如SLAM、路径规划、运动控制)。 ‒ 验证和优化机器人感知算法(如视觉检测、环境感知)在高保真模拟环境中的效果。 ‒ 通过仿真结果分析算法性能,为实际机器人实施提供支持。 4. 系统集成与工具链开发 ‒ 与机器人硬件和软件团队合作,将仿真结果与实际机器人验证无缝对接。 ‒ 开发自动化测试工具和数据可视化分析工具,提高开发效率和数据洞察能力。 ‒ 集成 Isaac 与其他机器人框架(如 ROS/ROS 2)以支持全栈开发。 5. 研究与创新 ‒ 研究 NVIDIA Isaac 平台的最新功能和应用场景,将新技术引入仿真系统开发。 ‒ 跟踪机器人仿真领域的前沿技术(如物理引擎优化、AI 模型仿真、数字孪生技术),并应用于项目中。
作为具身智能开放平台团队的核心成员,参与具身智能的核心组件、服务框架和生态平台的研发工作,帮助开发者高效地利用具身大模型能力,实现机器人应用的快速落地,您将参与如下工作: 1.平台核心架构研发: 参与具身智能开放平台 后端服务 的设计、开发和维护,包括高并发、低延迟的 API 网关、任务调度系统和云边协同架构。 2.AI与具身集成: 设计和实现 大模型(LLM/VLM)与机器人控制系统 之间的通信接口和数据转换服务,确保高级语义指令(如自然语言)能稳定、高效地转化为机器人可执行的动作序列。 3.开发者生态工具: 负责开发和优化平台 SDK、API 接口和后台管理系统,为全球机器人开发者提供友好、强大的工具和服务。 4.数据与存储服务: 构建和维护机器人感知数据、行为数据和模型训练数据的存储、索引及检索服务,确保数据的高可靠性和高吞吐量。 5.性能优化与稳定性: 负责解决系统瓶颈,进行代码重构和性能调优,确保平台在数千台甚至数万台机器人并发连接下的高可用性和稳定性。
1. 具身智能大模型研究与优化 (1) 研究和构建具身智能大模型(Embodied Foundation Models)与机器人大脑。 (2) 探索语言、视觉、动作等多模态融合机制(VLM / VLA / VLA-Agent)。 (3) 优化模型的长时记忆、推理能力与可泛化性。 2. 机器人智能算法研发 (1) 设计和实现机器人多模态感知、导航、操作、交互等核心算法模块。 (2) 推进大模型驱动的机器人任务规划与决策。 (3) 基于模拟器与真实世界数据,进行大规模对齐与强化学习(Sim2Real, RLHF, Imitation Learning)。 3. 系统落地与协同研发 (1) 与硬件与系统团队协作,推动模型算法在真实机器人平台上的部署与性能调优。 (2) 支撑具身智能大模型的云端训练体系、数据闭环与MLOps工程。 (3) 发表高水平论文或申请相关专利,推动业界与学界前沿研究。