蚂蚁金服蚂蚁集团-数据运维工程师-具身智能方向
任职要求
1. 教育背景: 计算机科学、软件工程、信息技术或相关专业本科及以上学历。 2. 核心技能: - 精通 Python 编程;能编写健壮、可维护的自动化脚本。 - 熟练掌握 Linux 系统:能熟练在命令行下操作,熟悉 USB/SSD/HDD/NAS 等存储设备在 Linux 下的挂载、识别(如 lsblk, fdisk, mount)、权限管理及基础排错。 - 物理介质处理经验:…
工作职责
1. 数据自动化处理与挖掘 - 使用 Python 开发与维护自动化脚本/工具,负责数据的抽取、清洗、转换(ETL/ELT)、质量监控与初步分析,数据源涵盖数据库、API、日志文件及物理存储设备。 - 设计和实施针对不同来源与介质(如USB SSD/HDD, NAS)的数据分类、处理策略与安全规范(包括元数据管理、格式转换与敏感信息脱敏)。 2. 多介质数据载体流转管理 - 负责物理数据载体(如移动硬盘、NAS)的全生命周期管理,包括接入登记、自动识别提取、完整性校验、归档及安全擦除。 - 构建并优化从物理介质到中心化存储的自动化、可审计的流转流程,监控任务状态并及时排障,确保数据防丢失、可追溯。 3. Linux 环境运维与脚本开发 - 在 Linux 环境下部署运维数据处理服务,具备物理设备管理能力(如自动挂载、权限控制、基础故障排查)。 - 编写 Shell/Python 脚本完成系统级任务,保障数据处理环境的稳定与高效。 4. 协作与安全合规 - 与业务团队协作,制定并优化数据交付与处理规范。 - 严格执行数据安全策略,确保物理介质和数据处理流程符合公司安全与隐私要求。
负责大模型训练、推理和评测的基础设施研发,为算法团队提供高效稳定的工程底座。 1、训练系统:设计和优化大规模分布式训练架构(Pretrain/SFT/RL),解决千卡级训练的通信、调度、容错问题; 2、推理部署:基于 vLLM 等框架优化大模型推理性能,支撑 VLT/Omni 等模型在 XP5 端侧和云端的部署; 3、评测平台:开发 DeepInsight 评测系统,支持 LLM/VLM/WBC/VLA 多类模型的自动化评测、报告生成和 CI/CD 集成; 4、MLOps 工具链:构建模型版本管理、实验追踪、数据管理、资源调度等基础设施,提升研发效率; 5、RL 训练环境:构建分布式强化学习训练系统,支持 Agent-环境大规模并行交互。

1.硬件资产全生命周期管理: 制定并执行数据中心所有机器人平台及硬件设备的资产管理策略,包括采购规划、台账管理、状态监控、维护保养、退役报废等。 建立统一的硬件资产数据库,实时追踪每一台设备的位置、状态、使用记录和健康度。 负责硬件预算的编制和控制,优化资产利用率,降低总拥有成本。 2. 机器人平台(具身智能体)运维管理: 负责机器人本体(如机械臂、移动底盘、人形机器人等)的日常部署、调试、标定、维护和故障诊断。 制定和执行机器人平台的定期保养计划(如关节润滑、电池管理、结构检查等)和校准流程。 领导团队快速响应并解决机器人在数据采集过程中出现的硬件故障,最大化设备在线率。 3. 外围设备管理: 负责多模态传感器(如RGB-D相机、LiDAR、IMU、麦克风阵列、力觉传感器等)的管理、标定、数据质量验证和更换。 管理与维护数据采集所需的外围设备、测试台架和模拟环境设施。 确保所有传感器数据流的同步性和精确性。 4. 技术运维体系与流程建设: 建立和完善硬件运维的标准作业程序,包括开机检查、故障上报、维修流程、备件管理等。 编写详细的技术文档、维修手册和操作指南。 设计与实施硬件健康监控和预警系统,实现从被动维修到主动预防的转变。

岗位职责 1、负责企业级的数据库运维生态平台具设计和开发工作; 2、负责数据库生态工具的开发和支持:元数据管理、监控报警、数据传输; 3、持续优化系统稳定性、性能、成本、可用性、可扩展性、可维护性等; 4、深入了解数据库SDK、LB、数据接入层的使用及配置。 5、深入理解业务场景的数据库需求,针对性的为不同业务场景提供最合适方案; 6、学习业界先进的理论与工程成果,探索新硬件与软件技术;