蚂蚁金服蚂蚁集团-数据工程师-后端开发
任职要求
教育背景: 计算机科学、软件工程、电子信息工程或相关专业本科及以上学历。 技术技能: - 编程语言:精通 Java/Scala 或 Python、Go。 - 数据处理与流计算:精通至少一种主流大数据处理框架(Spark, Flink)和消息队列(Kafka,Pulsar, RabbitMQ) . - 数据存储:深入理解并具有大规模数据存储系统的开发与优化经验。 - 云平台:精通至少一种主流云平台(阿里云、AWS、Azure)的核心数据服务(如S3、Redshift. BigQuery#) . - 跨模态元数据架构:理解多源异构数据(传感器流、环境状态、机器人动作等)设计统一的元数据模型与 Schema 注册机制,支持高效的数据发现、血缘追踪与跨模态关联查询。 - 数据管道工具:熟练掌握 ETL/ELT 编排调度工具(如 Airflow、Prefect、Talend)。 - 容器化与编排:熟练掌握 Docker,了解 Kubernetes 部署和管理。 - Linux 系统:精通 Linux 操作系统,具备良好的系统性能分析、调优和问题排查能力。 【加分项】 了解机器人操作系统 ROS/ROS2 数据通信机制者优先;了解传感器数据(点云、图像流)处理特性者优先。 【经验与能力】: - 3年以上数据工程、后端开发或分布式系统开发经验。 - 有独立设计、开发和运维大规模、高并发、实时数据管道的成功经验。 - 深刻理解分布式系统原理,包括容错、一致性、并发控制、负载均衡等。 - 强大的性能调优和问题诊断能力,能够定位和解决分布式系统中的复杂问题。 - 具备数据质量意识,理解如何构建可靠的数据流保障机制。 - 熟悉软件工程最佳实践(版本控制Git、CI/CD、测试、文档化)。 【软技能】: - 优秀的沟通协调能力和团队协作精神,能与跨职能团队(硬件、软件、算法)高效合作。 - 出色的分析问题和解决复杂技术难题的能力。 - 积极主动,责任心强,对系统稳定性和数据质量有高标准要求。
工作职责
1. 多模态数据接入与实时处理: - 设计、开发与维护高效、稳定、可扩展的数据接入服务,负责摄传感器数据、机器人状态数据、任务层抽象数据等多维态异构数据的实时采集、解析与初步处理。 2. 数据管道与平台核心开发: - 开发支持从机器人端到云/边缘数据中心的数据传输链路,并支持将训练好的模型部署反馈数据回流至数据平台。 - 设计、实现和优化大规模机器人数据的存储、传输、批处理与流处理的数据管道。 - 构建和维护核心数据平台基础设施,包括数据湖/仓、消息队列、流处理引擎、任务调度系统等 - 开发自动化工具和框架,提升数据管道的开发效率、部署速度、监控能力和运维可靠性。 - 确保数据流能无缝支持模型训练、仿真验证、在线评估等环节的数据供给与结果回流。 3. 数据平台工具链支持: - 为下游的数据标注、数据挖掘分析、模型训练等环节提供稳定、高效的数据访问接口和服务。 - 与算法团队协作,理解其对数据流的需求(如数据格式、频率、查询要求),并提供技术支持。
-负责大模型相关数据处理工作,包括大规模数据的清洗、合成、去重,确保高质量数据输入 -参与文本、图像等多模态数据的预处理,优化数据质量及增强流程,确保数据的高质量和高可用性 -负责内部数据管理平台的后端设计和开发,提升数据存储、查询及可视化管理能力 -支持大模型在业务场景中的应用,深入理解业务需求,主导数据准备和处理流程的优化 -参与数据处理流程的自动化和工程化改进,优化数据流转效率,提升平台稳定性与可扩展性
Part 1,后端开发: 1、负责数据产品后端的设计与实现,确保系统具备良好的架构设计、扩展性及高可用性; 2、根据系统设计,完成平台的开发、测试和线上维护工作,保障系统的稳定运行; 3、负责系统的服务端调优,持续提升系统性能和服务质量,并编写设计、开发、测试等相关文档,为团队提供清晰的技术指导。 Part 2,AI应用探索与开发: 1、参与AI技术在数据产品中的应用探索,包括但不限于自然语言处理、机器学习、深度学习等方向; 2、负责AI应用的后端开发工作,实现AI模型与现有数据产品的无缝对接; 3、与数科、算法紧密合作,将AI技术转化为实际的产品功能,提升数据产品的智能化水平; 4、跟踪AI领域的最新技术动态,结合业务需求,推动AI技术在数据产品中的创新应用。
1,负责自动驾驶大规模数据管线的设计与研发,,包括多传感器(视频,图片,雷达信号等)的数据清洗、脱敏脱密、时空对齐、标签抽取、特征融合等模块的设计与开发;保障数据加工产线高效率、低成本运转; 2,开发自动驾驶云平台各功能模块,基于Kubernetes采用微服务架构,全程参与产品开发,提升研发、运营、管理的使用体验;构建大规模任务处理系统,并负责GPU、CPU等多种异构资源的编排调度; 3,持续优化数据质量和效率,提供面向算法的各类数据服务/平台,推动数据驱动模型改善和整体自动驾驶能力的提升。 4,具备较强的业务能力和数据产品思维,能根据实际业务需要,制定端到端解决方案,并落地到业务产生收益,不断优化用户体验