蚂蚁金服蚂蚁集团-数据工程师-后端开发
任职要求
教育背景: 计算机科学、软件工程、电子信息工程或相关专业本科及以上学历。 技术技能: - 编程语言:精通 Java/Scala 或 Python、Go。 - 数据处理与流计算:精通至少一种主流大数据处理框架(Spark, Flink)和消息队列(Kafka,Pulsar, RabbitMQ) . - 数据存储:深入理解并具有大规模数据存储系统的开发与优化经验。 - 云平台:精通至少一种主流云平台(阿里云、AWS、Azure)的核心数据服务(如S3、Redshift. BigQuery#) . - 跨模态元数据架构:理解多源异构数据(传感器流、环境状态、机器人动作等)设计统一的元数据模型与 Schema 注册机制,支持高效的数据发现、血缘追踪与跨模态关联查询。 - 数据管道工具:熟练掌握 ETL/ELT 编排调度工具(如 Airflow、Prefect、Talend)。 - 容器化与编排:熟练掌握 Docker,了解 Kubernetes …
工作职责
1. 多模态数据接入与实时处理: - 设计、开发与维护高效、稳定、可扩展的数据接入服务,负责摄传感器数据、机器人状态数据、任务层抽象数据等多维态异构数据的实时采集、解析与初步处理。 2. 数据管道与平台核心开发: - 开发支持从机器人端到云/边缘数据中心的数据传输链路,并支持将训练好的模型部署反馈数据回流至数据平台。 - 设计、实现和优化大规模机器人数据的存储、传输、批处理与流处理的数据管道。 - 构建和维护核心数据平台基础设施,包括数据湖/仓、消息队列、流处理引擎、任务调度系统等 - 开发自动化工具和框架,提升数据管道的开发效率、部署速度、监控能力和运维可靠性。 - 确保数据流能无缝支持模型训练、仿真验证、在线评估等环节的数据供给与结果回流。 3. 数据平台工具链支持: - 为下游的数据标注、数据挖掘分析、模型训练等环节提供稳定、高效的数据访问接口和服务。 - 与算法团队协作,理解其对数据流的需求(如数据格式、频率、查询要求),并提供技术支持。
工作职责: 1. 负责贝壳C端的后端服务设计与开发,保障高并发场景下的系统稳定性; 2. 参与推荐引擎、模型预测、向量检索等基础系统、平台的设计、研发及调优工作,构建高并发推荐在线服务; 3. 深度参与数据工程开发,优化数据链路,构建离线特征,进行数据归因分析,协助推荐相关的用户画像的工程化建设; 4. 从业务中提取需求,抽象并优化现有系统,以提升效率并降低成本; 5. 关注性能、微服务、设计模式,提升用户体验; 6. 研究和应用新的算法技术,不断优化和改进现有的系统。
-负责大模型相关数据处理工作,包括大规模数据的清洗、合成、去重,确保高质量数据输入 -参与文本、图像等多模态数据的预处理,优化数据质量及增强流程,确保数据的高质量和高可用性 -负责内部数据管理平台的后端设计和开发,提升数据存储、查询及可视化管理能力 -支持大模型在业务场景中的应用,深入理解业务需求,主导数据准备和处理流程的优化 -参与数据处理流程的自动化和工程化改进,优化数据流转效率,提升平台稳定性与可扩展性
Part 1,后端开发: 1、负责数据产品后端的设计与实现,确保系统具备良好的架构设计、扩展性及高可用性; 2、根据系统设计,完成平台的开发、测试和线上维护工作,保障系统的稳定运行; 3、负责系统的服务端调优,持续提升系统性能和服务质量,并编写设计、开发、测试等相关文档,为团队提供清晰的技术指导。 Part 2,AI应用探索与开发: 1、参与AI技术在数据产品中的应用探索,包括但不限于自然语言处理、机器学习、深度学习等方向; 2、负责AI应用的后端开发工作,实现AI模型与现有数据产品的无缝对接; 3、与数科、算法紧密合作,将AI技术转化为实际的产品功能,提升数据产品的智能化水平; 4、跟踪AI领域的最新技术动态,结合业务需求,推动AI技术在数据产品中的创新应用。