阿里云诚云科技-资深数据开发工程师-CIO线-数据技术部
任职要求
1. 本科及以上学历,计算机、软件工程、数学、统计学等相关专业; 2. 3年以上数据研发相关工作经验,熟悉大数据生态及相关技术栈; 3. 精通SQL,熟练掌握至少一种编程语言(如Python); 4. 熟悉Hadoop、Spark、Hive、Kafka等大数据组件,有实际项目经验; 5. 具备良好的数据敏感度、逻辑思维能力和团队协作精神; 6. 有数据治理、机器学习平台经验者优先。
工作职责
1、企业数据体系建设 负责企业级数据架构设计,制定数据标准与规范,支撑业务决策与智能化应用。 搭建数据采集与处理流程,整合多源数据(内部系统、外部API、公开数据库等),确保数据质量与一致性。 2、外部数据获取与处理 通过API接口或第三方数据服务,获取高质量外部数据(如行业趋势、市场动态、竞品信息)。 设计数据清洗规则与自动化脚本,处理缺失值、异常值及格式标准化,输出结构化数据资产。 3、数据建模与分析 基于业务场景(如用户画像、风险预测、供应链优化)构建统计模型或机器学习模型(如分类、回归、聚类)。 开发可复用的数据分析工具链,支持实时/离线分析,输出可视化报告或API接口供业务调用。
1、数据资产管理平台开发与治理 构建企业级数据资产管理平台,构建数据清晰的血缘,支持高效溯源。 建立元数据管理、数据血缘追踪、质量监控与安全合规体系。 2、知识图谱构建与优化 从结构化/非结构化数据中提取实体与关系,构建行业知识图谱(如客户关系图谱)。 通过规则引擎、NLP模型持续优化图谱质量。 3、AI助理系统开发 集成大语言模型(LLM)与垂直知识库,开发智能问答、自然语言查询及自动化报表功能。 设计API/Web接口,支持业务用户通过自然语言调用数据服务(如“查询某产品的销售趋势”)。 搭建模型训练与部署框架,实现AI能力快速迭代。 4、数据安全合规与质量管理 建立数据质量指标(完整性、一致性、准确性),开发自动化检测与修复工具。 实现异常数据实时告警(如延迟、权限越权),并通过邮件/SMS/企业微信通知责任人。 5、平台性能与稳定性保障 优化Spark/Flink任务性能,提升高并发场景下的平台稳定性。 监控系统运行状态,设计容灾机制与自动化运维工具,降低故障率。
阿里云CIO线交易计费平台,是阿里云业务中台系统的基石,是中台战略的核心阵地,由产商品、交易、优惠、计量计费、合同等多个核心业务平台组成,旨在提供简单可信赖的云服务交易平台,高效高质量地支持阿里云业务的全球化布局和创新性发展。 岗位职责: 技术方案设计 • 收集、识别、分析客户需求,并确定技术方案的目标、范围和交付成果 • 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、技术架构、数据架构和开发流程 技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现 • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署 • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等 基础服务开发 • 洞察和抽象团队内的共性技术需求并形成基础服务技术方案 • 通过技术框架、技术领域SDK、web组件库、技术知识库等可复用能力的建设,不断提升团队研发效率和质量 技术洞察与研究 • 通过行业会议、技术媒体、学术研究、友商交流等方式,收集领域内的最新技术信息,包括但不限于技术原理、技术优劣势、应用场景等 • 追踪并定期分析竞对产品的核心技术指标和发展方向 • 通过内外部渠道,了解并洞悉客户需求,并凝练形成对应的技术洞察 技术规划 • 基于业务需求和技术洞察,制定技术团队的中长期发展规划和技术路线图 • 体系性的设计各类配套规划,包括技术人员规划、技术基础设施规划、技术质量规划、技术安全规划等 项目管理 • 确定项目目标和范围,并拟定项目计划、预算和资源需求计划、项目风险评估、交付成果等 • 组建项目团队,明确项目各岗位职责和任务,配备必要的资源,并设计高效的协作机制 • 按项目计划进行落地实施,并对项目进度、数据、质量进行监控,确保项目保质保量实施 • 总结项目经验和教训,反馈项目成果和绩效,为之后的项目管理沉淀经验总结
1、遵循Robots协议,参与爬虫系统的建设与优化,满足各类业务数据需求; 2、负责分布式爬虫系统的建设,优化数据调度、抓取、解析、存储全栈流程; 3、帮助团队攻克各种爬虫技术难关,提升海量数据系统的抓取效果与性能。