阿里云阿里云智能-工程效能平台开发专家-杭州/北京
任职要求
1、5年以上Java/C++等开发经验; 2、对大规模分布式系统和数据处理有浓厚的兴趣,有研发效能。测开等经验的优先; 3、有良好的工程质量意识,熟悉单元测试、功能测试和系统测试并能严格实施这些测…
工作职责
1、设计和实现高性能、可靠的研发效能平台; 2、负责研发效能平台的研发; 3、制定稳定性策略,寻找并解决系统中的潜在风险和瓶颈,覆盖线上疑问,保障系统安全可靠。运用系统优化技术和方法,进行性能优化。 4、分析用户需求,优化系统架构,提高系统的扩展性、灵活性和可维护性;
团队整体实行 DevOps,SRE 在其中系统化分析并解决研发流程中的效率与质量问题,打造易用、高效、可复用的效能平台和工具,全面提升分布式块存储产品的持续交付质量和效能。主要职责包括: 1. CI/CD 平台与效能工具链建设: 负责设计、开发和维护高效的 CI/CD 持续集成与交付平台; 2. 搭建核心测试框架与自动化测试工具链;优化测试流程效率,保障测试环境的稳定性与易用性,并有效控制研发成本,从而显著提升研发体验与整体效率; 3. 质量风险分析与效能体系构建: 系统化评审分布式块存储系统的质量风险点,主导构建和完善系统级测试能力;设计并实现覆盖复杂业务场景的用例,持续提升覆盖率和有效性,保障系统质量; 4.云原生测试环境建设: 运用 Kubernetes, Docker, Golang 等云原生技术,构建并维护稳定、高效、易于管理的多架构(如 x86/ARM)容器化环境,为高效测试提供坚实基础; 5. 负责对技术团队和相关模块进行质量水位的评估和考核,并提出改进意见。熟知质量理论和方法,能运用新的AI技术来做质量提效,并在研发中传帮带和推广。持续提升各技术团队的质量意识和测试技术水平。
1. 负责蚂蚁 AI 基础设施中推理、后训练、管控面链路、AI 存储等关键基础设施的质量保障工作,面向重点项目中的业务压力与挑战,补位项目不确定模块/组件的质量保障工作。 2. 主导项目全链路质量保障和风险识别工作,搭建质量技术保障体系、制定质量保障规范、推进测试工作执行。与项目中多角色、多合作团队形成积极有效的沟通和互动,驱动问题解决,保障交付质量。 3. 主动创新,通过技术手段解决质量保障工作中的复杂技术问题,提升测试效能、加深质量工作技术积累。
随着通用人工智能技术的快速发展,GPU算力的需求持续飙升,加入阿里云人工智能平台,您将有机会运用卓越工程理念并实践,构建支撑智算中心的工程底座,为AI智算平台的稳定运行保驾护航: 1. 基于先进的云原生技术和devops理念,系统化分析、设计和解决阿里云PAI团队研发过程中的效率质量问题。 2. CI/CD:基于效能领域先进的GitOps理念,建设一流的CI/CD平台,提升研发体验和效率;沉淀易用、高效、可复用的平台工具,整体提升云产品持续交付的效率。 3. 测试环境维护:使用k8s/docker/golang等云原生技术,建设稳定、高效、易维护的多架构容器化测试环境,提升测试效率。 4. 异常巡检能力:搭建自动化巡检、异常检测与告警联动系统,对预发和线上环境的训练任务、推理服务、平台组件异常进行持续健康监测。