阿里云阿里云智能-平台研发专家-GitOps及自动化方向-AI领域
任职要求
1、本科及以上学历,计算机或相关专业,5年以上后端或平台开发经验; 2、扎实的计算机基础,精通 Go/Python/Java 中至少一种语言,熟悉常用的云产品及Linux系统操作; 3、熟悉Docker容器等虚拟化技术,了解Kubernetes、Helm等容器编排技术; 4、有 GitOps 实践经验,熟悉 Argo CD、Flux 或类似工具链,能独立搭建发布流水线; 5、熟悉 IaC(如 Te…
工作职责
随着通用人工智能技术的快速发展,算力的需求也越来越大,作为阿里云人工智能平台的核心研发力量,您将负责构建支撑智算中心的自动化交付与运维底座。您的工作直接决定平台的部署效率、稳定性和扩展能力: 1、设计并实现平台的自动化部署系统,支持多地域、多可用区、多租户场景下的高效、高质量交付; 2、主导 GitOps 工作流在团队内的工程化落地,开发和维护基于ArgoCD/Flux等工具的发布控制系统,实现配置即代码、变更可追溯、发布可回滚; 3、参与多种云环境下部署架构的工程实现,解决跨云环境下的配置同步、资源编排与一致性保障问题; 4、与平台产品、算法工程团队紧密协作,将运维能力产品化,提升用户自助部署与管理体验。
1. 基于云原生技术和GitOps实践,系统化分析和解决阿里云PAI团队在研发中的效率和质量问题,打造易用、高效和可复用的平台工具,提升云产品的持续交付效率。 2. 负责设计、开发和维护提升PAI平台研发效能的工具和系统,包括CI工具、集成测试环境和自动化测试平台等。 3. CI/CD:基于先进的DevOps/GitOps理念,建设一流的CI平台,提升研发体验和效率,实现CI过程可视化、审计和追溯功能。 4. 测试环境:使用Kubernetes、Docker和Golang等云原生技术,构建稳定、高效且易维护的多架构容器化测试环境,提升效率。 5. 自动化测试分层:通过平台工具提升单元测试覆盖率;设计、开发和维护内聚模块的集成测试框架及链路自动化测试框架;设计UI自动化测试,确保核心前端场景的可靠性。 6. 搭建自动化巡检和监控系统,快速响应和解决线上问题,提高服务的稳定性。 7. 根据技术文档和需求,为模块测试、集成测试和系统测试等,构建测试场景、设计测试用例,对测试结果进行分析和评估,发现和跟踪缺陷,并协调开发人员及时解决缺陷问题。
随着通用人工智能技术的快速发展,GPU算力的需求持续飙升,加入阿里云人工智能平台,您将有机会运用卓越工程理念并实践,构建支撑智算中心的工程底座,为AI智算平台的稳定运行保驾护航: 1. 基于先进的云原生技术和devops理念,系统化分析、设计和解决阿里云PAI团队研发过程中的效率质量问题。 2. CI/CD:基于效能领域先进的GitOps理念,建设一流的CI/CD平台,提升研发体验和效率;沉淀易用、高效、可复用的平台工具,整体提升云产品持续交付的效率。 3. 测试环境维护:使用k8s/docker/golang等云原生技术,建设稳定、高效、易维护的多架构容器化测试环境,提升测试效率。 4. 异常巡检能力:搭建自动化巡检、异常检测与告警联动系统,对预发和线上环境的训练任务、推理服务、平台组件异常进行持续健康监测。

岗位职责: 1. 负责公司内研发效能相关架构设计和开发,包括但不限于项目管理、代码托管、持续CI/CD流水线、自动化测试、效能度量等平台与工具。 2. 负责AI效能平台在公司内推进落地,促成全司研发效能提升,包括工具平台应用落地、效能提升方案落地等。 3. 负责研发效能整体技术演进与规划,跟进和引入AI等最新前沿效能提升方法。

围绕软件工程过程,建设「让所有AlAgent产品可靠运行」的基础设施产品,定义Agent基础设施产品的全生命周期,设计让Agent“快、稳、准"的 底层产品体系,支撑数十万开发者在Al-Native时代的软件工程实践。 1.负责AgentInfra的产品规划,围绕产品分析、软件交付、可测试性、技术风险控制、协作效率、研发资产管理等定义关键产品能力。 2.以VibeCoding的方式利用AI工具,一体化传统PD、交互、前端角色,快速迭代验证产品思考并转化为产品力。 3.结合Al发展趋势,持续追踪先进的Agent产品及HarnessEngineering等工程实践演进,确保产品技术路线的先进性。 4.保持平台的开放性,服务于多样化的业务场景与Agent军团业态,放大作用域。 5.建立有效的产品跟踪体系,持续验证并优化产品对技术产能的实际贡献,形成完整的价值闭环。