蚂蚁金服蚂蚁集团-AI基础设施测试开发-杭州Z
任职要求
● 经验:3年以上质量保障/测试开发经验,有 AI平台 或 AB测试/科学实验平台 质量保障经验者优先。 ● 熟练掌握Java/C++/Python或其他脚本类语言,会使用Testng、Junit、Pytest等测试框架进行系统测试用例管理,具备测试框架二次开发能力者优先。 ● 能从平台架构角度理解AI训练/部署/推理/科学实验平台产品的核心模块(如分布式训练、流量分发引擎)。熟悉 SQL 和数据分析工具…
工作职责
为蚂蚁AI基础设施:从GPU,到训练,再到推理引擎,搜索推荐引擎,建设AI工程全链路的质量能力和提升效率手段,参与火热的新一代大模型infra的技术风险方案,为 AI引擎建设全方位的稳定性方案,为大模型端到端的性能稳定性目标达成保驾护航。重点保障AI训练/部署/推理/科学实验平台产品质量。
1. 负责蚂蚁 AI 基础设施中推理、后训练、管控面链路、AI 存储等关键基础设施的质量保障工作,面向重点项目中的业务压力与挑战,补位项目不确定模块/组件的质量保障工作。 2. 主导项目全链路质量保障和风险识别工作,搭建质量技术保障体系、制定质量保障规范、推进测试工作执行。与项目中多角色、多合作团队形成积极有效的沟通和互动,驱动问题解决,保障交付质量。 3. 主动创新,通过技术手段解决质量保障工作中的复杂技术问题,提升测试效能、加深质量工作技术积累。
1. 数据产品业务专家经验:深入了解数据库产品产品业务场景,内核架构,核心功能,链路关系(数据库产品/数据同步链路),站在风险视角,具备与产研同学技术层面平等对话能力。 必备技能:在线数据库产品技术,加持技能:离线/实时数据计算存储产品了解(spark/flink/hbase等) 2. 数据产品稳定性风险专家经验:面向数据库产品,基于数据产品业务了解,具备快速抽象存量风险,新增风险能力。 面向风险具备设计事前测试(覆盖功能,性能,稳定性,容灾恢复等),事中变更(变更产品功能充分度评估及验证),事后应急恢复(运维产品快速应急充分度评估及验证)的整体风险管控方案。 3. ownership:作为owner,具备自主定义工作,完成0-1方案建设能力,进度自驱跟进,与产研SRE对话能力。为稳定性工作负责,业务稳定性能力具备拆解工作项,带领其他同学完成质量保障工作能力。 4. 技术能力:能够主导领域/大型项目的整体测试工作,包括测试分析、测试用例落地、测试流程规范、测试进度管理、测试风险发现等。 具备至少一种技术栈能力:Java,Python,SQL。可编写SOP化的自动化测试框架,开发自动化工具/平台,设计复杂场景, 如:极端压力测试,破坏性测试等。熟悉CICD研发流程,保障稳定性基础上,兼顾效率。同时在领域稳定性保障上,具备技术破冰能力。
● 负责分布式存储引擎的全生命周期测试管理,制定测试计划、风险评估及资源协调,确保测试覆盖功能、性能、稳定性等核心目标 ● 分析并解决分布式存储引擎中的复杂问题,如分布式事务一致性、引擎性能瓶颈、元数据管理及容灾恢复等 ● 设计并主导存储系统(如分布式存储、文件系统、数据库存储等)的稳定性测试框架,提升测试效率与覆盖率 ● 协同质量、SRE、研发、高可用,主导并跟进落地数智域稳定性专项Action落地,识别关键极端风险并产出预防措施 人员要求: ● 6年以上分布式存储测试开发经验,熟悉存储引擎(如Ceph、HBase、RocksDB)的设计与实现 ● 扎实的代码能力,精通Python/Shell/Go/C++中至少一种语言,能够独立开发测试工具、脚本及自动化框架 ● 能够主导大型项目的整体测试工作,包括测试分析、测试用例落地、测试流程规范、测试进度管理、测试风险发现等 ● 良好的沟通与团队协作能力,能够跨部门推动问题解决 ● 具备大规模分布式存储系统(如PB级数据规模)的测试经验

大装置智能云,支撑从云基础设施到大模型服务的完整产品体系。 欢迎加入测试开发团队,与我们一起打造下一代 AI 基础设施质量标准。 参与商汤大装置智能云核心产品的质量保障,包括: 1. 云平台方向(Cloud) · 云服务、容器平台(K8s)、网络/存储服务的功能与稳定性测试 · 自动化测试、接口测试、性能测试、系统级测试 2. 算力平台方向(Compute) · 多集群 GPU/NPU 算力池、调度平台的测试开发 · 压测、稳定性测试、异常场景验证 3. 大模型平台方向(AI Infra / MaaS) · 大模型推理、训练、评估平台的测试 · 模型性能测试、多模态模型验证、推理链路端到端自动化 4. 测试自动化,CI/CD 方向 · 测试框架、测试工具开发 · CI/CD 构建链路优化与集成 我们会根据你的能力与兴趣匹配到最合适的产品线。