阿里云阿里云智能-智算存储技术开发专家-AI领域-北京/杭州/上海
任职要求
1. 精通Golang或C++, 在多线程等方面有丰富经验; 2. 对分布式系统设计与实现有深刻理解,熟悉常见中间件,如消息队列等; 3. 对存储系统,包括文件系统,对象存储,分布式KV等有深刻理解; 4. 具备存储,灾备或者云平台开发经验,有cache/file/block/…
工作职责
智算存储技术开发专家将负责开发阿里云智算存储的数据的备份,容灾,同步,分层,治理子系统的研发,日常工作包括但不限于: 1. 设计和开发针对智算数据的大规模分布式数据保护与管理系统,包括但不限于数据重删,压缩,存储,复制,归档,分析功能,同时对系统的监控和运维能力负责,保证系统安全性和可靠性; 2. 测试,调优和运维大规模公共云服务和分布式存储系统; 3. 保持前瞻性, 随着业务复杂性, 负载增加, 运行管理复杂性的增加, 持续的推动系统设计的重构。
- 负责阿里云容器平台在AI基础设施与应用架构方向的产品研发与技术演进 - 主导大规模异构资源(GPU/NPU/RDMA等)集群的调度、管理与性能优化,提升资源利用效率、系统稳定性与运行性能 - 构建面向AI与Agent应用的Serverless容器算力产品 - 基于Kubernetes打造面向大模型训练/推理、大规模数据处理及Agent应用的云原生基础设施产品与解决方案 - 推动云原生AI领域前沿技术预研、落地及开源生态建设,持续引领技术创新与行业实践
构建面向智能计算时代的下一代AI质量保障体系,驱动专有云智算、大模型等核心AI产品的卓越质量交付,同时通过AI技术重塑软件测试范式,打造智能化、前瞻性的测试基础设施: 1、 负责专有云智算平台(含GPU资源调度、高性能存储/网络组件)、大模型服务产品的全链路质量体系建设 2、同时能够将AI技术深度融入软件测试全流程,通过AI技术驱动测试效率提升、质量优化和流程变革 3、主导AI测试工具研发、智能化测试体系建设,并为团队提供AI技术在测试领域的前沿解决方案。
1. 负责阿里云容器云原生AI和大数据产品的架构设计和开发工作 2. 负责容器产品调度、管理大规模GPU/NPU/RDMA等异构资源集群的效率、性能和稳定性的持续优化 3. 负责基于Kubernetes容器构建面向AI/大模型训练和推理,大规模数据处理和工作流等场景的基础设施产品和解决方案 4. 负责云原生AI领域新技术和新方向的预研和落地,及相关开源能力建设
1、深入理解客户业务需求,帮助客户选择适合其业务场景的技术路径和产品组合,利用AI技术知识、架构方法、咨询技能来影响客户技术决策 2、与客户合作进行模型训练、推理和模型应用等POC,含展示功能、调整模型、优化模型性能、测试分析、Agent搭建、模型调用等内容 3、依据客户需求和技术研判,推动产研部门持续优化产品,助力提升产品竞争力,同时沉淀最佳实践,以及脚本、模板、参考架构等可复用的技术资产 4、持续跟踪行业动态和技术趋势,并与产品团队协作,打造创新的人工智能(大模型、智算、一体机等)解决方案 5、支持市场活动,作为领域专家参与市场洞察、行业标准、市场排名报告、白皮书撰写等活动,并在行业峰会、技术沙龙等市场活动中进行技术传播和分享