小鹏汽车算力平台高级SRE工程师
任职要求
1. 熟悉Linux系统、TCP/IP网络协议等计算机基础知识,精通Python或Golang编程语言 2. 熟悉阿里云上各种业务的配置和维护,包括ecs,ack,acs,es等等 3. 对容器、K8S及微服务等云原生技术有深入了解和大规模生产实践经验 4. 较强的问题解决能力,具备出色的沟通能力与团队协作精神 5. 有云原生中间件运维经验,对常见的系统隐患、系统故障有系统性总结和实际处理经验 6. 有CICD项目经验,包括argo,jenkins,zadig等系统的项目经验 加分项: 1. 有丰富的AI相关经验,有大规模GPU集群、RDMA网络运维经验优先 2. 熟悉kubeflow、istio、prometheus,victoriametrics等项目优先 3. 熟悉阿里云CPFS或火山引擎vepfs等存储系统优先
工作职责
1. 负责小鹏汽车扶摇AI平台的运维工作,为业务平台的可用性负责 2. 调查解决大规模GPU集群管理和大规模AI训练情况下遇到的各种系统/稳定性问题 3. 持续建设AI平台运维体系、在稳定性建设、故障定位、资源运营等方向,推动运维工作自动化、工程化
1. 负责小米汽车算力平台项目的管理与交付,重点关注模型部署和优化、工具链建设研发等方向 2. 基于OKR工具和流程,协助团队负责人做好目标管理、流程建设、技术规划等工作,提升研发效率 3. 负责拉通内外部团队,组织项目会议,跟进项目进度,识别并管控项目风险,协调资源达成项目目标 4. 负责团队的文档建设与学习培训等工作,提升团队的技术能力
● 设计和实现高效的训练推理框架,提升多节点、多GPU环境下特别是异构算力场景下的计算效率。具备良好的工程实践和算法理论基础,熟悉底层的硬件编程和常见GPU的算子库开发,能对算法的运行效率如速度、显存占用等进行优化,推动算法稳定、高效的运行。 ● 完善优化训练推理框架,针对市面上的国产信创卡能提出统一的优化方案,并推进在底层的通信效率、资源占用、稳定性方面持续建设。 ● 设计并实现能够处理大规模并发请求的系统架构,确保极端负载下的稳定性和性能。完善错误自愈机制,提升平台训练的MFU,打造行业内一流的异构算力混训混推GPU框架。 ● 技术方案设计:主导核心模块技术方案设计与评审,结合业务需求与系统现状,制定可落地的架构规划。 ● 基础服务开发:构建高可用、可扩展的基础服务组件,支持训练/推理框架的快速迭代与稳定部署。 ● 项目管理:主导跨团队协作项目的全生命周期管理,包括需求拆解、排期规划、进度跟踪与风险控制,确保项目高效交付。 ● 持续关注并跟进业界技术发展,比如超长上下文、端到端推理思维链、多模态等方向。

1、负责大装置私有化项目方案设计、交付和支持工作 2.为客户提供技术支撑,确保响应客户与处理技术问题的时效性,引导并指导客户使用算力平台产品,为客户提供最佳的技术解决方案 3.收集客户对我司各产品提出的需求和建议,及时反馈给相关产研团队,同时做好后续需求跟进; 4.面向用户提供项目交付,对交付过程中的问题进行跟踪分析和报告,推动测试中发现问题及时合理地解决。