滴滴训练存储工程师——AI infra(J250620003)
任职要求
1. 计算机科学、软件工程或相关领域的本科及以上学历,有AI工程优化经验; 2. 熟悉Linux操作系统,具备内核文件系统、IO子系统或网络协议栈; 3. 熟悉常见存储技术和协议,如POSIX、NFS、Ceph、S3等; 4. 熟悉分布式系统的核心概念(一致性、分片、复制、容错机制等)及相关技术(如Raft、Paxos…
工作职责
1. 负责AI Infra存储方向性能分析,探索模型训练/推理与存储系统的深度集成,优化大模型训练/推理性能。 2. 负责AI Infra GPU集群IO性能统计跟踪,数据缓存系统的研究优化工作。 3. 负责AI Infra GPU集群各服务压力承载能力建设,提高整体SLA水平的研究优化工作。 4. 负责持续跟进大模型训练推理前沿技术和开源方案,结合存储完成场景化分析,并落地存储产品,提升存储智能化竞争力。
1. 负责京东云AI基础设施产品的质量保障工作,为上层AI开发提供高性能计算/网络、AI存储、大模型训练/推理、大数据开发等高质量底层技术产品; 2. 参与构建产品质量保障体系,根据产品需求、设计文档,制定测试计划,编写和执行测试用例,反馈问题,评价版本质量; 3. 参与自动化测试框架及测试pipeline建设,持续提高提测质量和测试效率。
我们是京东云,作为京东集团面向企业、政府等机构的技术服务品牌,是更懂产业的数智化解决方案提供商,致力于为企业、金融机构、政府等各类客户提供以供应链为基础的数智化解决方案。依托公、专、混的全栈式云产品矩阵,我们融合了人工智能、大数据、物联网等前沿科技,在零售、物流、健康、智能城市、金融科技等行业领域为客户提供了丰富的产品与数字化解决方案,帮助客户降低成本、提升效率,是值得信赖的产业数字合作伙伴。 岗位职责: 1. 负责京东云AI基础设施产品的质量保障工作,为上层AI开发提供高性能计算/网络、AI存储、大模型网关、大模型训练/推理、大数据开发等高质量底层技术产品; 2. 深度使用AI技术构建产品质量保障体系,反馈问题,评价版本质量; 3. 参与自动化测试框架及测试pipeline建设,持续提高提测质量和测试效率。
1. 立足AI Agent研发运维视角,贯穿整个技术栈,在稳定、体验、效率和成本这四个方面持续进行优化 2. 基于AI研发领域的MaaS/PaaS/IaaS,进行模型训练与推理的算力保障,并提升资源使用率 3. 统性地提升Agent研发、部署、运行阶段的稳定性,适应Agent QPS、模型推理TPM每年提升1个量级的发展速度 4. 主导解决Agent研发运维过程中各类疑难问题,并推进完善产品与平台的能力 5. 系统性构建故障节点、慢节点检测平台化能力,响应并解决日常大模型任务的故障问题 6. 负责LLM 后训练(SFT、RLHF/RLAIF 等)相关链路稳定性治理、规范建设:理解研发与优化 LLM + RL/HRF 相关训练框架,提升扩展性、稳定性与性能(吞吐、显存占用、收敛效率等)。结合分布式训练技术(如 tensor / pipeline / data parallel),优化多机多卡训练性能和资源利用率。 7. 平台稳定性与工程质量:建设训练平台的观测与运维体系,完善监控、告警、日志与故障排查工具;持续提升平台的稳定性、可调试性和可维护性,产出高质量技术文档与设计方案。
1、参与AI训练与推理系统的定制和优化,基于计算-存储-通信协同设计,为算法和模型迭代提供优秀的分布式训练和推理解决方案 2、构建高性能计算集群,提供跨地域异构算力的管理,解决通信、存储、调度等系统级瓶颈 3、深入AI框架底层(如PyTorch、Megatron、vLLM等),改进分布式计算、自动并行、显存优化等核心模块 4、支持AI服务的规模化部署,参与加速优化,算力调度优化和稳定性保障工作,提供通用的模型加速,问题诊断,可观测性等解决方案 5、探索前沿技术方向,如编译优化、post-train训练、agent基础框架等,参与算法模型和工程技术的联合创新实践,解决AI落地业务应用过程中,新出现的效率、规模问题