滴滴训练存储工程师——AI infra(J250620003)

社招全职技术2025-09-12地点：北京状态：招聘

扫码手机上打开

任职要求

1. 计算机科学、软件工程或相关领域的本科及以上学历，有AI工程优化经验；
2. 熟悉Linux操作系统，具备内核文件系统、IO子系统或网络协议栈；
3. 熟悉常见存储技术和协议，如POSIX、NFS、Ceph、S3等；
4. 熟悉分布式系统的核心概念（一致性、分片、复制、容错机制等）及相关技术（如Raft、Paxos…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责AI Infra存储方向性能分析，探索模型训练/推理与存储系统的深度集成，优化大模型训练/推理性能。
2. 负责AI Infra GPU集群IO性能统计跟踪，数据缓存系统的研究优化工作。
3. 负责AI Infra GPU集群各服务压力承载能力建设，提高整体SLA水平的研究优化工作。
4. 负责持续跟进大模型训练推理前沿技术和开源方案，结合存储完成场景化分析，并落地存储产品，提升存储智能化竞争力。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

Linux+

数据结构+

算法+

系统设计+

自动驾驶+

大模型+

机器学习+

还有更多 •••

登录查看完整学习资料

相关职位

高级测试开发工程师（AI Infra）

社招5年以上测试开发岗

1. 负责京东云AI基础设施产品的质量保障工作，为上层AI开发提供高性能计算/网络、AI存储、大模型训练/推理、大数据开发等高质量底层技术产品； 2. 参与构建产品质量保障体系，根据产品需求、设计文档，制定测试计划，编写和执行测试用例，反馈问题，评价版本质量； 3. 参与自动化测试框架及测试pipeline建设，持续提高提测质量和测试效率。

更新于 2025-08-24北京

高级测试开发工程师（AI Infra）

社招5年以上测试开发岗

我们是京东云，作为京东集团面向企业、政府等机构的技术服务品牌，是更懂产业的数智化解决方案提供商，致力于为企业、金融机构、政府等各类客户提供以供应链为基础的数智化解决方案。依托公、专、混的全栈式云产品矩阵，我们融合了人工智能、大数据、物联网等前沿科技，在零售、物流、健康、智能城市、金融科技等行业领域为客户提供了丰富的产品与数字化解决方案，帮助客户降低成本、提升效率，是值得信赖的产业数字合作伙伴。岗位职责： 1. 负责京东云AI基础设施产品的质量保障工作，为上层AI开发提供高性能计算/网络、AI存储、大模型网关、大模型训练/推理、大数据开发等高质量底层技术产品； 2. 深度使用AI技术构建产品质量保障体系，反馈问题，评价版本质量； 3. 参与自动化测试框架及测试pipeline建设，持续提高提测质量和测试效率。

更新于 2026-03-22

业务技术-大模型后训练平台稳定性研发工程师 / 专家-AI infra

社招2年以上

1. 立足AI Agent研发运维视角，贯穿整个技术栈，在稳定、体验、效率和成本这四个方面持续进行优化 2. 基于AI研发领域的MaaS/PaaS/IaaS，进行模型训练与推理的算力保障，并提升资源使用率 3. 统性地提升Agent研发、部署、运行阶段的稳定性，适应Agent QPS、模型推理TPM每年提升1个量级的发展速度 4. 主导解决Agent研发运维过程中各类疑难问题，并推进完善产品与平台的能力 5. 系统性构建故障节点、慢节点检测平台化能力，响应并解决日常大模型任务的故障问题 6. 负责LLM 后训练（SFT、RLHF/RLAIF 等）相关链路稳定性治理、规范建设：理解研发与优化 LLM + RL/HRF 相关训练框架，提升扩展性、稳定性与性能（吞吐、显存占用、收敛效率等）。结合分布式训练技术（如 tensor / pipeline / data parallel），优化多机多卡训练性能和资源利用率。 7. 平台稳定性与工程质量：建设训练平台的观测与运维体系，完善监控、告警、日志与故障排查工具；持续提升平台的稳定性、可调试性和可维护性，产出高质量技术文档与设计方案。

更新于 2025-12-15杭州

AI-Infra工程师

校招虎鲸文娱2026

1、参与AI训练与推理系统的定制和优化，基于计算-存储-通信协同设计，为算法和模型迭代提供优秀的分布式训练和推理解决方案 2、构建高性能计算集群，提供跨地域异构算力的管理，解决通信、存储、调度等系统级瓶颈 3、深入AI框架底层（如PyTorch、Megatron、vLLM等），改进分布式计算、自动并行、显存优化等核心模块 4、支持AI服务的规模化部署，参与加速优化，算力调度优化和稳定性保障工作，提供通用的模型加速，问题诊断，可观测性等解决方案 5、探索前沿技术方向，如编译优化、post-train训练、agent基础框架等，参与算法模型和工程技术的联合创新实践，解决AI落地业务应用过程中，新出现的效率、规模问题

更新于 2025-12-16北京