logo of jd

京东国际产研 高可用/AI infra研发岗

社招全职3年以上软件开发岗地点:北京状态:招聘

任职要求


1.具有 3 年以上 AI 基础架构、分布式系统、高性能计算(HPC)或大型云平台开发经验;
2.精通 Python,具备扎实的数据结构算法功底,编码风格严谨;
3.加分项:深入理解 PyTorch/Megatron-LM/DeepSpeed 的底层实现源码及运行机制;
4.加分项:精通 GPU/NPU …
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.参与京东跨境电商AI Infra技术架构体系建设,制定和推进架构规范的落实;
2.负责复杂技术项目的顶层方案设计,完成关键技术问题判断和事情的拆解;
3.调度系统优化:参与智算操作系统研发,优化 Kubernetes 或 Ray 的 GPU 资源调度能力;
4.高可用性保障:解决GPU集群的故障恢复(Fault Tolerance)与弹性容错(弹性 Checkpoint);
5.效能与可观测性:构建集群效能评估模型,精准度量算力资源利用率(MFU/HFU);
6.跟踪行业趋势和技术前沿,根据业务实际需求,为团队引入新技术和新方案;
包括英文材料
分布式系统+
HPC+
Python+
数据结构+
算法+
PyTorch+
还有更多 •••