小红书高性能网络通信工程师/专家-基础技术
任职要求
1.精通cpp语言编程,熟悉Python编程,具备优秀的系统开发、调试,优化能力和经验 2.具备扎实的计算机理论基础,对数据结构和算法有较强的技术功底,有高性能通信相关经验优先 3.有开发/优化集合通信库(如NCCL、DeepEP)、分布式并行优化相关经验,熟悉NvLink、Infiniband…
工作职责
负责设计、实现和维护AI高性能网络通信框架和大模型训练/推理场景的性能优化,聚焦模型通信场景的能力建设,完善集合通信、点对点通信等通信方式与训练/推理框架的联合方案设计,追求极致的训练/推理性能。
蚂蚁ASystem致力于打造下一代AI基础软件,并基于下一代的AI基础软件寻找通用智能的新方法,追求智能上限。 1、负责训推一体存储的设计与开发,建设面向训推一体的显存扩展和高性能数据存储方案,服务蚂蚁内部的强化学习场景; 2、负责整体性能优化与架构升级,通过存算结合持续提升训练/推理效率; 3、与算法工程师深度合作,为重点项目进行算法与系统的联合优化。
-建设业界领先的AI异构算力容器平台,提供高性能、高稳定性、高易用性的百舸产品,支持AIGC、智算中心、金融、 -结合 SOTA 模型训练推理优化原理,深入模型结构与设计思路,将训练推理优化手段工程实践化,为客户提供系统性加速方案,提升训推效率 -在自研芯片上适配常见大模型,结合深度学习训推框架特性,开发或调优相关算子,提升模型在芯片上的性能和精度表现,辅助客户进行芯片选型和应用 -针对大规模异构集群场景下,探索训推任务管理、异构资源调度、虚拟化混布、容器存储、高性能网络、分布式训练和推理等技术的创新和应用 -探索业界最新技术方向,参与机器学习框架等开源社区,提升百度混合云AI核心竞争力
-负责公司新一代统一分布式存储(对象+文件)的核心架构设计与研发。面向 EB 级海量数据,打造百Tbps 级超高带宽与微秒级极低延迟的高可用存储服务,全面支撑AGI、社交、推荐、搜索、电商、广告等核心业务场景 -深入剖析大模型训练与推理的 I/O 特征,攻克集群计算中的 I/O带宽和延迟瓶颈与百亿文件等难题,保障采集、清洗、训练、发布等全流程在统一存储上无缝运行,彻底打破“存储墙”,极致提升 GPU 算力利用率。 -紧跟下一代硬件架构趋势,结合 PCIe 5.0 高带宽特性与QLC、FDP等新型固态存储技术进行底层 I/O 栈重构;探索 CXL 内存/存储池化、DPU/SmartNIC 硬件卸载及 GPUDirect Storage 技术,实现极致的内核旁路(Bypass Kernel)与端到端零拷贝优化,不断突破单机与集群的性能极限。