阿里巴巴阿里妈妈-AI Serving高级专家-北京
任职要求
我们希望你: - 计算机、软件工程、电子信息、自动化、数学等相关专业背景,博士优先。 - 有超大规模分布式机器学习系统设计与开发经验与大模型在线Inference经验,了解MLSys相关前沿技术并能推动创新实践;熟悉TensorFlow/PyTorch/XLA/MLIR/TVM/TRT-LLM/DeepSpeed/Megatron等业界主流AI框架或编译器优先。 - 具备一线的C++/Python工程能力,精通数据结构和常用算法,掌握各种编译、调试、性能分析工具,有CPU/GPU/ASIC系统软件或硬件背景,熟悉计算机体系结构,熟悉并行编程(CUDA/OpenCL等);有代码生成和优化背景,熟悉GCC/LLVM等主流编译器的实现的优先。 - 计算机、软件工程、电子信息、自动化、数学等相关专业背景,博士优先。 - 有超大规模分布式机器学习系统设计与开发经验,熟悉大模型在线Inference系统,了解MLSys相关前沿技术并能推动创新实践;熟悉TensorFlow/PyTorch/XLA/MLIR/TVM等业界主流AI框架或编译器优先。 - 具备一线的C++工程能力,精通数据结构和常用算法,掌握各种编译、调试、性能分析工具;有CPU/GPU/ASIC系统软件或硬件背景,熟悉计算机体系结构,熟悉并行编程(CUDA/OpenCL等),有代码生成和优化背景,熟悉GCC/LLVM等主流编译器的实现等优先。
工作职责
我们是淘天集团阿里妈妈工程平台团队,致力于打造面向搜推广场景及AIGX应用的业界最强AI在线服务平台。团队服务于淘天电商核心业务,承担 广告模型超大规模特征工程和AI推理、LLM/Diffusion等大模型服务 的研发和优化等关键职责,在高性能在线服务(推荐系统/多模态大模型/大语言模型)、分布式系统(计算/存储/网络)、异构计算和AI编译优化(CPU/GPU/XPU)等课题上都具有业界最前沿的挑战。 1)负责超大规模生成式模型在线服务系统架构设计并推进落地; 2)负责大规模异构硬件系统inference在离线计算资源优化; 3)负责模型交付pipeline整体优化。
面向电商场景的广告/搜索/推荐业务,针对 召回/排序/机制策略 和 多模态AI模型、以及超大规模稀疏特征与Embedding,打造高性能的AI Serving系统。开展: 1. CPU/GPU/ASIC软硬件协同优化,发挥数十万CPU核和近万加速卡的计算潜力; 2. 稠密大模型 结合 稀疏-稠密模型的广告深度学习系统优化、编译优化和算法优化; 3. 面向广告/搜索/推荐AI Serving的新迭代范式探索。
1. 负责AI Serving的研发与优化,包括但不限于大模型的高效推理算法、框架与系统; 2. 将业界开源/自研大模型应用于广告业务场景,实现创新应用; 3. 研究业界前沿的大语言模型,及相关的服务与优化框架。
我们正在寻找业界顶尖的系统专家,加入我们的AI基础架构团队,共同设计和构建下一代生成式AI的“在线服务操作系统”。您的使命是解决将前沿AI能力(大模型、AI Agent、多模态等)转化为大规模、高效率、高可用在线服务时所面临的系统性、全栈性挑战。您将负责端到端的服务性能与架构演进,从顶层应用到底层硬件,全面提升AI服务的竞争力。 具体职责包括(若你对以下一个或者多个方向感兴趣均欢迎投递): 1. 大规模模型服务平台与智能调度系统设计: (1)负责承载大规模在线模型服务(Serving)平台的核心架构设计与演进,通过对底层推理引擎(如PAI平台提供)的深度适配与协同优化,实现极致的推理吞吐与资源利用率。 (2)设计并实现面向复杂混合负载(长/短序列长度、多Lora、多模型、异构资源、多租户、高/低优先级)的上层智能请求调度与资源管理系统,通过与推理引擎的深度协同,动态调整调度策略,保障服务质量(SLA)并最大化云上服务的性价比。 2. 分布式基础设施与底层硬件优化: (1)负责面向大规模模型服务的分布式推理拓扑管理与通信计算协同优化,针对张量并行、流水线并行等场景,优化跨节点通信(InfiniBand/RoCE, NVLink),降低端到端延迟。 (2)深入理解GPU、NPU等异构硬件架构与特性,负责从服务层面对底层计算、编译优化(由PAI等引擎团队提供)进行性能评测、分析与反馈,驱动端到端的硬件效能提升。 3. AI应用层运行时与算法协同优化: (1)深入AI Agent、检索增强生成(RAG)、多模态理解等复杂应用场景,设计并优化其专用的高效运行时(Runtime),解决长链条、多依赖、异步任务流的性能瓶颈。 (2)负责高性能向量检索(Vector Search)与图计算(Graph Computing)引擎的服务化与集成,优化其在RAG和复杂推理场景下的数据访问与计算效率,实现数据层与模型层的无缝高效协同。
负责大规模语言模型(LLM)及其他AI模型的在线服务部署、性能调优与推理加速,确保高并发、低延迟、高可用的模型服务。负责设计和开发智能Agent运行框架,实现核心模块,包括不限于知识库存储与检索(RAG)、Agent的长短期记忆存储、对接多模型协作协议(如MCP/A2A)等新型交互机制。探索和落地模型压缩、量化、动态批处理、服务化框架优化(Triton/TorchServe等)等推理优化技术。负责搜索推荐算法工程后端系统的设计、开发和维护,保障系统稳定高效运行,实现高并发在线特征工程、模型推理服务集成和服务质量监控等核心模块。负责系统架构的设计、优化及核心模块的代码实现(Java为主)。与产品经理、算法工程师、前端工程师紧密协作,理解需求,设计技术方案并推动落地。负责系统的日常维护、监控、故障排查和性能调优。