阿里云阿里云智能-深度学习推理系统研发专家-AI领域
任职要求
基本要求: - 计算机相关专业本科及以上学历,5年以上AI基础设施、系统软件或高性能计算相关工作经验; - 扎实的C++/Python编程能力,熟悉Linux开发环境,熟悉Pytorch等深度学习框架的使用,掌握各类CPU/GPU/网络性能分析工具的使用; - 深入理解现代GPU架构(如NVIDIA Hopper/Blackwell)及CUDA编程模型,具备高性能Kernel分析能力; - 熟悉主流大语言模型推理引擎(如vLLM/SGLang)的架构、实现原理、执行流程以及代码细节; - 对Transformer类语言模型结构、KV Cache机制、各类Attention计算机制等有深入理解; - 理解不同并行策略及相关高性能通信库(如NCCL、NVSHMEM、DeepEP)的适用场景、基本功能、实现原理和性能表现; - 能够结合工作负载特征和…
工作职责
作为推理系统与引擎的研发和优化专家,将主导或参与面向Qwen等模型的真实业务工作负载的端到端推理性能分析与优化工作,具体职责包括但不限于: - 针对重点模型实际业务场景下的推理部署方案进行不同层级的性能验证,对典型负载特征进行深入分析建模,支撑模型演进、推理架构选型与资源规划; - 根据任务负载特点,对模型不同并行策略(如TP/DP/EP/PP/CP)进行深入分析,并结合分布式部署架构(PD/AF分离等),实现和验证不同层面技术的协同优化方案,提升端到端性能; - 分析和验证不同后端高性能Kernel在不同模型和负载下的性能表现,根据具体需求对关键算子运用各类优化手段进行定制化加速,提升硬件利用率; - 关注和探索前沿快速解码技术方法以及其它推理优化和加速技术,结合实际场景进行验证,并在推理系统与各类优化方案无缝集成,提供极致的用户体验; - 与周边工程、模型、系统、产品团队紧密协作,将优化成果落地到生产环境,并持续跟踪线上性能表现。
● 设计和实现高效的分布式推理架构,提升多节点、多GPU环境下的推理速度和资源利用率。开发智能的请求调度算法,确保高并发场景下的最优响应时间和吞吐量。对推理引擎的运行时环境进行深度优化,减少延迟,提高整体性能。针对多种异构AI加速硬件(如NVIDIA GPU, AMD GPU, NPU等),对核心算子进行极致性能优化,最大化算力和访存带宽利用率。 ● 探索并实现极低bit量化技术和稀疏化,减少模型存储和计算资源消耗,同时保持推理精度。探索更高效的解码算法,提升生成任务的推理速度。 ● 设计并实现能够处理大规模并发请求的系统架构,确保极端负载下的稳定性和性能。引入容错机制、自动恢复和监控报警系统,保证系统的高可用性和稳定性。构建灵活的系统架构,支持动态扩展,以应对未来业务增长和技术演进的需求。 ● 持续关注并跟进业界技术发展,尤其是超长上下文、COT思维链、多模态融合等方向。积极尝试和探索新的推理优化方向,提出并验证创新性的解决方案。
1、参与设计和实现推理引擎SDK,提升推理性能、易用性和产品稳定性。(Design and develop inference engine。Focusing on performance、usability and product robustness) 2、参与设计和实现推理引擎的AI编译。包括图融合、各类图优化、算子优化以及自动化调优等(Design and develop AI Compiling。including fusion,graph optimizations、kernel optimization and auto-tuning) 3、参与设计和实现推理引擎的运行时系统。包括内存管理以及资源管理等等。实现高效和稳定的稳定性。(Design and develop runtime system,including memory management and resource management) 4、参与设计和实现大模型的推理优化。基于推理引擎,研发和应用大模型推理优化的技术(Design and optimize LLM inference。Based on inference engine,develop and apply core technology for LLM inference)
1、参与设计和实现推理引擎SDK,提升推理性能、易用性和产品稳定性。(Design and develop inference engine。Focusing on performance、usability and product robustness) 2、参与设计和实现推理引擎的AI编译。包括图融合、各类图优化、算子优化以及自动化调优等(Design and develop AI Compiling。including fusion,graph optimizations、kernel optimization and auto-tuning) 3、参与设计和实现推理引擎的运行时系统。包括内存管理以及资源管理等等。实现高效和稳定的稳定性。(Design and develop runtime system,including memory management and resource management) 4、参与设计和实现大模型的推理优化。基于推理引擎,研发和应用大模型推理优化的技术(Design and optimize LLM inference。Based on inference engine,develop and apply core technology for LLM inference)
阿里云PAI团队致力于打造业界一流的一站式AI工程化平台,拥有万卡级训练能力与超大规模异构资源调度技术,为复杂模型训练与推理任务构建坚实基座。PAI平台不仅是通义大模型研发与落地的核心基础设施,也作为公共云服务的关键载体,支撑众多行企业构建大模型核心业务。平台提供从数据标注、预处理、模型训练、推理服务到开发环境与工作流调度的全链路工程支持,全面覆盖AI项目从实验探索到规模化落地的完整价值链。作为平台研发工程师,您将深度参与以下工作: 1. 负责大规模异构资源管理与模型训练服务的全流程开发,包括需求分析、架构设计、软件开发、质量保障与部署上线。 2. 持续开展系统模块的深度剖析与迭代优化,提升资源利用效率、任务成功率与启动速度,降低使用门槛,增强产品满意度与客户粘性。 3. 负责平台线上环境的实时监控、故障定位与性能调优,为客户提供及时的专业技术支持,保障平台服务的高可用与高稳定运行。 4. 紧密追踪大模型、AIGC等前沿技术趋势,洞察并提炼高价值用户需求,推动平台功能持续演进与技术架构升级。