阿里云阿里云智能-分布式推理系统研发专家-AI领域
任职要求
● 计算机、软件工程、人工智能相关专业硕士及以上学历。 ● 扎实的工程能力,优良的编程风格,熟悉Python/C++/Go等编程语言和常用设计模式,具备复杂分布式系统的设计开发调试能力。 ● 熟悉深度学习的基础理论概念,了解主流模型算法,能够熟练应用PyTorch、TensorFlow等框架。 ● 熟悉计算机体系结构基础知识,有扎实的推理引擎优化(vLLM、SGLang等)、调度/网络/存储等方面分布式系统开发、模型算法优化(量化/稀疏等)、高性能Kernel开发(CUDA/Triton/ROCM等)等方面的经验。 ● 熟悉PD分离、跨机EP、请求调度等…
工作职责
● 为大语言模型和多模态模型设计和实现高效的分布式推理架构,支持多节点、多角色、多模型的异构复杂部署模式,以统一、可扩展的方式支持PD分离、多模态多模型分离等部署方式,以及灵活的配比、伸缩等能力。 ● 设计和实现智能的请求与模型调度能力,在高度动态的负载工况下以及多模态模型异构的子模型间做高效的调度,让分布式推理系统具备充分的动态性和适应能力,提升服务的整体效率和质量。 ● 对分布式和多模态推理引擎运行时进行深度优化,提升分布式推理的效率和稳定性:提升组件间协调的效率,降低请求延迟、提升服务吞吐;结合各类推理引擎层面优化以及量化等算法方法提升多模态模型推理效率,同时保证模型效果;提升系统在高并发下的鲁棒性,确保极端负载下的稳定性和性能;引入容错机制、自动恢复和监控报警系统,保证系统的高可用性。 ● 为分布式推理实现高效、通用的数据平面,以统一的方式支持各类数据传输(如PD分离中的KV cache、多模态推理中的中间结果)和存储(KV cache storage)等需求。 ● 持续关注并跟进业界技术发展,尤其是超长上下文、COT思维链、多模态融合等方向;积极尝试和探索新的推理优化方向,提出并验证创新性的解决方案。
作为推理系统与引擎的研发和优化专家,将主导或参与面向Qwen等模型的真实业务工作负载的端到端推理性能分析与优化工作,具体职责包括但不限于: - 针对重点模型实际业务场景下的推理部署方案进行不同层级的性能验证,对典型负载特征进行深入分析建模,支撑模型演进、推理架构选型与资源规划; - 根据任务负载特点,对模型不同并行策略(如TP/DP/EP/PP/CP)进行深入分析,并结合分布式部署架构(PD/AF分离等),实现和验证不同层面技术的协同优化方案,提升端到端性能; - 分析和验证不同后端高性能Kernel在不同模型和负载下的性能表现,根据具体需求对关键算子运用各类优化手段进行定制化加速,提升硬件利用率; - 关注和探索前沿快速解码技术方法以及其它推理优化和加速技术,结合实际场景进行验证,并在推理系统与各类优化方案无缝集成,提供极致的用户体验; - 与周边工程、模型、系统、产品团队紧密协作,将优化成果落地到生产环境,并持续跟踪线上性能表现。
● 设计和实现高效的分布式推理架构,提升多节点、多GPU环境下的推理速度和资源利用率。开发智能的请求调度算法,确保高并发场景下的最优响应时间和吞吐量。对推理引擎的运行时环境进行深度优化,减少延迟,提高整体性能。针对多种异构AI加速硬件(如NVIDIA GPU, AMD GPU, NPU等),对核心算子进行极致性能优化,最大化算力和访存带宽利用率。 ● 探索并实现极低bit量化技术和稀疏化,减少模型存储和计算资源消耗,同时保持推理精度。探索更高效的解码算法,提升生成任务的推理速度。 ● 设计并实现能够处理大规模并发请求的系统架构,确保极端负载下的稳定性和性能。引入容错机制、自动恢复和监控报警系统,保证系统的高可用性和稳定性。构建灵活的系统架构,支持动态扩展,以应对未来业务增长和技术演进的需求。 ● 持续关注并跟进业界技术发展,尤其是超长上下文、COT思维链、多模态融合等方向。积极尝试和探索新的推理优化方向,提出并验证创新性的解决方案。
阿里云PAI团队致力于打造业界一流的一站式AI工程化平台,拥有万卡级训练能力与超大规模异构资源调度技术,为复杂模型训练与推理任务构建坚实基座。PAI平台不仅是通义大模型研发与落地的核心基础设施,也作为公共云服务的关键载体,支撑众多行企业构建大模型核心业务。平台提供从数据标注、预处理、模型训练、推理服务到开发环境与工作流调度的全链路工程支持,全面覆盖AI项目从实验探索到规模化落地的完整价值链。作为平台研发工程师,您将深度参与以下工作: 1. 负责大规模异构资源管理与模型训练服务的全流程开发,包括需求分析、架构设计、软件开发、质量保障与部署上线。 2. 持续开展系统模块的深度剖析与迭代优化,提升资源利用效率、任务成功率与启动速度,降低使用门槛,增强产品满意度与客户粘性。 3. 负责平台线上环境的实时监控、故障定位与性能调优,为客户提供及时的专业技术支持,保障平台服务的高可用与高稳定运行。 4. 紧密追踪大模型、AIGC等前沿技术趋势,洞察并提炼高价值用户需求,推动平台功能持续演进与技术架构升级。