logo of aligenie

智能互联阿里云智能-深度学习推理系统研发专家-AI领域

社招全职5年以上地点:北京状态:招聘

任职要求


基本要求:
- 计算机相关专业本科及以上学历,5年以上AI基础设施、系统软件或高性能计算相关工作经验;
- 扎实的C++/Python编程能力,熟悉Linux开发环境,熟悉Pytorch深度学习框架的使用,掌握各类CPU/GPU/网络性能分析工具的使用;
- 深入理解现代GPU架构(如NVIDIA Hopper/Blackwell)及CUDA编程模型,具备高性能Kernel分析能力;
- 熟悉主流大语言模型推理引擎(如vLLM/SGLang)的架构、实现原理、执行流程以及代码细节;
- 对Transformer类语言模型结构、KV Cache机制、各类Attention计算机制等有深入理解;
- 理解不同并行策略及相关高性能通信库(如NCCL、NVSHMEM、DeepEP)的适用场景、基本功能、实现原理和性能表现;
- 能够结合工作负载特征和…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


作为推理系统与引擎的研发和优化专家,将主导或参与面向Qwen等模型的真实业务工作负载的端到端推理性能分析与优化工作,具体职责包括但不限于:
- 针对重点模型实际业务场景下的推理部署方案进行不同层级的性能验证,对典型负载特征进行深入分析建模,支撑模型演进、推理架构选型与资源规划;
- 根据任务负载特点,对模型不同并行策略(如TP/DP/EP/PP/CP)进行深入分析,并结合分布式部署架构(PD/AF分离等),实现和验证不同层面技术的协同优化方案,提升端到端性能;
- 分析和验证不同后端高性能Kernel在不同模型和负载下的性能表现,根据具体需求对关键算子运用各类优化手段进行定制化加速,提升硬件利用率;
- 关注和探索前沿快速解码技术方法以及其它推理优化和加速技术,结合实际场景进行验证,并在推理系统与各类优化方案无缝集成,提供极致的用户体验;
- 与周边工程、模型、系统、产品团队紧密协作,将优化成果落地到生产环境,并持续跟踪线上性能表现。
包括英文材料
学历+
C+++
Python+
Linux+
PyTorch+
深度学习+
CUDA+
内核+
还有更多 •••
相关职位

logo of aliyun
社招3年以上云智能集团

● 设计和实现高效的分布式推理架构,提升多节点、多GPU环境下的推理速度和资源利用率。开发智能的请求调度算法,确保高并发场景下的最优响应时间和吞吐量。对推理引擎的运行时环境进行深度优化,减少延迟,提高整体性能。针对多种异构AI加速硬件(如NVIDIA GPU, AMD GPU, NPU等),对核心算子进行极致性能优化,最大化算力和访存带宽利用率。 ● 探索并实现极低bit量化技术和稀疏化,减少模型存储和计算资源消耗,同时保持推理精度。探索更高效的解码算法,提升生成任务的推理速度。 ● 设计并实现能够处理大规模并发请求的系统架构,确保极端负载下的稳定性和性能。引入容错机制、自动恢复和监控报警系统,保证系统的高可用性和稳定性。构建灵活的系统架构,支持动态扩展,以应对未来业务增长和技术演进的需求。 ● 持续关注并跟进业界技术发展,尤其是超长上下文、COT思维链、多模态融合等方向。积极尝试和探索新的推理优化方向,提出并验证创新性的解决方案。

更新于 2025-09-10北京|杭州|上海
logo of aliyun
社招5年以上云智能集团

1. 依据公共云统一架构、OpenAPI规范、软件技术栈以及交付运维体系,负责专属云产品的研发与交付。深度参与灵骏裸金属服务器及EGS云计算服务器的研发流程,包括硬件架构预研、方案设计、软硬件结合的系统优化、线上服务质量保证以及提供专家技术支持等关键环节,确保产品从研发到运维的全生命周期高效管理。 2. 跟踪并把握GPU架构设计的发展趋势,探索前沿的GPU架构设计技术。联合高性能网络团队共同设计网络互联架构,针对分布式训练和推理业务场景,在软硬件协同及高性能网络方向上寻找性能优化的新途径,构建阿里云加速计算云服务器的核心竞争力。 3. 研发并持续改进系统的稳定性和安全性,确保平台的安全可靠运行,并不断提升对外服务质量标准。

更新于 2025-11-09杭州|上海
logo of aliyun
社招5年以上云智能集团

1. 负责研发AI类算法的计算性能优化能力,解决大模型等情境的算力和访存瓶颈,提升AI模型在GPU、AI加速器等硬件上部署性能和效率,推动大模型普惠应用和高性价比的竞争力; 2. 负责研发业界SOTA的计算性能优化算法创新和工程落地,增强技术壁垒,并在云的商业业务中产生核心价值; 3. 负责高性能AI基础设施的构建,基于软硬结合的计算性能优化能力,在AI类业务场景尤其是大模型场景下,通过结合模型算法和硬件来充分挖掘软硬协同的组合优化潜力,实现单一领域无法达到的优化边界和收益,带来高价值的性能和成本优势。

更新于 2025-08-22杭州
logo of aliyun
社招3年以上云智能集团

● 设计和实现高效的训练推理框架,提升多节点、多GPU环境下特别是异构算力场景下的计算效率。具备良好的工程实践和算法理论基础,熟悉底层的硬件编程和常见GPU的算子库开发,能对算法的运行效率如速度、显存占用等进行优化,推动算法稳定、高效的运行。 ● 完善优化训练推理框架,针对市面上的国产信创卡能提出统一的优化方案,并推进在底层的通信效率、资源占用、稳定性方面持续建设。 ● 设计并实现能够处理大规模并发请求的系统架构,确保极端负载下的稳定性和性能。完善错误自愈机制,提升平台训练的MFU,打造行业内一流的异构算力混训混推GPU框架。 ● 技术方案设计:主导核心模块技术方案设计与评审,结合业务需求与系统现状,制定可落地的架构规划。 ● 基础服务开发:构建高可用、可扩展的基础服务组件,支持训练/推理框架的快速迭代与稳定部署。 ● 项目管理:主导跨团队协作项目的全生命周期管理,包括需求拆解、排期规划、进度跟踪与风险控制,确保项目高效交付。 ● 持续关注并跟进业界技术发展,比如超长上下文、端到端推理思维链、多模态等方向。

更新于 2025-07-14北京|杭州