logo of aliyun

阿里云阿里云智能-模型性能优化专家-PAI

社招全职5年以上云智能集团地点:北京 | 杭州 | 上海状态:招聘

任职要求


必备条件:
● 熟悉至少一种主流深度学习框架(PyTorchTensorFlowJAX、DeepSpeed、Megatron 等);
● 熟练掌握 C++ / Python,具备良好的工程实现能力;
● 有 GPU(CUDA、cuDNN、NCCL)或 AI 加速芯片(Ascend、Habana、AMD ROCm 等)性能优化经验;
● 熟悉分布式训练框架与通信原理(如 Ring AllReduce、Horovod、DeepSpeed、Megatron-LM 等);
● 对性能 profiling 工具有实践经验(nsys、nvprofperf、torch.profiler 等),能够定位性能瓶颈…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


你将加入PAI平台团队,负责面向各类AI应用场景的模型训练与推理性能优化工作。该岗位聚焦于AI计算性能与系统效率的极致提升,以多层次优化手段,持续提升模型训练与推理的速度、稳定性与资源利用率,具体工作内容包含但不限于:
● 分析客户模型在不同硬件(GPU、NPU、CPU 等)和集群环境中的性能瓶颈,制定优化方案;
● 对主流深度学习框架(如 PyTorch、TensorFlow、JAX 等)进行算子、内核或图优化;
● 深入理解分布式训练架构(如数据并行、模型并行、流水并行等),优化通信与调度性能;
● 在推理端负责模型性能瓶颈分析,并进行量化、剪枝、融合、TensorRT/ONNX Runtime 等优化;
● 与平台团队协作,优化训练任务调度、算力利用、容器化运行效率以及多租户资源隔离;
● 支持重点客户模型性能调优,提供端到端性能优化方案与技术支持。
包括英文材料
深度学习+
PyTorch+
TensorFlow+
JAX+
C+++
Python+
CUDA+
NCCL+
NVIDIA Visual Profiler+
Perf+
还有更多 •••
相关职位

logo of aliyun
社招5年以上云智能集团

1. 参与模型服务平台的整体架构设计与核心开发工作,主导大模型多机分布式推理系统的研发与优化,以高效支撑日益增长的业务需求和产品迭代; 2. 负责解决大模型推理过程中高并发场景下的关键技术问题,包括但不限于负载均衡、请求调度、多机组网通信、系统容错机制、KV Cache 高效管理等; 3. 推动模型服务平台的产品化建设,主导或参与大模型分发系统、LLM推理引擎、请求调度系统等核心模块的设计与开发; 4. 负责大规模GPU集群的稳定性与性能优化,构建完善的可观测性系统,提升平台安全性与可靠性,推进资源调度系统的智能化升级; 5. 根据用户反馈快速定位并解决线上问题,深入分析业务需求,将高频使用场景沉淀为平台通用能力,持续提升平台的易用性与功能性。

更新于 2025-09-10北京|杭州
logo of aliyun
社招3年以上云智能集团

● 设计和实现高效的分布式推理架构,提升多节点、多GPU环境下的推理速度和资源利用率。开发智能的请求调度算法,确保高并发场景下的最优响应时间和吞吐量。对推理引擎的运行时环境进行深度优化,减少延迟,提高整体性能。针对多种异构AI加速硬件(如NVIDIA GPU, AMD GPU, NPU等),对核心算子进行极致性能优化,最大化算力和访存带宽利用率。 ● 探索并实现极低bit量化技术和稀疏化,减少模型存储和计算资源消耗,同时保持推理精度。探索更高效的解码算法,提升生成任务的推理速度。 ● 设计并实现能够处理大规模并发请求的系统架构,确保极端负载下的稳定性和性能。引入容错机制、自动恢复和监控报警系统,保证系统的高可用性和稳定性。构建灵活的系统架构,支持动态扩展,以应对未来业务增长和技术演进的需求。 ● 持续关注并跟进业界技术发展,尤其是超长上下文、COT思维链、多模态融合等方向。积极尝试和探索新的推理优化方向,提出并验证创新性的解决方案。

更新于 2025-09-10北京|杭州|上海
logo of aliyun
社招5年以上云智能集团

1、深入理解客户业务需求,帮助客户选择适合其业务场景的技术路径和产品组合,利用AI技术知识、架构方法、咨询技能来影响客户技术决策 2、熟悉大模型算法工程化,与客户合作进行模型训练、推理和模型应用等POC,含展示功能、调整模型、优化模型性能、测试分析、Agent搭建、模型调用等内容 3、依据客户需求和技术研判,推动产研部门持续优化产品,助力提升产品竞争力,同时沉淀最佳实践,以及脚本、模板、参考架构等可复用的技术资产 4、持续跟踪行业动态和技术趋势,并与产品团队协作,打造创新的人工智能(大模型、智算、一体机等)解决方案 5、支持市场活动,作为领域专家参与市场洞察、行业标准、市场排名报告、白皮书撰写等活动,并在行业峰会、技术沙龙等市场活动中进行技术传播和分享

更新于 2025-07-27北京
logo of aliyun
社招5年以上云智能行业解决方

1、深入理解客户业务需求,帮助客户选择适合其业务场景的技术路径和产品组合,利用AI技术知识、架构方法、咨询技能来影响客户技术决策 2、与客户合作进行模型训练、推理和模型应用等POC,含展示功能、调整模型、优化模型性能、测试分析、Agent搭建、模型调用等内容 3、依据客户需求和技术研判,推动产研部门持续优化产品,助力提升产品竞争力,同时沉淀最佳实践,以及脚本、模板、参考架构等可复用的技术资产 4、持续跟踪行业动态和技术趋势,并与产品团队协作,打造创新的人工智能(大模型、智算、一体机等)解决方案 5、支持市场活动,作为领域专家参与市场洞察、行业标准、市场排名报告、白皮书撰写等活动,并在行业峰会、技术沙龙等市场活动中进行技术传播和分享

更新于 2025-06-16北京|杭州|上海