logo of aliyun

阿里云阿里云智能-AI系统性能优化高级研发工程师-北京/杭州

社招全职技术类-开发地点:北京 | 杭州状态:招聘

任职要求


1. 熟悉深度学习框架(pytorch),分布式训练和推理技术框架(如deepseed、fsdp、megatron、vllm、sglang);
2. 熟悉AI系统的性能分析工具(如Nsigh…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责灵骏集群的AI系统性能分析与优化,支持客户多个AI作业场景在不同平台芯片和多种集群规模下的适配和性能调优,能快速且以工具/产品化方式识别性能瓶颈并提出解决方案;
2. 针对主流深度学习框架、分布式训练和模型部署场景等,进行性能调优,优化算子性能、通信性能、内存利用率等关键指标,提升集群整体运行效率;
3. 对AI系统进行性能建模与仿真,建立Roofline模型等性能分析工具。通过仿真结果辅助系统设计和资源分配,为集群建设提供数据支持;同时推荐最佳训练和模型部署配置,辅助用户拿到最佳性能实践;
4. 负责开发和维护性能分析工具,支持系统性能监控、瓶颈定位和优化效果评估,提供性能分析报告,为团队和客户提供性能优化建议。
包括英文材料
深度学习+
PyTorch+
Megatron+
还有更多 •••
相关职位

logo of xiaohongshu
社招3年以上机器学习平台

【业务介绍】 我们是小红书内稠密类模型(LLM/MLLM/SD/CV/NLP)统一的AI平台QuickSilver,负责调度公司内所有稠密类模型训练与推理资源,基于自建的训推引擎,为公司所有AI算法同学迭代业务模型提供端到端一站式AI服务;包括数据管理,模型管理,模型训练、压缩、推理、部署,服务管理,资源调度等一系列能力。 工作职责: 1、负责稠密类模型训练推理开发平台的架构设计和核心功能研发 2、设计和实现大模型训练部署流程,包括模型fine-tuning、推理服务化等 3、构建云原生架构,设计高可用、高性能的微服务体系 4、优化平台性能,提升系统稳定性和可扩展性

北京|上海|深圳
logo of xiaohongshu
社招3年以上机器学习平台

1、负责AI平台推理部署核心功能开发,包括服务管理、部署、发布等模块 2、设计并实现推理服务的自动化运维体系,包括监控、告警和运维工具 3、开发服务编排和调度系统,实现资源的高效分配和负载均衡 4、构建平台运维API和SDK,提供完整的服务生命周期管理能力 5、优化平台整体架构,提升系统可用性、扩展性和性能

北京|上海|深圳
logo of aliyun
社招5年以上云智能集团

我们正在寻找一位充满激情、经验丰富的高级技术专家,加入我们的创新团队,共同面对并解决在Serverless GPU和AI应用平台领域中的挑战性问题。 1.负责Serverless计算及AI应用托管平台的架构设计与持续优化。包括异步事件处理、GPU资源调度与弹性伸缩,AI 应用和模型托管等核心功能的设计。保障系统的高可用性、可扩展性和安全性。 2.理解业务战略及重点,并进行相应的技术架构规划并推动落地。能够为开发团队提供专业的技术指导和支持。推动分布式系统、AI应用托管等领域的知识共享和技术创新。 3.深入分析系统性能瓶颈,实施有效的优化策略,提高系统响应速度和资源使用效率。 4.加强与产品、开发、运维等部门的合作,确保技术方案的有效实施,克服项目推进中的各种障碍。 5.为关键客户提供技术支持,针对使用Serverless平台过程中出现的难题给予及时有效的解决方案,维护良好的产品体验。

更新于 2025-09-09北京|杭州
logo of antgroup
社招5年以上技术-综合

1. 技术团队建设与管理 (1)负责L2/PFE(Premier Field Engineer)技术工程师团队的搭建、能力培养及梯队建设,制定技术标准与协作流程;配合CSM(客户成功经理)及技术支持(Support Center)团队,快速、专业地解决客户技术问题,保障客户满意度; (2)管理派驻客户区域的PFE工程师团队,优化全球技术服务响应机制、保障团队管理与服务响应效率; 2. 复杂问题攻关与升级支持 (1)作为服务团队内部的技术问题兜底责任人,主导客户复杂技术问题(含TAM/CSM团队升级问题)的诊断与解决,覆盖领域包括但不限于: (2)移动端开发(Android/iOS/mPaaS/H5应用开发、性能优化、疑难故障排查); (3)金融风控系统(决策引擎、全球实人认证、反欺诈技术等); (4)AI PaaS相关架构与平台; (5)沉淀技术解决方案,建立知识库并推动产品技术的持续迭代优化; 3. 全球客户现场技术赋能 (1)能主导高价值客户的现场技术护航,提供架构优化、故障根因分析、技术风险防控等深度服务; (2)面向全球客户(含跨国企业),完成流畅的英语技术沟通支持及文档交付; 4. 技术能力体系化建设 (1)推进技术培训体系,提升一线支持团队(L1/L2)及TAM团队的技术能力; (2)联合产品与研发团队,推动技术服务的标准化与系统化赋能。

更新于 2025-05-12北京|上海|杭州