荣耀AI平台/性能优化专家
任职要求
1、毕业于计算机科学、机器学习、统计学、应用数学等专业领域;有5年以上AI领域经验,3年以上模型压缩相关经验, 2、熟悉分布式训推框架(TensorFlow/PyTorch),理解大模型技术栈(如LLM、Transformer、多模态),具备并行推理等经验; 3、熟悉…
工作职责
1、算法优化:负责AI算法在CPU/GPU/NPU等处理器上的性能,内存,和功耗的优化方案设计和验证;负责持续跟踪业界的模型压缩方案,超越并创新。 2、系统平台:负责AI相关芯片平台的软硬件能力识别,包括常见芯片厂商不同平台的迭代跟踪。能够针对平台特点,对CNN/Transformer等模型的部署进行评估。
你将加入PAI平台团队,负责面向各类AI应用场景的模型训练与推理性能优化工作。该岗位聚焦于AI计算性能与系统效率的极致提升,以多层次优化手段,持续提升模型训练与推理的速度、稳定性与资源利用率,具体工作内容包含但不限于: ● 分析客户模型在不同硬件(GPU、NPU、CPU 等)和集群环境中的性能瓶颈,制定优化方案; ● 对主流深度学习框架(如 PyTorch、TensorFlow、JAX 等)进行算子、内核或图优化; ● 深入理解分布式训练架构(如数据并行、模型并行、流水并行等),优化通信与调度性能; ● 在推理端负责模型性能瓶颈分析,并进行量化、剪枝、融合、TensorRT/ONNX Runtime 等优化; ● 与平台团队协作,优化训练任务调度、算力利用、容器化运行效率以及多租户资源隔离; ● 支持重点客户模型性能调优,提供端到端性能优化方案与技术支持。
1.在各类GPU(Nvidia/AMD gpu,昇腾NPU等)上测试常见开源模型,评估硬件的功能及性能; 2.分析模型训练或推理的性能瓶颈,提升硬件资源利用率; 3.优化算子,提升模型在GPU上的运行效率; 4.优化多机多卡的网络性能; 5.与相关团队合作,提高对外售卖的GPU资源的产品力,比如AI开发平台,GPU高性能计算集群等。
Steam 部门设立于2025年1月,正如蒸汽机(Steam Engine)在工业革命 1.0 中所象征的创新开端,我们也希望以此之名,积极探索云与 AI 结合的产品方向。 在当前大模型能力日新月异的情况下,唯有坚持自己的核心价值主张和对未来的判断,且面向半年至一年后的大模型能力打造应用产品,才有一战的可能。对于大模型领域的未来进展,我们相信: 1) 大模型的智商会快速接近乃至与人类齐平; 2) 大模型的多模态理解能力,特别是视觉能力将得到长足发展; 3) 在1和2前提下,信息处理类工作将最终被 AI 接管,大量替代真人员工。 对于阿里云如何做到云+ AI,我们认为"云的最大客户会是 AI",我们的行动路径是让更多现实世界的工作量从“人类脑力劳动”转移到“云端 AI 消耗的计算资源”。 在这些认知下,我们确定了“高效完成重复任务,完整替代人类工作”的产品目标,如果你也相信这个未来,欢迎上船。 1、负责整个AI Agent平台面向C端用户功能的架构设计、技术选型和长期演进路线规划,确保架构的前瞻性、健壮性和可扩展性; 2、设计、实现并持续优化AI Agent平台的核心架构模块: •大规模弹性计算调度系模块:为平台提供一套能够管理海量Agent Runtime(容器/VM/Serverless)的计算资源调度框架,确保低时延、高效调度、安全隔离且成本可控。 •外部服务管理模块: 针对Agent对海量外部API的调用,构建一套稳定高效的接入和调度体系,包括智能API网关、可用性检查、弹性伸缩和全链路流量控制,确保该能力的稳定性不被第三方服务影响。 3、稳定性与SRE建设: 建立并领导平台的稳定性保障体系。推动全链路可观测性建设、容量规划和故障演练,将系统可用性提升至业界顶尖水平; 4、性能与成本优化: 深入分析系统瓶颈,主导性能优化项目。同时,建立准确的成本度量机制并持续优化平台成本,持续推动平台性能的提升和成本的下降; 5、参与AI Agent平台其他部分功能的架构设计与评审。