logo of aliyun

阿里云阿里云智能-AI加速计算产品技术专家-杭州/上海

社招全职5年以上云智能集团地点:杭州 | 上海状态:招聘

任职要求


1. 计算机科学、电子工程、通信工程、电气工程等相关专业背景;熟悉PythonShellC/C++等开发语言,拥有5年及以上相关工作经验;
2. 深入理解GPU芯片架构及服务器架构,熟悉PCIe规范、Linux内核、KVM虚拟化技术,并对GPU驱动、系统性能分析及其优化有丰富经验;
…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 依据公共云统一架构、OpenAPI规范、软件技术栈以及交付运维体系,负责公共云异构计算产品的研发与交付。深度参与研发流程,确保产品从研发到运维的全生命周期高效管理;
2. 跟踪和了解新的异构计算产品技术和趋势,探索前沿的GPU架构设计与技术,理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地;
3. 联合网络团队共同设计网络互联架构,针对分布式训练和推理业务场景,在软硬件协同及高性能网络方向上寻找性能优化的新途径,构建阿里云加速计算云服务器的核心竞争力;
4. 研发并持续改进系统的稳定性和安全性,制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,提高产品稳定性和性能确保平台的安全可靠运行,并不断提升对外服务质量标准。
包括英文材料
Python+
Bash+
C+
C+++
还有更多 •••
相关职位

logo of aliyun
社招5年以上云智能集团

1. 依据公共云统一架构、OpenAPI规范、软件技术栈以及交付运维体系,负责专属云产品的研发与交付。深度参与灵骏裸金属服务器及EGS云计算服务器的研发流程,包括硬件架构预研、方案设计、软硬件结合的系统优化、线上服务质量保证以及提供专家技术支持等关键环节,确保产品从研发到运维的全生命周期高效管理。 2. 跟踪并把握GPU架构设计的发展趋势,探索前沿的GPU架构设计技术。联合高性能网络团队共同设计网络互联架构,针对分布式训练和推理业务场景,在软硬件协同及高性能网络方向上寻找性能优化的新途径,构建阿里云加速计算云服务器的核心竞争力。 3. 研发并持续改进系统的稳定性和安全性,确保平台的安全可靠运行,并不断提升对外服务质量标准。

更新于 2025-11-09杭州|上海
logo of aliyun
社招5年以上技术类-开发

1. 参与kuberGPU软件产品的设计与研发,包括kuberGPU软件的迭代研发,性能评估及优化,兼容性提升,新GPU的适配等。 2. 负责kuberGPU在云上的落地,包括与相关团队沟通和协调对接和部署工作,以及针对专属云做对应的kuberGPU软件的适配工作。 3. 保障kuberGPU产品在云上的的稳定性,包括定位和分析上线后遇到的问题,及时进行故障排查和修复。 4. 针对客户的需求和未来业内技术趋势,为业务方提供新的技术支持和建议,并作出高可用、高可靠、高拓展性的技术架构规划和落地。

更新于 2025-06-18北京|杭州|上海
logo of aliyun
社招3年以上云智能集团

1. 根据阿里云AI战略发展方向,结合人工智能技术演进与行业变革趋势,前瞻性地识别并开拓重点目标客户在大模型、智能计算等领域的业务机会; 2. 能够深入调研客户业务场景,敏锐捕捉行业中的应用痛点与创新潜力,结合阿里云产品及技术优势,促进客户需求与云产品的有效结合,提供立体、专业的咨询及服务,帮助客户成功,并沉淀行业解决方案; 3. 与客户或合作伙伴进行重点项目对接,能向客户高层解析阿里云AI优势,向业务高管呈现具有说服力的AI投资回报率(ROI)分析,加速商机转化; 4. 善于整合技术、生态与商业资源,攻克AI落地中的关键挑战,与客户技术决策层及生态合作伙伴建立深度信任关系,沉淀可复用的行业解决方案与最佳实践,为阿里云AI战略的长期发展储备关键客户与技术资产。

更新于 2025-11-07杭州|上海
logo of aliyun
社招3年以上云智能集团

1. 训练加速系统设计与优化 1) 主导千亿参数大模型的分布式训练架构设计,优化通信效率,突破显存与计算瓶颈。 2) 研发长序列训练加速技术,支持百万级上下文窗口训练,降低计算复杂度与内存占用。 3) 设计混合精度训练方案(FP16/FP8)与梯度累积策略,结合模型并行、流水线并行等技术,提升训练吞吐量 30% 以上。 2. 推理系统优化与工程化落地 1) 构建高性能推理引擎,基于 vLLM、TensorRT-LLM 等框架实现多模态模型的分布式推理,支持 MoE 架构与动态专家激活策略。 2) 研发模型压缩技术(量化、剪枝、LoRA),将端到端延迟降低,同时保持模型精度损失 3. 基础设施全流程优化 1) 优化训练与推理的 I/O 性能,通过异步并发、缓存预取等技术减少数据加载耗时。 2) 设计训练 - 推理一体化监控平台,实时追踪模型性能指标(如训练 loss 波动、推理 QPS),实现异常自动告警与弹性扩缩容。

更新于 2025-09-18杭州|上海