logo of aligenie

智能互联阿里云智能-AI加速计算产品技术专家-杭州/上海

社招全职5年以上地点:杭州 | 上海状态:招聘

任职要求


1. 计算机科学、电子工程、通信工程、电气工程等相关专业背景;熟悉PythonShellC/C++等开发语言,拥有5年及以上相关工作经验;
2. 深入理解GPU芯片架构及服务器架构,熟悉PCIe规范、Linux内核、KVM虚拟化技术,并对GPU驱动、系统性能分析及其优化有丰富经验;
…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 依据公共云统一架构、OpenAPI规范、软件技术栈以及交付运维体系,负责公共云异构计算产品的研发与交付。深度参与研发流程,确保产品从研发到运维的全生命周期高效管理;
2. 跟踪和了解新的异构计算产品技术和趋势,探索前沿的GPU架构设计与技术,理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地;
3. 联合网络团队共同设计网络互联架构,针对分布式训练和推理业务场景,在软硬件协同及高性能网络方向上寻找性能优化的新途径,构建阿里云加速计算云服务器的核心竞争力;
4. 研发并持续改进系统的稳定性和安全性,制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,提高产品稳定性和性能确保平台的安全可靠运行,并不断提升对外服务质量标准。
包括英文材料
Python+
Bash+
C+
C+++
还有更多 •••
相关职位

logo of aliyun
社招5年以上云智能集团

1. 依据公共云统一架构、OpenAPI规范、软件技术栈以及交付运维体系,负责公共云异构计算产品的研发与交付。深度参与研发流程,确保产品从研发到运维的全生命周期高效管理; 2. 跟踪和了解新的异构计算产品技术和趋势,探索前沿的GPU架构设计与技术,理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地; 3. 联合网络团队共同设计网络互联架构,针对分布式训练和推理业务场景,在软硬件协同及高性能网络方向上寻找性能优化的新途径,构建阿里云加速计算云服务器的核心竞争力; 4. 研发并持续改进系统的稳定性和安全性,制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,提高产品稳定性和性能确保平台的安全可靠运行,并不断提升对外服务质量标准。

更新于 2026-04-01杭州|上海
logo of aliyun
社招5年以上技术类-开发

1. 参与kuberGPU软件产品的设计与研发,包括kuberGPU软件的迭代研发,性能评估及优化,兼容性提升,新GPU的适配等。 2. 负责kuberGPU在云上的落地,包括与相关团队沟通和协调对接和部署工作,以及针对专属云做对应的kuberGPU软件的适配工作。 3. 保障kuberGPU产品在云上的的稳定性,包括定位和分析上线后遇到的问题,及时进行故障排查和修复。 4. 针对客户的需求和未来业内技术趋势,为业务方提供新的技术支持和建议,并作出高可用、高可靠、高拓展性的技术架构规划和落地。

更新于 2025-06-18北京|杭州|上海
logo of aliyun
社招5年以上云智能集团

1. 依据公共云统一架构、OpenAPI规范、软件技术栈以及交付运维体系,负责专属云产品的研发与交付。深度参与灵骏裸金属服务器及EGS云计算服务器的研发流程,包括硬件架构预研、方案设计、软硬件结合的系统优化、线上服务质量保证以及提供专家技术支持等关键环节,确保产品从研发到运维的全生命周期高效管理。 2. 跟踪并把握GPU架构设计的发展趋势,探索前沿的GPU架构设计技术。联合高性能网络团队共同设计网络互联架构,针对分布式训练和推理业务场景,在软硬件协同及高性能网络方向上寻找性能优化的新途径,构建阿里云加速计算云服务器的核心竞争力。 3. 研发并持续改进系统的稳定性和安全性,确保平台的安全可靠运行,并不断提升对外服务质量标准。

更新于 2025-11-09杭州|上海
logo of aliyun
社招2年以上云智能集团

1、负责政企客户的大模型需求收集、分析,设计服务解决方案,通过SOP的把控,端到端的把控项目风险和履约落地。 2、负责政企客户的大模型项目专家技术支持,包括但不限于模型调优、Prompt工程、工作流、RAG、AI agent。 3、负责阿里云 AIStudio、AIWorks等平台的企业级客户的专家服务,持续推动客户做好标准化大模型迁云、云上优化,并根据现场问题持续反馈推进产品改进。 4、深入大模型和客户业务的结合,沉淀孵化大模型服务解决方案,制定服务差异化竞争策略,助力客户在大模型应用上取得成功。

更新于 2025-08-19北京|深圳|杭州