logo of aliyun

阿里云阿里云智能-智算全栈系统优化专家-杭州

社招全职5年以上云智能集团地点:杭州状态:招聘

任职要求


1、5年以上系统性能相关经验,有AI领域性能调优经验者优先。
2、深入掌握Kubernetes、containerd、CRI-O等容器生态技术,了解安全容器的技术思路及相关实现;熟悉Linux内核(如Cgroups、Namespace、eBPF)及系统级资源隔离技术;熟练使用性能分析工具(如perf、bcc、Prometheus、Jaeger、火焰图)定位云原生系统的性能瓶颈。
3、精通PyTor…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


该岗位将承担智算底层系统性能优化、全栈协同性能优化两个方向的职责。
1、主导AI领域下阿里云云原生多租底层系统的性能瓶颈分析及优化设计,提升底层系统弹性、性能及成本竞争力。
2、优化AI应用场景安全容器运行时、虚拟化、linux内核等核心组件性能。
3、设计高并发、低延迟的云原生底层系统架构,支持AI场景节点pod极速弹缩及系统稳定性。
4、在云原生底层(操作系统内核、容器运行时、CRI-O等)和AI工作负载间建立性能优化协同框架,支撑大模型训练、分布式推理等AI应用在安全容器运行环境中保持性能竞争力。
5、优化AI模型在安全容器环境下的部署、分发、加载效率,支持AI应用极速启动。
6、设计并开发定制化监控和诊断工具链,实时分析云原生AI场景的GPU、CPU、内存、网络、存储性能瓶颈及热路径。
包括英文材料
性能调优+
Kubernetes+
CRI-O+
Linux+
内核+
eBPF+
Perf+
还有更多 •••
相关职位

logo of deepseek
社招AGI

工作描述 我们相信技术是互通的,对系统设计美感的追求最终也能收束统一。设计开发高吞吐的弹性可伸缩的深度学习大模型应用;持续迭代公司分布式高性能智算平台界面,优化产品用户体验;构建分布式高性能计算、虚拟化、网络、等基础设施;等等工作,在性能、可靠性、易用性、可维护性上更高的追求是一致的,在设计理念上也殊途同归。 我们鼓励自下而上推动进步的模式,希望你是某个领域的专家,能以独特经验和独到观点,从不同维度优化系统,具有开阔的架构视野,能够灵活地选择合适的技术来构建系统。也希望你能认同我们开放共进的企业文化,积极创新,乐于挑战,相信你也不畏挑战,无惧改变,与研究人员一同探索策略研究和实现的最佳方案。

更新于 2025-04-25杭州
logo of aliyun
社招5年以上技术类-开发

阿里云专有云是面向政企行业客户的全栈云平台,为企业级客户(政府、金融、部委、央企等行业)提供产品和服务。该岗位主要负责专有云智算平台架构规划、系统设计及核心技术研发。核心职责包括: 1、主导智算平台的全栈架构设计。针对不同平台芯片/不同集群规模做整体方案设计,满足千卡/万卡集群高并发、低延迟、弹性可扩展等需求。 2、性能及稳定性优化,提升集群运行效率,不断提升技术竞争力。 3、跟踪前沿技术趋势,推动新技术落地应用。参与行业标准制定。

更新于 2025-05-22成都|北京|深圳
logo of baidu
社招ACG

-负责建设业界领先的AI异构算力容器平台,提供高性能、高稳定性、高易用性的混合云产品,支持AIGC、智算中心、智驾、金融能源等客户AI应用高效部署 -负责云原生AI容器相关产品的架构设计和产品研发,引入开源社区先进的AI框架、AI调度、AI工作流和AI可观测能力组件构建全栈AI应用云原生解决方案 -结合 SOTA 模型训练推理优化原理,深入模型结构与设计思路,将训练推理优化手段工程实践化,为客户提供系统性加速方案,提升训推效率 -针对大规模异构集群场景下,探索训推任务管理、异构资源调度、虚拟化混布、容器存储、高性能网络、分布式训练和推理等技术的创新和应用 -探索业界最新技术方向,参与机器学习框架等开源社区,提升百度混合云AI核心竞争力,提升团队技术影响力

更新于 2025-04-09北京
logo of aliyun
社招8年以上云智能集团

1. 负责金融行业技术架构解决方案设计,重点满足客户IaaS、PaaS、智算等技术架构方面需求,依托阿里巴巴和蚂蚁金服在分布式架构和智算架构领域的实践,构建云原生、AI原生等全栈解决方案。 2. 负责对金融客户的信息科技规划进行深度分析和洞察,形成有领先型的云化架构转型和智算架构转型方案,对用户信息科技部门和高层领导进行决策影响;其中对标杆客户进行轻咨询类规划引导,形成更加针对性的客户解决方案。 3. 熟悉阿里巴巴相关IaaS、PaaS、大模型、智算等产品能力和竞争优势,掌握各类技术方案的相应技术参数指标,针对不同业务需求优化设计,负责组织相应的POC进行方案支持,保证产品方案的客户价值、可落地性和差异化优势。 4. 面向金融企业客户,在客服、投研、投顾、风控、营销、内部工作提效等场景中,以大模型为基础,通过使用langchain、RAG、SFT、Agent等相关技术架构结合大模型产品设计可落地的大模型应用解决方案,解决客户实际场景问题。 5. 收集客户需求,结合技术研判,向产研部门反馈产品优化需求,提升产品市场竞争力和市场占有率。

更新于 2025-11-03杭州|上海