logo of aligenie

智能互联阿里控股-AI 高性能计算工程师-杭州/北京

社招全职5年以上技术-基础平台地点:北京 | 杭州状态:招聘

任职要求


1. 计算机、电子工程或相关专业本科及以上学历,对计算机体系结构有深刻理解。
2. 拥有深厚的GPU/NPU/XPU高性能计算优化经验,精通至少一种异构计算平台及编程模型(如CUDA, ROCm, OpenCL, SYCL, CANN等)。
3. 熟悉现代AI模型(特别是Transformer架构)中关键算子的计算原理和优化方法。

具备以下至少…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


我们是阿里巴巴大模型推理团队,负责生成式AI领域(主要是图像生成和LLM)的内部产品、训练推理服务系统建设和维护,为淘宝、天猫、聚划算、优酷、闲鱼等多个集团业务部门提供强有力的技术支撑和底层服务能力。
1. 针对特定异构芯片(如华为昇腾、AMD MI系列等),深入分析其指令集、存储层级(HBM/Cache)和计算单元特性,使用原生语言(如CANN C/C++, HIP C++)手写和优化核心算子(如Attention, MoE Gate, GEMM等),实现极致性能。
2. 主导或核心参与基于编译技术的算子优化方案,利用Triton、TileLang、JAX/MLIR等技术栈,构建一套可跨硬件复用的算子生成与图优化框架,大幅缩短新卡型或新模型的适配周期。
3. 使用专业的Profiling工具,对模型在异构硬件上的端到端性能进行分析,精准定位Kernel执行、数据搬运、通信等环节的瓶颈,并提出体系化的优化方案。
包括英文材料
学历+
CUDA+
OpenCL+
Transformer+
还有更多 •••
相关职位

logo of didi
社招2-12年技术

Location: 杭州市西湖区西溪谷国际商务中心G座 上海在静安区氪空间 北京在昌平龙泽地铁站滴滴天空之城A座 我们这里是滴滴国际金融最重要的业务和技术底盘,用技术的手段将底盘能力做扎实(即保障资金安全、业务系统高可用), 国际化业务才能在更专注的去追寻业务的高速发展,不用因为技术底盘不扎实而影响业务的发展。如果你对这一块有兴趣,会得到比较快的技术成长 * 国际化业务目前发展势头良好。
 * 资金安全&高可用,预防线上的资损问题和高可用问题,是国际金融业务的核心技术和底盘。
 * 团队氛围开放积极,有机会与国内外各部门业务与技术进行日常交流学习。 职责要求: 1、滴滴国际化金融(IBG FinTech) 技术风险能力建设,包含应急能力、变更防御、红蓝攻防、性能容量、资金安全,构建Fintech技术风险体系; 2、参与重大项目的技术风险保障工作,对技术风险领域进行评审和分析; 3、贴身业务,挖掘业务风险,沉淀技术风险领域标杆,释放研发技术风险投入,更聚焦在业务研发上; 4、明星业务,多底盘充满了挑战和机遇,欢迎来战。

更新于 2025-02-21上海
logo of aliyun
社招5年以上技术类-开发

1. 负责云网络的虚拟化网元底座NFV平台的数据面技术方案,包括基于需求进行技术可行性分析,技术方案选型、功能设计以及技术架构设计等工作 ; 2. 负责云网络的虚拟化网元底座NFV平台的数据面开发,包括需求代码开发、代码Review、测试及上线发布; 3. 负责云网络的虚拟化网元底座NFV平台的稳定性能力建设以及性能优化,包括线上问题处理、问题诊断等,确保系统的安全可靠,提升产品稳定性和性能; 4. 参与云网络虚拟化网元产品的技术预研以及技术规划,跟踪和了解最新的产品技术趋势。

更新于 2025-04-03杭州|南京
logo of aliyun
社招8年以上技术类-综合

制定和实施海外各国家地区的生态用工策略,管理海外供应商,制定和运营国际化的外包商务体系、跟进日常需求管理、管控海外用工风险,满足阿里云的全球化生态用工需求。 1、海外生态用工策略: • 基于海外各国家/地区的法律法规和用工政策,研究全球生态用工领域的全球趋势,结合对云计算业务发展方向的理解,制定海外生态用工策略,为业务提供用工方式的解决方案。 2、海外生态用工供应商管理: • 基于对海外各国家/地区的全球性/本土化供应商的了解,布局、遴选和发展合适的供应商,对供应商进行成本、风险、资源等的日常管理,制定对海外供应商的商务体系(结算、激励等)。 3、海外生态用工需求管理: • 负责各业务在海外各国家/地区的生态用工需求的满足,关注时效性、稳定性、用工质量和用工成本。 4、海外生态用工风险管理: • 协同海外供应商,对海外生态用工的劳动纠纷、海外生态用工的EHS风险事件进行妥善处置。

更新于 2025-04-03杭州
logo of aliyun
社招5年以上技术类-前端

1、负责小天基/神农控制台/ASO/staragent/统一运维平台的前端开发工作,完成产品的前端框架升级,保证流畅的交互体验。 2、结合阿里云整体的视觉设计风格,建设统一的前端基础组件库(组件库、图形库、工程体系、低代码、服务化平台等),保障前端性能及交互一致性的同时,提升研发效率 3、基于阿里云统一的AEM基础设施对用户行为进行记录并建立数据化度量体系,为产品交互及后端性能优化方案或技术选型提供数据支撑 4、负责线上系统的维护和管理,保障系统稳定运行;

更新于 2025-04-02杭州