logo of aliyun

阿里云阿里云智能-异构计算软硬件结合开发专家-AI领域-北京/杭州

社招全职5年以上云智能集团地点:北京 | 杭州状态:招聘

任职要求


1. 具备5年以上异构计算软硬件结合开发经验,熟悉GPU/AI ASIC部件的硬件设计、芯片架构以及对应的服务器系统设计;熟悉至少一种主流GPU架构(NVIDIA GPU、AMD GPU等)者优先;
2. 具有 GPGPU 微架构分析的实践经验,具有 AI 芯片设计及相关软硬件技术研究成果者优先;
3. 熟悉 GPU 满载运行过程中常见的 RAS(可靠性、可用性、可维护性)质量稳定性问题,以及软硬件协同性能profiling等相关技术问题,并具备实际解决问题的能力;
4. 熟悉pythonC++及L…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.  针对整机柜超节点服务器,全面赋能计算、互联、监控、故障及性能诊断等核心能力;
2. 梳理适配超节点异构服务器产品的业务场景,开展对应的昆仑组件设计与开发,涵盖性能评测分析、容器镜像等关键模块;
3. 基于整机柜硬件架构及典型业务落地场景,构建典型故障与异常案例库,并设计相应的故障诊断方案;
4. 负责跟踪与研究主流GPU架构设计技术,参与下一代AI Infra的规划与设计;
5. 结合业务画像,构建面向异构硬件与系统的全链路量化分析模型,形成数据驱动的决策数据库,有效推动异构服务器产品的规划与规模化落地。
包括英文材料
系统设计+
Python+
C+++
Linux+
CUDA+
Triton Inference Server+
PyTorch+
还有更多 •••
相关职位

logo of aliyun
社招5年以上云智能集团

● 负责PAI平台资源调度模块的设计与开发,全面支撑模型训练、评估及推理阶段的资源调度需求。 ● 负责GPU、CPU 及其他异构硬件资源的统一编排与高效调度,实现对稳态资源、潮汐资源、混部资源以及多云环境下资源的合理分配与协同利用。 ● 聚焦资源复用与集群利用率提升,结合大模型场景中预训练、后训练、离线推理、评估等任务的负载特征,优化排队策略、优先级管理与抢占机制,最大化整体资源效能。 ● 构建端到端的故障可观测体系,针对训练/推理任务中频发的软硬件异常(如 GPU XID 错误、网络超时、节点失联等),完善日志、指标、事件的采集与关联分析能力,实现问题快速定位与根因追溯。 ● 研发智能诊断与自动容错机制,基于历史故障模式与运行时上下文,开发自动化诊断引擎,支持动态降级、局部重试、弹性扩缩容等策略,减少人工干预,提升作业自愈能力。 ● 打造训练过程可视化与用户体验闭环,建设面向用户的训练状态看板,直观呈现任务健康度、资源使用、通信瓶颈及异常告警,并提供可操作建议,降低使用门槛,加速问题反馈与迭代优化。

更新于 2025-12-16北京|杭州
logo of xiaohongshu
社招3-5年引擎

【业务介绍】 作为公司统一的模型训练引擎团队,支撑公司内所有搜推广类业务的训练工程侧工作,包括模型训练、参数服务器、特征样本流水线等,通过引擎能力的持续建设结合多元异构算力为业务提供高效、灵活、稳定的搜广推模型服务。 为公司核心的搜广推业务提供关键的模型训练引擎支撑,解决超大规模稀疏特征训练的核心问题,不断挖掘异构硬件算力,为公司搜广推业务增长提供保障,并获得快速的成长与提升。 【岗位职责】 1、负责小红书搜广推业务线的机器学习训练框架的研发与迭代,核心支持公司所有相关业务场景; 2、深入参与分布式训练、自动并行化、参数服务器、特征样本流水线等系统底层功能的创新设计与优化,实现软硬件协同的极致训练效率; 3、跨团队合作,与公司算法部门深度协同,针对关键项目开展算法与系统的联合优化,推动解决实际业务挑战; 4、推动自动化扩展、智能资源调度、跨架构设备兼容(NV GPU、GPGPU、XPU等)、AI系统可观测性等先进技术在公司模型训练平台落地; 5、跟踪并推动AI系统领域的最新技术趋势(如生成式推荐、AI编译优化、RDMA/NCCL通信计算并发等),持续保持平台业界领先优势。

更新于 2025-11-11北京|上海
logo of aliyun
社招5年以上云智能集团

1.负责分析硬件加速特征与内部拓扑结构,设计硬件优化实践和调优方案,并主导优化实现,充分发挥硬件潜能,确保性能符合预期。 2.结合主流LLM推理框架 (如sglang/vLLM) 和 大模型结构及计算特征,设计面向框架性能分析和优化插件并主导实现。 3.提供场景化的定制优化能力,识别并解决大模型在不同业务场景下的性能瓶颈,快速的给出满足需求的性能优化方案,并推动业务的交付应用。 4.洞悉大模型的发展趋势和硬件技术演进,结合软硬件优化的经验和数据,分析硬件的发展趋势,提炼AI硬件规格需求,形成软硬结合技术规划。

更新于 2025-09-22深圳|杭州
logo of aliyun
社招技术类-开发

1. 负责研发AI异构计算软件栈,通过结合不同加速芯片的特性,实现AI计算的全链路优化,助力打造在业界具有竞争力的高可靠、高性能、高效率的大规模AI算力基础设施。 2. 结合具体业务场景,开展软硬件协同优化和技术创新(包括但不限于算子优化与编译、量化压缩,计算通讯融合,系统调度、分布式推理优化等工程任务),为实际业务提供卓越的性能和成本效益。 3. 洞察人工智能及深度学习的发展趋势,积极参与下一代AI基础设施的设计与研发。

更新于 2025-07-02上海