阿里云阿里云智能-AI异构软硬件结合研发专家-上海
任职要求
1. 具备扎实的工程能力 (C++,Python等); 2. 对GPU(或相关AI加速芯片)系统结构有深入的理解,有实际的开发和性能优化经验; 3. 熟悉主流深度学习框架(例如PyTorch),并对底层实现有较好了解,在模型训练或推理性能优化方面有实操经验; 4. 了解主流大模型的结构与执行细节,了解相关的推理性能优化技术; 5. 具备良好的沟通协作能力和项目组织能力,能与不同背景的团队有…
工作职责
1. 负责研发AI异构计算软件栈,通过结合不同加速芯片的特性,实现AI计算的全链路优化,助力打造在业界具有竞争力的高可靠、高性能、高效率的大规模AI算力基础设施。 2. 结合具体业务场景,开展软硬件协同优化和技术创新(包括但不限于算子优化与编译、量化压缩,计算通讯融合,系统调度、分布式推理优化等工程任务),为实际业务提供卓越的性能和成本效益。 3. 洞察人工智能及深度学习的发展趋势,积极参与下一代AI基础设施的设计与研发。
【业务介绍】 作为公司统一的模型训练引擎团队,支撑公司内所有搜推广类业务的训练工程侧工作,包括模型训练、参数服务器、特征样本流水线等,通过引擎能力的持续建设结合多元异构算力为业务提供高效、灵活、稳定的搜广推模型服务。 为公司核心的搜广推业务提供关键的模型训练引擎支撑,解决超大规模稀疏特征训练的核心问题,不断挖掘异构硬件算力,为公司搜广推业务增长提供保障,并获得快速的成长与提升。 【岗位职责】 1、负责小红书搜广推业务线的机器学习训练框架的研发与迭代,核心支持公司所有相关业务场景; 2、深入参与分布式训练、自动并行化、参数服务器、特征样本流水线等系统底层功能的创新设计与优化,实现软硬件协同的极致训练效率; 3、跨团队合作,与公司算法部门深度协同,针对关键项目开展算法与系统的联合优化,推动解决实际业务挑战; 4、推动自动化扩展、智能资源调度、跨架构设备兼容(NV GPU、GPGPU、XPU等)、AI系统可观测性等先进技术在公司模型训练平台落地; 5、跟踪并推动AI系统领域的最新技术趋势(如生成式推荐、AI编译优化、RDMA/NCCL通信计算并发等),持续保持平台业界领先优势。
1、面向智算异构架构的操作系统协同研发,深度参与面向下一代智能操作系统架构设计与实现,聚焦 CPU/GPU/DPU 等异构硬件平台,重点覆盖任务调度、设备抽象、资源隔离等关键子系统,支撑大规模训练与高并发推理业务的稳定高效运行。 2、AI 软件栈与操作系统深度融合优化,结合主流 AI 软件栈从系统层面构建 System for AI 的端到端优化能力,针对大模型训练/推理中的通信瓶颈、显存压力、资源调度等场景,设计 OS 层面的调度策略、缓存机制与资源管控方案,提升整体吞吐、降低尾延迟、优化单位算力成本。 3、操作系统计算方向技术规划,跟踪学术界与工业界在 AI 系统软件领域的业界进展,结合云上真实业务负载,制定操作系统在调度、隔离、虚拟化、性能、能效等方向的技术演进路线。 4、确保操作系统研发方案交付满足业务预期,稳定性和性能符合基础软件的质量指标要求。 5、积极参与 Linux 内核上游社区、vllm/SGlang/Mooncake 等 AI 场景基础软件社区,包括团队相关技术领域专利/论文贡献,提升上游社区贡献度和团队技术影响力。
1、跟踪行业最新技术动态,为公司的AI芯片技术发展提供前瞻性的建议和技术储备; 2、跟踪GPGPU/NPU行业最新动态、产品与技术架构,分析公司内外部业务系统需求,结合自研芯片架构,输出系统软硬件协同设计方案; 3、负责组织硬件平台、软件平台、生态平台等AI组件的SE专家,一起协同工作交付有竞争力的AI整体系统方案,并指导开发团队完成方案的开发交付落地; 4、推理基础设施方案设计,针对产品业务场景,优化模型在边缘设备(自研芯片平台、Jetson、机器人嵌入式系统)的部署性能,实现模型量化、动态计算图裁剪、异构硬件(GPU/NPU/FPGA)适配等关键技术;