阿里云阿里云智能-AI开发平台研发专家(模型训练方向)-北京/杭州
任职要求
1、硕士及以上学历,3年以上IT、互联网、云计算开发相关工作经验,至少1年以上AI领域相关的研发经验; 2、具有机器学习系统的架构设计和开发能力,具有分布式训练(训练框架部署、问题排查、性能优化)、机器学习底层引擎优化(训练和推理性能优化)、机器学习平台(平台调度与管控)等开发经验者优先; 3、要…
工作职责
1、参与AI开发平台的功能规划、设计与研发,重点围绕模型训练领域,通过云原生的资源调度,提供任务建模、可视化建模、交互式建模相关的平台能力; 2、参与到模型的微调、量化、强化学习相关的平台能力建设,为客户提供高效的Post-Training能力; 3、面向大规模、分布式的模型训练场景,提供可观测能力和上下游故障诊断能力,通过检查点+弹性训练+智能调度的组合,将模型训练故障中断时间压缩到分钟级,保障模型训练过程的性能和稳定性。
负责阿里云产品安全能力前沿技术的探索与落地,包括但不限于以下方向: 1. AI应用安全:为阿里云内部平台及“百炼”大模型平台构建并完善AI应用所需的基础安全能力,保障AI应用从训练到推理全流程的安全性; 2. Confidential AI(机密AI):参与机密计算(Confidential Computing)基础架构及核心组件的设计、开发与运维,支持客户及内部服务实现 Confidential AI 功能。
● 设计和实现高效的训练推理框架,提升多节点、多GPU环境下特别是异构算力场景下的计算效率。具备良好的工程实践和算法理论基础,熟悉底层的硬件编程和常见GPU的算子库开发,能对算法的运行效率如速度、显存占用等进行优化,推动算法稳定、高效的运行。 ● 完善优化训练推理框架,针对市面上的国产信创卡能提出统一的优化方案,并推进在底层的通信效率、资源占用、稳定性方面持续建设。 ● 设计并实现能够处理大规模并发请求的系统架构,确保极端负载下的稳定性和性能。完善错误自愈机制,提升平台训练的MFU,打造行业内一流的异构算力混训混推GPU框架。 ● 技术方案设计:主导核心模块技术方案设计与评审,结合业务需求与系统现状,制定可落地的架构规划。 ● 基础服务开发:构建高可用、可扩展的基础服务组件,支持训练/推理框架的快速迭代与稳定部署。 ● 项目管理:主导跨团队协作项目的全生命周期管理,包括需求拆解、排期规划、进度跟踪与风险控制,确保项目高效交付。 ● 持续关注并跟进业界技术发展,比如超长上下文、端到端推理思维链、多模态等方向。
阿里云专有云是面向政企行业客户的全栈云平台,为企业级客户(政府、金融、部委、央企等行业)提供产品和服务。该岗位主要负责专有云智算平台架构规划、系统设计及核心技术研发。核心职责包括: 1、主导智算平台的全栈架构设计。针对不同平台芯片/不同集群规模做整体方案设计,满足千卡/万卡集群高并发、低延迟、弹性可扩展等需求。 2、性能及稳定性优化,提升集群运行效率,不断提升技术竞争力。 3、跟踪前沿技术趋势,推动新技术落地应用。参与行业标准制定。