阿里云阿里云智能-云原生平台研发专家-AI 推理平台方向-北京/杭州
任职要求
1、5 年以上分布式系统架构设计与开发经验,具备复杂分布式系统架构设计及开发经验; 2、对分布式系统架构、数据库、Linux操作系统等有深入理解,具备一定的 Linux 系统应用运维经验; 3、有 Kubernetes 等容器系统、ServiceMesh 等微服务治理体系、AI 训推平台等 AI 系统架构设计与…
工作职责
1、负责阿里边缘云容器产品管控系统的架构设计、开发与维护工作; 2、维护高性能、高可用的容器管控服务,保障业务系统在全球范围内的稳定性; 3、为 AI 推理等相关场景提供更优化的服务能力,高效使用资源的同时,快速交付算力服务; 4、深入参与产品全生命周期研发管理,持续优化提升产品的安全性、稳定性、性能、功能与用户体验,以技术驱动业务增长; 5、负责容器领域前沿技术的探索,推动系统架构演进及优化,完成技术预研和技术难点攻关。
1、参与AI开发平台的功能规划、设计与研发,重点围绕模型训练领域,通过云原生的资源调度,提供任务建模、可视化建模、交互式建模相关的平台能力; 2、参与到模型的微调、量化、强化学习相关的平台能力建设,为客户提供高效的Post-Training能力; 3、面向大规模、分布式的模型训练场景,提供可观测能力和上下游故障诊断能力,通过检查点+弹性训练+智能调度的组合,将模型训练故障中断时间压缩到分钟级,保障模型训练过程的性能和稳定性。
阿里云专有云是面向政企行业客户的全栈云平台,为政企客户(政府、金融、部委、央企等行业)提供产品和服务。该岗位主要负责专有云AI安全技术方向的架构规划及研发工作,构建全面的AI安全防护体系,跟踪AI安全前沿技术,将研究成果转化为工程落地,插入链接提升技术竞争力,满足专有云客户的AI安全需求。 1、主导专有云AI安全架构设计 ● 设计并构建覆盖AI全生命周期的安全防护体系,包括数据安全、模型安全、推理安全等; ● 建立AI模型隐私保护机制,支持联邦学习、差分隐私、同态加密等隐私计算技术; ● 设计AI安全治理框架,确保AI系统的可解释性、公平性和可靠性; 2、主导AI安全技术研发和产品化落地: ● 研发AI对抗攻击检测与防护技术,包括对抗样本检测、模型后门检测、投毒攻击防护等; ● 开发AI数据安全技术,包括敏感数据识别、数据脱敏、数据水印等技术; ● 构建AI安全监控平台,实现AI系统运行时的实时安全监测和威胁预警; ● 协同AI平台团队,将安全能力深度集成到AI训练、推理、服务等各个环节;
阿里云PAI团队致力于打造业界一流的一站式AI工程化平台,拥有万卡级训练能力与超大规模异构资源调度技术,为复杂模型训练与推理任务构建坚实基座。PAI平台不仅是通义大模型研发与落地的核心基础设施,也作为公共云服务的关键载体,支撑众多行企业构建大模型核心业务。平台提供从数据标注、预处理、模型训练、推理服务到开发环境与工作流调度的全链路工程支持,全面覆盖AI项目从实验探索到规模化落地的完整价值链。作为平台研发工程师,您将深度参与以下工作: 1. 负责大规模异构资源管理与模型训练服务的全流程开发,包括需求分析、架构设计、软件开发、质量保障与部署上线。 2. 持续开展系统模块的深度剖析与迭代优化,提升资源利用效率、任务成功率与启动速度,降低使用门槛,增强产品满意度与客户粘性。 3. 负责平台线上环境的实时监控、故障定位与性能调优,为客户提供及时的专业技术支持,保障平台服务的高可用与高稳定运行。 4. 紧密追踪大模型、AIGC等前沿技术趋势,洞察并提炼高价值用户需求,推动平台功能持续演进与技术架构升级。
● 设计和实现高效的训练推理框架,提升多节点、多GPU环境下特别是异构算力场景下的计算效率。具备良好的工程实践和算法理论基础,熟悉底层的硬件编程和常见GPU的算子库开发,能对算法的运行效率如速度、显存占用等进行优化,推动算法稳定、高效的运行。 ● 完善优化训练推理框架,针对市面上的国产信创卡能提出统一的优化方案,并推进在底层的通信效率、资源占用、稳定性方面持续建设。 ● 设计并实现能够处理大规模并发请求的系统架构,确保极端负载下的稳定性和性能。完善错误自愈机制,提升平台训练的MFU,打造行业内一流的异构算力混训混推GPU框架。 ● 技术方案设计:主导核心模块技术方案设计与评审,结合业务需求与系统现状,制定可落地的架构规划。 ● 基础服务开发:构建高可用、可扩展的基础服务组件,支持训练/推理框架的快速迭代与稳定部署。 ● 项目管理:主导跨团队协作项目的全生命周期管理,包括需求拆解、排期规划、进度跟踪与风险控制,确保项目高效交付。 ● 持续关注并跟进业界技术发展,比如超长上下文、端到端推理思维链、多模态等方向。