阿里云阿里云智能-机器学习平台PAI平台研发专家-AI领域
任职要求
1. 计算机及相关专业背景,具备扎实的计算机基础与系统化思维能力,拥有5年以上Golang、Java、Python、C++等至少一种语言的开发经验。 2. 具有5年以上分布式系统或后端服务研发经验,能够独立完成复杂系统模块的设计、开发与调试,具备系统级问题定位与优化能力。 3. 熟悉以下至少一项技术方向:容器与Kubernetes(Scheduler/CSI/CNI/Operator)、微服务架构、数据库系统、Prometheus、ElasticSearch等。 4. 熟悉TensorFlo…
工作职责
阿里云PAI团队致力于打造业界一流的一站式AI工程化平台,拥有万卡级训练能力与超大规模异构资源调度技术,为复杂模型训练与推理任务构建坚实基座。PAI平台不仅是通义大模型研发与落地的核心基础设施,也作为公共云服务的关键载体,支撑众多行企业构建大模型核心业务。平台提供从数据标注、预处理、模型训练、推理服务到开发环境与工作流调度的全链路工程支持,全面覆盖AI项目从实验探索到规模化落地的完整价值链。作为平台研发工程师,您将深度参与以下工作: 1. 负责大规模异构资源管理与模型训练服务的全流程开发,包括需求分析、架构设计、软件开发、质量保障与部署上线。 2. 持续开展系统模块的深度剖析与迭代优化,提升资源利用效率、任务成功率与启动速度,降低使用门槛,增强产品满意度与客户粘性。 3. 负责平台线上环境的实时监控、故障定位与性能调优,为客户提供及时的专业技术支持,保障平台服务的高可用与高稳定运行。 4. 紧密追踪大模型、AIGC等前沿技术趋势,洞察并提炼高价值用户需求,推动平台功能持续演进与技术架构升级。
阿里云PAI团队致力于打造业界一流的一站式AI工程化平台,拥有万卡级训练能力与超大规模异构资源调度技术,为复杂模型训练与推理任务构建坚实基座。PAI平台不仅是通义大模型研发与落地的核心基础设施,也作为公共云服务的关键载体,支撑众多行企业构建大模型核心业务。平台提供从数据标注、预处理、模型训练、推理服务到开发环境与工作流调度的全链路工程支持,全面覆盖AI项目从实验探索到规模化落地的完整价值链。作为Web前端工程师,您将深度参与平台前端体系的构建与持续演进,具体职责涵盖以下方面: 1. 协同产品与设计团队,负责AI平台控制台的前端开发,覆盖标注、训练、推理、编排、监控、开发环境等核心场景,打造专业、易用的交互体验。 2. 面向AI交互场景演进与算力资源类型升级,持续推动前端架构重构与性能优化,提升系统响应速度与操作流畅度。 3. 联合测试、运维与技术支持团队,确保前端系统稳定可靠、兼容性强、易于维护,并能快速响应与修复线上问题。 4. 参与AI Coding、WebIDE、智能Agent、AIGC等方向的前端预研与落地,积极探索下一代AI开发体验的创新路径。
1. 主导基于阿里云PAI平台的大模型与多模态Agent工具链建设,涵盖数据处理、预训练、SFT、模型蒸馏、强化学习等全栈训练能力,打造高效、易用、可扩展的Agent开发基础设施,赋能千行百业智能化升级。 2. 面向ChatBI、智能运维机器人等核心场景,构建端到端的Agent算法解决方案,持续优化模型效果、推理性能与用户体验,树立行业最佳实践标杆。 3. 深度理解企业级业务需求,具备将复杂业务问题抽象为通用算法范式的能力,通过标准化、产品化工具实现客户需求的快速复制与规模化落地。 4. 紧跟全球大模型与多模态前沿技术演进,在算法效能、架构创新与工程落地方面持续突破,推动技术成果转化为学术影响力与商业价值。
随着通用人工智能技术的快速发展,GPU算力的需求持续飙升,加入阿里云人工智能平台,您将有机会运用卓越工程理念并实践,构建支撑智算中心的工程底座,为AI智算平台的稳定运行保驾护航: 1. 基于先进的云原生技术和devops理念,系统化分析、设计和解决阿里云PAI团队研发过程中的效率质量问题。 2. CI/CD:基于效能领域先进的GitOps理念,建设一流的CI/CD平台,提升研发体验和效率;沉淀易用、高效、可复用的平台工具,整体提升云产品持续交付的效率。 3. 测试环境维护:使用k8s/docker/golang等云原生技术,建设稳定、高效、易维护的多架构容器化测试环境,提升测试效率。 4. 异常巡检能力:搭建自动化巡检、异常检测与告警联动系统,对预发和线上环境的训练任务、推理服务、平台组件异常进行持续健康监测。
1.负责基于AI云平台,构建高效、易用的大模型/多模态大模型算子工具库,包括数据处理,预训练,SFT,模型蒸馏,强化学习等链路,并将云上的AI能力赋能给客户; 2. 基于上述AI算法开发工具链,研发大模型/多模态大模型算法在ChatBI,AI Agent,自动驾驶,具身智能等典型应用场景的最佳实践,对算法效果、性能进行持续优化; 3. 具备将业务问题转化成算法实现问题,帮助客户解决实际问题的能力;能与企业客户深度沟通,通过对业务的深入理解,将不同用户对算法的需求抽象成标准工具,达到能快速复制的效果; 4. 持续跟踪大模型/多模态大模型算法技术本身的业界动态,在算法效果/效率方面持续创新,沉淀学术影响力