阿里云阿里云智能-工程效能研发专家-北京/杭州
任职要求
1. 熟悉持续集成CI/CD效能工具平台,对 Airflow 等任意一种流水线构建有使用经验; 2. 熟悉Linux下C/C++语言,精通至少一门脚本语言,如go、python等; 3. 熟悉kubernetes、Docker容器技术,熟悉Sysbench、FIO、Benchmark等测试工具; 4. 拥有操作系统、存储系统、数据库系统、分布式系…
工作职责
团队整体实行 DevOps,SRE 在其中系统化分析并解决研发流程中的效率与质量问题,打造易用、高效、可复用的效能平台和工具,全面提升分布式块存储产品的持续交付质量和效能。主要职责包括: 1. CI/CD 平台与效能工具链建设: 负责设计、开发和维护高效的 CI/CD 持续集成与交付平台; 2. 搭建核心测试框架与自动化测试工具链;优化测试流程效率,保障测试环境的稳定性与易用性,并有效控制研发成本,从而显著提升研发体验与整体效率; 3. 质量风险分析与效能体系构建: 系统化评审分布式块存储系统的质量风险点,主导构建和完善系统级测试能力;设计并实现覆盖复杂业务场景的用例,持续提升覆盖率和有效性,保障系统质量; 4.云原生测试环境建设: 运用 Kubernetes, Docker, Golang 等云原生技术,构建并维护稳定、高效、易于管理的多架构(如 x86/ARM)容器化环境,为高效测试提供坚实基础; 5. 负责对技术团队和相关模块进行质量水位的评估和考核,并提出改进意见。熟知质量理论和方法,能运用新的AI技术来做质量提效,并在研发中传帮带和推广。持续提升各技术团队的质量意识和测试技术水平。
基于先进的云原生技术和 devops 实践理念,系统化分析、解决研发过程中的效率质量问题,沉淀易用、高效、可复用的平台工具,整体提升云产品持续交付的效率。具体工作有: 1. C/C++ 构建系统:开发和维护 C/C++ 构建系统,维护三方库,优化构建效率。 2. CI/CD 系统:开发和维护 CI/CD 平台,提升研发体验和效率。 3. 测试环境:使用 k8s/docker/golang 等云原生技术,建设稳定、高效、易维护的多架构容器化测试环境,提升测试效率。 4. 技术方案设计、稳定性和性能优化
1、设计和实现高性能、可靠的研发效能平台; 2、负责研发效能平台的研发; 3、制定稳定性策略,寻找并解决系统中的潜在风险和瓶颈,覆盖线上疑问,保障系统安全可靠。运用系统优化技术和方法,进行性能优化。 4、分析用户需求,优化系统架构,提高系统的扩展性、灵活性和可维护性;
岗位描述: 全面负责夸克大模型在 Post-Training 能力进化和上限突破、持续推进模型能力边界和商业价值的不断延伸。通过对前沿算法的极致探索和高效能工程体系的构建,驱动模型在逻辑推理、问答、复杂多轮上下文、指令遵循、Agent 智能体、多模态交互等关键领域实现突破性进展,打造世界一流的模型效果,并定义其在未来 AI 应用中的核心价值。 工作职责: ● 【战略规划与技术引领】 制定并执行大模型 Post-training 的中长期技术路线图,预判并布局下一代对齐技术、能力增强及对齐方案。主导核心算法的战略方向,确保技术路径与公司业务战略高度协同。 ● 【核心能力与壁垒构建】 领导团队进行体系化的数据驱动实验,不仅局限于日常迭代,更要建立可规模化的能力提升范式。您将攻坚并解决模型在复杂指令遵循、通用问答、RAG、深度逻辑推理、内容创作、Tool-Using 等方面的瓶颈问题,构建技术壁垒。 ● 【前沿算法研究与创新】 深入探索并推动 Post-training 领域的前沿算法创新,包括但不限于 RLHF/RLAIF 的新范式、模型融合 (Model Fusion/Merge) 、模型蒸馏及 MoE 模型的高效对齐策略。您的目标是显著降低模型幻觉、提升推理的效果、加强模型复杂指令的遵循能力。 ● 【多模态与未来探索】 从统一多模态模型的战略视角出发,您将指导并规划多模态统一大模型的 Post-training 技术融合。探索并落地高效的多模态 SFT 数据构建、跨模态能力协同训练及对齐策略,确保模型在图文问答、视频对话 等复杂场景下实现无缝、精准的理解与生成。 ● 【团队领导与效能提升】 负责 Post-training 算法团队的组建、培养与管理,打造一支具备高效执行力和持续创新能力的顶尖团队。您将指导并优化从研究、实验、评测到部署的全链路工具链与工程框架,实现研发效能的倍增。
随着通用人工智能技术的快速发展,GPU算力的需求持续飙升,加入阿里云人工智能平台,您将有机会运用卓越工程理念并实践,构建支撑智算中心的工程底座,为AI智算平台的稳定运行保驾护航: 1. 基于先进的云原生技术和devops理念,系统化分析、设计和解决阿里云PAI团队研发过程中的效率质量问题。 2. CI/CD:基于效能领域先进的GitOps理念,建设一流的CI/CD平台,提升研发体验和效率;沉淀易用、高效、可复用的平台工具,整体提升云产品持续交付的效率。 3. 测试环境维护:使用k8s/docker/golang等云原生技术,建设稳定、高效、易维护的多架构容器化测试环境,提升测试效率。 4. 异常巡检能力:搭建自动化巡检、异常检测与告警联动系统,对预发和线上环境的训练任务、推理服务、平台组件异常进行持续健康监测。