logo of aliyun

阿里云阿里云智能-研发专家-云内可观测平台-杭州/北京

社招全职5年以上云智能集团地点:北京 | 杭州状态:招聘

任职要求


1.本科及以上学历,计算机相关专业,5年以上运维开发/系统架构经验,有大型分布式系统设计开发和稳定性经验优先。
2.出色的编程能力,精通C/C++,熟悉Linux系统,具备扎实的计算机系统基础,对高性能/低开销软硬件有经验/成就者优先
3.对…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 参与建设阿里云内统一的智能全景可观测平台。目前该平台已服务阿里云多个主流云产品,覆盖超百万节点,日产PB+数据,是支撑云的性能乃至稳定性的基础设施。
2. 设计实现云内可观测场景的高效存储模型/系统和先进高性能查询分析引擎。为飞天系统乃至云内产品提供极致性价比和有竞争力的功能,保障核心业务的稳定性和提升用户体验
3. 结合传统的智能算法和现代大模型技术,通过对海量可观测数据的分析和垂直领域大模型的建设以及自然语言界面的链接,持续优化经典和现代AIOps效果,发现Insight,推动云内开发运维的范式跃迁
4. 设计开发云内可观测平台的运维自动化系统和工具流程的设计和开发,提升运营平台的效率与智能化水平,保障本平台7x24小时高可用
包括英文材料
学历+
分布式系统+
C+
还有更多 •••
相关职位

logo of xiaohongshu
社招1年以上后端开发

小红书基础设施网络平台致力于实现网络监管控的平台化,自动化,智能化。建设多场景、高可用、高性能可观测系统。覆盖设备基础监控,流量分析,云网络,拨测,内网质量等多种场景。

北京|上海|杭州
logo of aliyun
社招8年以上云智能集团

1. 针对ECS异常调度“运维决策大脑”,设计多维的异常调度可验证体系,通过融合存储、心跳、网络状态等多路信号,从根本上解决因单一信号误判导致的业务中断风险,确保自动化决策的精准性; 2. 针对ECS海量线上数据和全链路性能问题,设计和开发创新的测试解决方案与平台,建立精准、高效的性能和稳定性度量体系; 3. 面向失败的可验证性设计,验证系统的韧性架构,尤其针对规模性故障(机房、核心系统依赖),推动核心组件的降级、熔断、故障恢复能力,通过故障注入等方式验证系统的鲁棒性; 4. 作为产品线研发安全生产的构建者,负责在多产品/复杂系统层面构建并落地完善的研发安全生产规范和流程,保障系统的可容灾、可观测、可处置、可运维、可快速恢复; 5. 主导跨产品、大型复杂系统的质量保障工作,组织和推动高水准的稳定性演练(如容灾、红蓝对抗),培养团队的研发安全生产意识和专业能力; 6. 对AIOps/SRE及质量保障领域的技术发展趋势有前瞻性判断,负责测试技术预研、技术难点攻关,推动技术变革与创新,为产品线带来显著收益。

更新于 2025-09-17北京|杭州
logo of aliyun
社招8年以上云智能集团

1. 技术前瞻与需求洞察:深度跟踪容器、云原生技术前沿(如 Kubernetes 新特性、Serverless 演进、AI 训练/推理、AI Agent 架构、微服务治理等),精准识别内/外客户在不同场景中的核心需求,驱动产品创新方向与技术战略落地; 2. 竞品与市场分析:持续分析主流云厂商在容器编排、Serverless 算力、AI 训推方案、AI Agent 等领域的竞品动态,输出深度市场洞察报告,支撑产品差异化设计与战略决策,不断增强产品竞争力; 3. 产品全生命周期管理:主导核心容器产品(如 ACK、ACS、ACR 等)的功能规划、需求定义、设计及商业化运营,从需求挖掘到规模化落地,推动市场份额与用户满意度提升; 4. 端到端解决方案设计:针对企业客户复杂业务场景(如 AI 训练/推理、AI Agent 应用、大数据应用、多云微服务应用等),设计端到端的容器解决方案,平衡调度性能、弹性容量、安全合规与成本优化等关键维度; 5. 跨职能协同:联动容器产品 PDSA、运营、研发、运维及 SA 架构师团队,高效推进产品从需求到上线的全流程交付,确保技术方案与客户业务目标精准匹配,提升交付质量与客户体验; 6. 产品运营与持续迭代:负责产品上线后的运营闭环,包括客户反馈深度分析、用户培训、市场活动支持及数据驱动的体验优化,通过持续迭代巩固产品市场地位与客户成功。

更新于 2025-12-05北京|杭州
logo of xiaohongshu
社招5-10年引擎

我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架,优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline; 2、研发支持多机多卡 RL 的分布式训练框架,开发TP/PP/ZeRO-3与RL流程的动态协同机制,解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链,主导框架与 MLOps 平台集成,提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作,参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代; 5、参与分析各业务 GPU 利用率与饱和度等指标,结合业务场景持续优化训练框架能力,提升框架领先性。

更新于 2026-03-28上海|北京