logo of aliyun

阿里云阿里云智能-百炼稳定性工程专家/高级工程师-北京/杭州

社招全职5年以上云智能集团地点:北京 | 杭州状态:招聘

任职要求


1、计算机及相关专业,5年以上的SRE/Devops经验,有大型互联网公司运维经验者优先。
2、熟悉常见的公共云服务,熟练使用通用云产品(如VPC、ECS、SLB、RDS等),具备云原生运维经验。
3、深入理解Linux系统原理及运维体系,熟悉分布式系统设计。熟练掌握KubernetesDocker架构及技术原理,有大规模生产集群的部署、调优及故障…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、稳定性保障与体系建设:负责大模型服务平台及人工智能产品的稳定性保障工作,通过指标建设、预案设计、容量规划、监控完善、建立SOP等手段提升业务可用性与可靠性。
2、高并发流量治理:主导大规模分布式系统及高并发场景下的流量治理方案设计与实施,包括弹性扩缩容以及熔断、限流、降级等容灾策略,确保业务连续性与鲁棒性。
3、新环境部署:在新环境上进行一整套推理系统及其上下游依赖的部署和运维,负责日常模型的上架、性能监测、中间件和底层基建性能监测等。
4、Oncall与应急响应:参与OnCall值班,快速定位并解决生产环境故障,主导重大事件应急响应与复盘;建立故障快速恢复机制,推动根因分析及长效改进措施落地。
5、运维自动化:优化现有部署、监控及维护流程,推动运维自动化与平台化建设,提升研发效率与系统可观测性。负责监控/日志/网络/存储等原生基础设施的保障和工具开发。
包括英文材料
DevOps+
Linux+
分布式系统+
Kubernetes+
Docker+
Prometheus+
还有更多 •••
相关职位

logo of aliyun
社招3年以上云智能集团

1. 负责百炼平台大模型调优与部署等AI工具链产品化落地; 2. 负责百炼平台的调优模型推理、模型评测、模型调优、模型广场等的模块的架构设计和开发工作; 3. 了解技术使用场景和优缺点,能够就复杂技术问题,提供解决方案并执行落地,同时对上下游技术团队及技术架构有完整的了解; 4. 基于业务需求和技术洞察,在调优后模型的推理服务方面,进行技术规划并落地。

更新于 2025-12-25北京|杭州
logo of aliyun
社招5年以上云智能集团

1. 负责阿里云百炼平台的质量保障工作,参与产品需求和技术方案评审,评估技术架构合理性和可测性。 2. 进行阿里云百炼平台的质量保障体系建设,包括功能测试、自动化测试、性能测试和稳定性测试等。 3. 配合开发团队进行问题排查和分析,解决线上用户问题,持续提升产品竞争力。

更新于 2025-12-16杭州
logo of aliyun
社招8年以上云智能集团

阿里云 AI 中间件团队致力于打造行业优秀的AI中间件(Agent框架,Agent Registry,Agent网关等),拥有全球优秀开源项目AgentScope/Higress / Dubbo / Nacos ,优秀的商业产品AI网关,MSE,支撑阿里Qwen-APP/百炼/PAI 等核心业务流量。期待你能够洞察 AI 网关趋势,梳理核心技术竞争点,带领团队持续引领 AI 网关先进性。 1、主导 AI 网关的系统设计与实现, 独立完成 AI 模块的完整设计、开发工作,并保证功能交付的质量与稳定性; 2、主导 AI 网关的用户洞察,产品链接,需求实现,主动组织、推动上下游团队的协作,按时保质地交付用户功能需求; 3、主导 AI 网关的高可用能力构建,主动通过单元测试、功能测试、性能测试、容灾演练等持续提升自身负责模块的稳定性能力; 4、主导 AI网关的开源项目 Higress 影响力和标准的构建,积极参与开源 Higress 社区的生态扩展以及 AIGC 的探索; 5、能够 洞察 AI 网关趋势,结合行业报告、竞对分析、市场反馈,扩大 AI 网关竞争优势。

更新于 2026-01-09杭州
logo of vivo
社招8年以上研发类

1、负责企业级的AI Agent平台产品分析、架构设计、研发与持续迭代演进; 2、负责Agent技术研究应用及产品能力建设,包括不限于Multi-Agent、Workflow等,构建和完善多智能体系统的应用能力,确保系统的稳定性和扩展性。 3、负责Agent相关垂类应用落地,包括垂类Agent在商业化广告、客户服务、品牌营销、研究报告等方向的落地,提升智能体在复杂环境中的协作和决策能力。 4、能够持续学习、研究行业最佳实践,不断优化和提升大模型Agent的应用技术、支持业务场景下的Agent能力演进。

更新于 2025-11-05杭州