logo of aligenie

智能互联阿里云智能-百炼稳定性工程专家/高级工程师-北京/杭州

社招全职5年以上地点:北京 | 杭州状态:招聘

任职要求


1、计算机及相关专业,5年以上的SRE/Devops经验,有大型互联网公司运维经验者优先。
2、熟悉常见的公共云服务,熟练使用通用云产品(如VPC、ECS、SLB、RDS等),具备云原生运维经验。
3、深入理解Linux系统原理及运维体系,熟悉分布式系统设计。熟练掌握KubernetesDocker架构及技术原理,有大规模生产集群的部署、调优及故障…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、稳定性保障与体系建设:负责大模型服务平台及人工智能产品的稳定性保障工作,通过指标建设、预案设计、容量规划、监控完善、建立SOP等手段提升业务可用性与可靠性。
2、高并发流量治理:主导大规模分布式系统及高并发场景下的流量治理方案设计与实施,包括弹性扩缩容以及熔断、限流、降级等容灾策略,确保业务连续性与鲁棒性。
3、新环境部署:在新环境上进行一整套推理系统及其上下游依赖的部署和运维,负责日常模型的上架、性能监测、中间件和底层基建性能监测等。
4、Oncall与应急响应:参与OnCall值班,快速定位并解决生产环境故障,主导重大事件应急响应与复盘;建立故障快速恢复机制,推动根因分析及长效改进措施落地。
5、运维自动化:优化现有部署、监控及维护流程,推动运维自动化与平台化建设,提升研发效率与系统可观测性。负责监控/日志/网络/存储等原生基础设施的保障和工具开发。
包括英文材料
DevOps+
Linux+
分布式系统+
Kubernetes+
Docker+
Prometheus+
还有更多 •••
相关职位

logo of aliyun
社招5年以上云智能集团

1、稳定性保障与体系建设:负责大模型服务平台及人工智能产品的稳定性保障工作,通过指标建设、预案设计、容量规划、监控完善、建立SOP等手段提升业务可用性与可靠性。 2、高并发流量治理:主导大规模分布式系统及高并发场景下的流量治理方案设计与实施,包括弹性扩缩容以及熔断、限流、降级等容灾策略,确保业务连续性与鲁棒性。 3、新环境部署:在新环境上进行一整套推理系统及其上下游依赖的部署和运维,负责日常模型的上架、性能监测、中间件和底层基建性能监测等。 4、Oncall与应急响应:参与OnCall值班,快速定位并解决生产环境故障,主导重大事件应急响应与复盘;建立故障快速恢复机制,推动根因分析及长效改进措施落地。 5、运维自动化:优化现有部署、监控及维护流程,推动运维自动化与平台化建设,提升研发效率与系统可观测性。负责监控/日志/网络/存储等原生基础设施的保障和工具开发。

更新于 2026-01-07北京|杭州
logo of aliyun
社招3年以上云智能集团

1. 模型服务API: 开发实现端到端的模型服务,涵盖LLM/VL/embedding/rerank等大语言模型, 也包含diffusion model方向的生图生视频的模型服务,构建高效的服务框架提升模型接入效率, 优化端到端服务性能,确保稳定性。 2. 百炼大模型开发平台上各领域模型服务架构设计迭代、性能优化以及核心服务开发。 3. 百炼大模型开发平台模型微调、模型评测技术架构设计、算法开发以及对应业务能力建设。

更新于 2026-04-08北京|杭州
logo of aliyun
社招3年以上云智能集团

1. 设计并实现高性能AI原生网关。构建低延迟、高并发的API网关系统,支持多模态、多协议接入,为国内及全球客户提供灵活、安全、可扩展的流量接入方案,提供完整的数据面控制与可观测能力。 2. 打造智能推理调度与资源管理系统。设计并实现面向复杂分布式推理场景的请求调度和资源调度系统,结合动态负载特征与异构硬件资源,持续优化请求分发策略;建设Serverless化资源调度架构,实现资源的弹性伸缩与极致利用率提升。 3. 构建先进的MLOps平台能力。深度优化模型服务的CI/CD流程,推动算法研发到生产部署的自动化与标准化;实现模型版本管理、灰度发布、监控告警、性能分析等全生命周期管理能力,提升迭代效率与系统稳定性。

更新于 2026-04-08北京|杭州
logo of aliyun
社招3年以上云智能集团

1. 负责百炼平台大模型调优与部署等AI工具链产品化落地; 2. 负责百炼平台的调优模型推理、模型评测、模型调优、模型广场等的模块的架构设计和开发工作; 3. 了解技术使用场景和优缺点,能够就复杂技术问题,提供解决方案并执行落地,同时对上下游技术团队及技术架构有完整的了解; 4. 基于业务需求和技术洞察,在调优后模型的推理服务方面,进行技术规划并落地。

更新于 2025-12-25北京|杭州