智能互联基础设施与稳定性工程-百炼稳定性工程专家/高级工程师-北京/杭州

社招全职5年以上技术类-运维2026-06-09地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1、计算机及相关专业，5年以上的SRE/Devops经验，有大型互联网公司运维经验者优先。
2、熟悉常见的公共云服务，熟练使用通用云产品（如VPC、ECS、SLB、RDS等），具备云原生运维经验。
3、深入理解Linux系统原理及运维体系，熟悉分布式系统设计。熟练掌握Kubernetes与Docker架构及技术原理，有大规模生产集群的部署、调优及故障…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、稳定性保障与体系建设：负责大模型服务平台及人工智能产品的稳定性保障工作，通过指标建设、预案设计、容量规划、监控完善、建立SOP等手段提升业务可用性与可靠性。
2、高并发流量治理：主导大规模分布式系统及高并发场景下的流量治理方案设计与实施，包括弹性扩缩容以及熔断、限流、降级等容灾策略，确保业务连续性与鲁棒性。
3、新环境部署：在新环境上进行一整套推理系统及其上下游依赖的部署和运维，负责日常模型的上架、性能监测、中间件和底层基建性能监测等。
4、Oncall与应急响应：参与OnCall值班，快速定位并解决生产环境故障，主导重大事件应急响应与复盘；建立故障快速恢复机制，推动根因分析及长效改进措施落地。
5、运维自动化：优化现有部署、监控及维护流程，推动运维自动化与平台化建设，提升研发效率与系统可观测性。负责监控/日志/网络/存储等原生基础设施的保障和工具开发。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

DevOps+

Linux+

分布式系统+

Kubernetes+

Docker+

Prometheus+

还有更多 •••

登录查看完整学习资料

相关职位

基础设施与稳定性工程-百炼稳定性工程专家/高级工程师-北京/杭州

社招5年以上技术类-运维

1、稳定性保障与体系建设：负责大模型服务平台及人工智能产品的稳定性保障工作，通过指标建设、预案设计、容量规划、监控完善、建立SOP等手段提升业务可用性与可靠性。 2、高并发流量治理：主导大规模分布式系统及高并发场景下的流量治理方案设计与实施，包括弹性扩缩容以及熔断、限流、降级等容灾策略，确保业务连续性与鲁棒性。 3、新环境部署：在新环境上进行一整套推理系统及其上下游依赖的部署和运维，负责日常模型的上架、性能监测、中间件和底层基建性能监测等。 4、Oncall与应急响应：参与OnCall值班，快速定位并解决生产环境故障，主导重大事件应急响应与复盘；建立故障快速恢复机制，推动根因分析及长效改进措施落地。 5、运维自动化：优化现有部署、监控及维护流程，推动运维自动化与平台化建设，提升研发效率与系统可观测性。负责监控/日志/网络/存储等原生基础设施的保障和工具开发。

更新于 2026-07-07北京|杭州

基础设施与稳定性工程-AI软硬件性能剖析与优化专家-杭州

社招3年以上技术类-开发

构建面向大规模AI集群的GPU微架构采集、性能剖析与优化决策系统，建设集群的性能分析、瓶颈定位、故障诊断等核心能力。 1. 针对NVIDIA、AMD、国产GPGPU等多厂商芯片，设计并实现规模化、无侵入的kernel级采集工具链和微架构指标体系； 2. 构建AI continuous profiling系统，将GPU kernel数据与算子执行、框架调度、通信原语、CPU性能、高性能通信性能相关联，为全栈性能优化提供量化的性能瓶颈数据和画像系统； 3. 结合理论 Roofline 分析与 simulation 方法，融合线上 profiling 数据，建设集群范围的软硬件配合与关键性能瓶颈分析体系，支撑AI训练与推理典型负载下的系统级优化； 4. 跟踪主流GPU架构演进，参与AI基础设施规划与设计，结合生产应用画像，支撑多元GPU/AI ASIC芯片的适配与优化，构建异构硬件性能的全链路量化分析模型，面向scale-up等未来AI硬件架构演进，建立硬件性能建模与TCO评估能力，形成数据驱动的决策支撑。

更新于 2026-06-16杭州

基础设施与稳定性工程-AI Infra高性能异构优化工程师-北京/杭州

社招3年以上技术-基础平台

负责集团多种大模型的基础训推性能优化，聚焦异构GPU的高性能算子库、通信库的开发和优化，提升计算、通信的并行效率，设计并实现高效的并行计算策略、分布式推理方案等。面向集团多变的大模型训推场景，提炼核心的优化方法，探索通用的编译优化方案，跟进前沿技术，并将优化能力集成到自研/开源大模型推理/训练框架/编译器，推动优化方案在实际业务场景中的落地，持续创新构建业界领先的AI Infra。

更新于 2026-06-11北京|杭州

基础设施与稳定性工程-AI infra存储研发工程师-文件存储

社招3年以上技术类-开发

我们关注并负责建设高效、稳定的AI基础设施，为超大规模的分布式训练/推理提供低延迟、高吞吐以及高性价比的I/O链路优化及分布式存储方案。 1. 集团十万卡级别的混合云AI基础设施内的I/O链路优化，支撑大模型、搜推广等训练推理场景的海量小文件及超大吞吐读写等I/O需求； 2. 紧密结合集团基础设施，探索存算分离、存算一网等网络架构下优异的存储架构，以及跨DC的存储同步与全球数据编排； 3. 探索面向transformer模型架构（LLM\多模态等）的kv-cache大容量、超低延迟的存储与缓存设计，通过RDMA、多级缓存等技术，与计算引擎联合CoDesign，探索下一代“以存代算”和“以存强算”的I/O模式；

更新于 2026-06-25北京|杭州