米哈游AI集群运维工程师

校招全职程序&技术类地点：上海状态：招聘

扫码手机上打开

任职要求

岗位要求：
1. 本科及以上学历，计算机、软件、人工智能等相关专业；
2. 熟悉 Linux 操作系统，掌握常用命令及系统管理基础；
3. 熟悉 x86服务器架构、GPU、TCP/IP、RDMA网络等基础知识；
4. 熟悉 Python / Shell 脚本编写，有一定自动化运维经验；
5. 具备良好的沟通能…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

岗位职责
1. GPU集群运维与管理
-负责AI训练与推理所需的GPU服务器、集群及相关基础设施的日常运维。
-进行GPU资源全生命周期管理，保障AI任务的高效运行。
2. 系统部署与优化
-参与OS、GPU驱动、CUDA、cuDNN、NCCL等基础环境的安装、升级与兼容性测试。
-针对AI训练/推理任务优化系统参数（如内核调优、RDMA调优、IO调优等）。
3. 故障排查与性能调优
-快速定位并解决GPU服务器硬件、网络、存储等相关问题。
-分析任务运行日志与监控数据，优化资源利用率。
4. 自动化与工具开发
-编写脚本（Python/Bash等）实现批量部署、监控报警、日志采集、备机管理等自动化运维功能。
-参与GPU集群管理平台的功能扩展与性能优化。
5. 跨团队协作
-与模型训练、推理服务、数据服务团队紧密合作，理解业务需求并提供技术支持。
-协助业务团队定位模型运行中的硬件/系统瓶颈。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

Linux+

TCP/IP+

Python+

Bash+

脚本+

还有更多 •••

登录查看完整学习资料

相关职位

大模型推理存储系统工程师/专家-Seed

社招A121315

团队介绍：字节跳动豆包大模型团队（Seed）成立于 2023 年，致力于寻找通用智能的新方法，追求智能上限，并探索新的交互。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等，在中国、新加坡、美国等地设有实验室和岗位。豆包大模型团队在 AI 领域拥有长期愿景与决心，坚持深耕基础，期望成为世界一流的 AI 研究团队，为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力，支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责机器学习系统存储相关组件的设计和开发，服务于大模型推理的各业务场景（LLM/S2S/VLM/多模态等），包括模型分发加载、KV Cache存储和优化，数据IO性能优化，提高推理TTFT、TBT等核心性能指标； 2、负责设计和实现面向大模型推理的多层级存储系统，综合利用显存、本地内存、分布式内存/磁盘、远端大容量存储系统（HDFS/对象存储）等多种介质进行数据的存储和迁移管理，实现「近计算缓存+远端大容量存储」的一体化分级系统； 3、负责优化大模型KV Cache命中率，从推理框架，流量调度，多级缓存等多个系统纬度入手定制化优化策略；优化数据的读取性能，充分利用近计算侧的NVLink、RDMA高速网络、GPU Direct技术实现数据的高效传输；优化数据副本的存放策略，实现负载流量和存储数据的合理化分布； 4、负责设计和实现高效、易用的数据访问接口，实现和推理框架、引擎的无缝对接，管理KV Cache的生命周期； 5、负责Kubernetes场景下多级存储系统的接入、管理、运维、监控，确保稳定性； 6、负责多机房、多地域、多云场景的系统搭建和容灾，优化跨集群的数据摆放。

更新于 2024-12-20上海

大模型驻场服务工程师（J86487）

社招3年以上ACG

-负责百度智能云AI私有化相关软件产品的技术支持工作，主要包括客户的问题和故障响应处理以及软件的更新支持等。 -提供驻场运维支持服务，跟后端支持团队一起，快速解决客户的使用问题和故障，能够制定相关技术解决方案，合理管理客户的预期。 -负责技术运维相关的文档、手册、流程编写整理，整理分析用户问题和意见、及时反馈并推动产品质量改进、完善服务及质量。 -深入了解客户的IT和业务需求,帮助提升客户的运营水平,建立长期的信任关系，确保客户对产品服务的满意度

更新于 2025-06-19武汉

阿里云智能-灵骏解决方案架构师-北京/杭州

社招5年以上云智能产品解决方

1、作为产品解决方案架构师，深入理解灵骏及异构产品所负责的高性能AI智算集群的技术原理、架构和使用场景，能够根据企业级客户需求和产品能力，规划设计合理的灵骏产品解决方案，推动和实现产品的商业化落地。 2、具备良好的架构思维能力，能够从稳定性、高性能、易用性、可用性、可运维性等方面综合考虑，结合云计算平台产品特点，敏锐捕捉市场趋势，分析竞对产品及市场策略，为产品的设计、实现、改进不断提出建设性的想法和建议，反哺产品能力建设，不断提升灵骏及异构产品的市场竞争力和市场份额。 3、与前线架构师/BTE销售紧密合作，主动了解客户当前在产品方案遇到的困难和需求，帮助客户解决技术问题，寻找新的业务突破点。推广产品方案并能够影响客户的基础设施、工程、算法等不同团队，用产品技术推动业务扩展。 4、分析云计算技术发展趋势/市场竟争格局，挖掘行业数据/客户商机，建立可复制行业解决方案，与产品内部的产品经理、资源及经营团队、研发等团队紧密配合，推动营收增长。

更新于 2025-06-18北京|杭州

数据库运维研发工程师

社招3-5年网易游戏（互娱）

1.负责网易游戏数据库日常运维工作，包括不限于数据库配置管理、版本升级、扩容等； 2.负责数据库集群监控、用户问题跟踪分析和处理，保障业务稳定； 3.响应用户需求，根据项目需求设计并制定数据库解决方案； 4.参与数据库工具、组件、数据库运维管控平台等开发，提高服务自动化率、管理效率。

更新于 2025-08-18广州