logo of mihoyo

米哈游服务器自动化研发工程师

社招全职3年以上程序&技术类地点:上海状态:招聘

任职要求


- 计算机科学与技术、软件工程等计算机相关专业,本科及以上学历
- 3 年以上服务器自动化或基础设施研发经验
- 精通 Linux 系统启动流程(BIOS → PXE → Kickstart → 系统初始化cloud-init)
- 熟悉装机自动化方案(Ironic / MAAS / Cobbler / Metal Kubed至少一种)
- 熟悉 Ansible、SaltStack、Puppet 等配置管理工具
- 熟…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 多地域 CPU 与 GPU 服务器自动化装机流程的设计与研发(PXE / Metal Kubed / Ironic / MAAS / Cobbler 等方案)
2. 装机镜像(OS image)制作与版本管理:内核、驱动、ofed、cuda 等基线维护
3. 服务器装机与 K8s 加节点流程联动(自动注册、健康体检、加入调度池)
4. 与硬件运维、SRE 协同建设带外管理平台(IPMI / Redfish 批量操作)与服务器全生命周期平台
5. 装机流程的可观测性、失败重试与灰度回滚机制建设
包括英文材料
学历+
Linux+
Metal+
Ansible+
还有更多 •••
相关职位

logo of xiaohongshu
社招3-5年引擎

【业务介绍】 作为公司统一的模型训练引擎团队,支撑公司内所有搜推广类业务的训练工程侧工作,包括模型训练、参数服务器、特征样本流水线等,通过引擎能力的持续建设结合多元异构算力为业务提供高效、灵活、稳定的搜广推模型服务。 为公司核心的搜广推业务提供关键的模型训练引擎支撑,解决超大规模稀疏特征训练的核心问题,不断挖掘异构硬件算力,为公司搜广推业务增长提供保障,并获得快速的成长与提升。 【岗位职责】 1、负责小红书搜广推业务线的机器学习训练框架的研发与迭代,核心支持公司所有相关业务场景; 2、深入参与分布式训练、自动并行化、参数服务器、特征样本流水线等系统底层功能的创新设计与优化,实现软硬件协同的极致训练效率; 3、跨团队合作,与公司算法部门深度协同,针对关键项目开展算法与系统的联合优化,推动解决实际业务挑战; 4、推动自动化扩展、智能资源调度、跨架构设备兼容(NV GPU、GPGPU、XPU等)、AI系统可观测性等先进技术在公司模型训练平台落地; 5、跟踪并推动AI系统领域的最新技术趋势(如生成式推荐、AI编译优化、RDMA/NCCL通信计算并发等),持续保持平台业界领先优势。

更新于 2025-11-11北京|上海
logo of kuaishou
校招J1020

1、基础设施与模型融合研究 :紧密关注新一代基础设施的迭代,如高性能的新一代网卡、超节点服务器以及先进的集群拓扑结构等,结合多模态任务下多模型(涵盖 visual tokenizer、diffusion、LLM 等)长 pipeline 特点,探索更先进、高效的多模态模型架构以及训推解决方案; 2、分布式系统优化 :运用分布式系统迭代、系统算法 codesign 等手段,针对模型规模、集群规模、context length 持续 scaling up 过程中出现的诸多挑战展开深入研究。具体包括但不限于解决训练过程中的 MFU 与稳定性问题,优化推理环节的时延与吞吐,以及应对超长序列带来的训推显存压力等难题; 3、卓越系统打造 :通过持续的创新与优化实践,致力于打造业界卓越的分布式训推系统,推动相关技术在实际应用场景中的高效落地,提升整体系统性能与竞争力,为 kling 等核心模型发展提供坚实支撑。

更新于 2025-06-26上海|北京
logo of kuaishou
实习J1020

1、服务器硬件运维自动化研发,包括硬件监控系统设计开发,硬件故障诊断和处置自动化开发,整机及部件(CPU、Memory、SSD、HDD等)压测自动化开发; 2、服务器硬件运维智能化能力建设,通过数据分析和机器学习技术,构建预测模型,实现故障预测、性能画像和智能诊断; 3、硬件基础数据能力建设,包括硬件整机及各类部件(CPU、Memory、GPU、HDD、SSD等)的性能微架构指标、健康状态指标及各类配置指标的数据采集、传输和存储; 4、关注最新的技术发展趋势,探索和引入新技术、新工具,持续推动运维效率提升。

更新于 2026-01-14北京
logo of mihoyo
社招程序&技术类

1 管理海量的边缘GPU服务器,保障线上服务的稳定性 2 参与服务器的实时调度、计时计费系统研发 3 参与云游戏硬件服务器的研发、性能调优、上架方案等工作 4 验收、部署各种规格的私有云/公有云服务器 5 持续优化业务部署、动态扩容/缩容的效率和稳定

上海