小米大模型训练与推理Infra工程师
任职要求
基本要求: - 计算机科学、软件工程、机器学习或相关领域的本科及以上学历,硕士或博士优先。 - 深入理解深度学习原理和分布式训练框架(如 Horovod、DeepSpeed、Ray 等)。 - 熟练掌握至少一种主流深度学习框架(如 PyTorch、TensorFlow 或 JAX)。 - 熟悉高性能计算技术(CUDA、NCCL、cuDNN 等)及硬件架构(GPU、NPU 等)。 - 具有扎实的编程能力,…
工作职责
1. 模型训练基础设施开发 - 设计和实现支持大规模分布式训练的计算平台,优化模型训练效率和资源利用率。 - 维护和扩展现有的分布式训练框架,确保平台的高性能和稳定性(如基于 PyTorch、TensorFlow 或 JAX)。 - 集成和优化高性能计算技术(如 CUDA、MPI、NCCL 等)。 2. 模型推理基础设施开发 - 构建高效的推理框架,支持大模型的在线和离线推理需求。 - 优化推理速度、内存占用和能耗,支持多种硬件架构(GPU、NPU等 )。 - 实现PD分离、Context Caching、模型量化、推敲编码等推理优化技术。 3. 性能监控与优化 - 开发工具链和监控系统,跟踪训练与推理过程的性能瓶颈。 - 分析并优化数据加载、通信效率和硬件利用率等关键环节。 4. 跨团队协作 - 与模型研究团队密切合作,理解模型需求,定制训练和推理策略。 - 支持产品团队的模型部署需求,推动大模型在实际场景中的落地应用。
1. 与 Infra 团队深度协作,结合模型训练与推理瓶颈,深度参与大语言模型(LLM)的架构设计及迭代优化 2. 探索模型高效 Scaling 技术及新的Scaling方向(如 Context Scaling、Parameter Scaling 等),探索下一代 GPU 推理友好的模型结构与算法 3. 探索方向涵盖但不限于 Attention 机制、MoE 机制、优化器策略及学习范式创新
-参与 AI Infra 核心平台建设,支撑大模型训练与推理业务的稳定、高效运行,覆盖 GPU、RDMA、高速网络等算力资源在云原生体系中的统一管理与调度 -负责 GPU、RDMA 等 IaaS 资源的自动化准入、能力识别、基准测试与性能评测,建设标准化算力验收与持续评测体系,保障不同硬件规格在大规模集群下的可用性与一致性 -负责 Kubernetes 容器平台的架构设计、能力演进与稳定性治理,重点关注平台的高可用、稳定性、安全性、性能、可扩展性等非功能性指标,参与或主导调度、资源隔离、设备插件(GPU/RDMA)、网络或存储相关模块的设计与二次开发 -支撑大模型推理与训练业务在平台侧的工程化落地,关注推理与训练场景下的资源利用率、调度效率、显存管理与多租户隔离,与算法、引擎团队协作,推动性能优化能力在平台层的规模化复用 -参与多卡、多机、大规模 GPU 集群的资源调度与稳定性建设,支撑 TP/DP/PP/PD 等并行模式在平台侧的运行与管理,解决实际生产环境中的性能抖动、资源碎片化与容量规划问题 -参与运维与运营平台后端研发,支撑算力运营、性能监控、容量管理与成本治理,建设可观测体系(监控、日志、Tracing),推动问题发现与定位的自动化,通过工程化手段持续降低人工运维成本
1. 主导并深度参与大模型核心算力集群的架构设计与平台构建,为国内顶尖的AI技术打造坚实可靠的基石。 2. 深入探索并攻坚机器学习平台的多个核心领域,包括但不限于:大规模分布式训练、高性能推理优化、海量数据管理以及高效工作流编排。 3. 与顶尖的算法及工程团队紧密协作,精准定位并解决大模型在训练与推理过程中遇到的性能、稳定性及规模化等各类复杂技术挑战。 4. 保持对技术前沿的高度敏锐,持续追踪并引入业界在大模型系统领域的最新成果与最佳实践,成为驱动整个技术体系创新与迭代的核心力量。
1. 立足AI Agent研发运维视角,贯穿整个技术栈,在稳定、体验、效率和成本这四个方面持续进行优化 2. 基于AI研发领域的MaaS/PaaS/IaaS,进行模型训练与推理的算力保障,并提升资源使用率 3. 统性地提升Agent研发、部署、运行阶段的稳定性,适应Agent QPS、模型推理TPM每年提升1个量级的发展速度 4. 主导解决Agent研发运维过程中各类疑难问题,并推进完善产品与平台的能力 5. 系统性构建故障节点、慢节点检测平台化能力,响应并解决日常大模型任务的故障问题 6. 负责LLM 后训练(SFT、RLHF/RLAIF 等)相关链路稳定性治理、规范建设:理解研发与优化 LLM + RL/HRF 相关训练框架,提升扩展性、稳定性与性能(吞吐、显存占用、收敛效率等)。结合分布式训练技术(如 tensor / pipeline / data parallel),优化多机多卡训练性能和资源利用率。 7. 平台稳定性与工程质量:建设训练平台的观测与运维体系,完善监控、告警、日志与故障排查工具;持续提升平台的稳定性、可调试性和可维护性,产出高质量技术文档与设计方案。