小米顶尖应届-分布式模型训练优化工程师-汽车

校招全职2025-06-26地点：北京状态：招聘

扫码手机上打开

任职要求

1.熟练掌握 Python DDP及底层技术原理,比如NCCL,RDMA,cuda,triton;
2.了解前沿的训练优化技术方向;
3.有机器学习相关…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1.探索分布式训练技术在降低训练成本中的应用。
2.研究如何优化数据并行、模型并行、流水线并行等分布式训练策略，解决分布式训练过程中的通信开销、负载均衡等问题。
3.结合实际业务场景，设计并实现高效的分布式训练方案，缩短模型训练周期，提高计算资源利用率。
4.分析数据对模型训练成本的影响，在保证模型训练效果的同时减少数据获取与处理成本。

【课题名称】
优化模型训练成本
【课题内容】
探索高效、低成本的模型训练策略，为企业降低技术研发成本的同时提升模型性能。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Python+

CUDA+

还有更多 •••

登录查看完整学习资料

相关职位

顶尖应届-大模型训练框架优化工程师-自动驾驶

校招

1、负责基于现有大模型训练框架分析自动驾驶与机器人模型训练链路，包括数据加载、分布式并行、显存占用、通信开销和算子执行等环节，定位性能瓶颈； 2、围绕训练吞吐、GPU 利用率和模型迭代效率开展优化，推动训练周期缩短和训练资源成本下降； 3、结合 PyTorch、Megatron-LM、DeepSpeed 等技术栈，开展分布式训练策略、混合精度、算子融合、通信优化和 CUDA 高性能算子优化； 4、推进训练框架与 AI 平台、调度系统和监控体系协同，建立训练效率、集群算力利用率和任务稳定性的评估机制； 5、探索 AI Agent 在自动化 profiling、瓶颈定位和代码优化建议中的应用，沉淀可复用的训练优化工具链。

更新于 2026-06-02北京

顶尖应届-大语言模型算法工程师-大模型

校招

参与大语言模型的核心技术研发，包括但不限于： - 预训练优化（数据合成、长上下文建模、训练动态分析） - 后训练技术（强化学习、奖励模型、推理能力提升） - 代码生成与理解（自动化数据构建、运行反馈优化） - 模型架构创新（MoE、高效推理、稳定性优化） - 探索AI Agent、长序列推理、在线学习等新兴方向

更新于 2025-07-09北京

顶尖应届-具身大模型训练推理工程师-XiaomiRobotics

校招

1、负责具身大模型训练与推理基础设施的架构设计、搭建与优化，支撑大规模预训练、持续训练、强化学习及在线/离线推理任务稳定高效运行。 2、基于Megatron-LM、DeepSpeed、FSDP等分布式训练框架，设计并优化数据并行、张量并行、流水并行、专家并行等策略，支撑大参数量多模态模型训练。 3、深耕大模型训练性能优化，包括显存占用、算力利用率、通信效率、checkpoint与断点续训、训练稳定性等关键问题，提升训练吞吐与资源效率。 4、负责推理系统优化与部署，覆盖自回归模型、Diffusion模型及MoE模型等典型架构，提升推理链路在吞吐、延迟、显存占用和稳定性方面的综合表现。 5、推动量化、算子融合、图优化、显存复用、服务化部署等推理加速技术落地，支撑具身大模型在云端或端上环境的部署。 6、与算法、数据、平台团队紧密协作，完善训练配置、日志监控、指标可视化、故障定位等工具链，提升研发效率与工程标准化水平。

更新于 2026-04-03北京

顶尖应届-大模型推理加速工程师-AI平台

校招

1. 负责大语言模型线上推理框架的性能优化，解决高并发、低延迟、高可靠性等核心问题，提升服务吞吐量与稳定性； 2. 设计并实现分布式大模型推理系统，优化多卡（如NVIDIA GPU集群）资源调度与通信效率，支持千卡级训练/推理场景； 3. 深度适配NVIDIA GPU硬件架构，利用CUDA、cuDNN等工具链进行算子级优化，提升模型计算效率与显存利用率； 4. 调研并引入前沿技术（如异构计算、AI编译器优化），推动模型量化、蒸馏等轻量化方案落地。【课题名称】大模型分布式推理加速【课题内容】探索和实现大模型大规模推理加速包括分布式推理架构，模型和算法优化等。

更新于 2025-06-25北京