小米顶尖应届-分布式模型训练优化工程师-汽车
任职要求
1.熟练掌握 Python DDP及底层技术原理,比如NCCL,RDMA,cuda,triton; 2.了解前沿的训练优化技术方向; 3.有机器学习相关…
工作职责
1.探索分布式训练技术在降低训练成本中的应用。 2.研究如何优化数据并行、模型并行、流水线并行等分布式训练策略,解决分布式训练过程中的通信开销、负载均衡等问题。 3.结合实际业务场景,设计并实现高效的分布式训练方案,缩短模型训练周期,提高计算资源利用率。 4.分析数据对模型训练成本的影响,在保证模型训练效果的同时减少数据获取与处理成本。 【课题名称】 优化模型训练成本 【课题内容】 探索高效、低成本的模型训练策略,为企业降低技术研发成本的同时提升模型性能。
1、负责基于现有大模型训练框架分析自动驾驶与机器人模型训练链路,包括数据加载、分布式并行、显存占用、通信开销和算子执行等环节,定位性能瓶颈; 2、围绕训练吞吐、GPU 利用率和模型迭代效率开展优化,推动训练周期缩短和训练资源成本下降; 3、结合 PyTorch、Megatron-LM、DeepSpeed 等技术栈,开展分布式训练策略、混合精度、算子融合、通信优化和 CUDA 高性能算子优化; 4、推进训练框架与 AI 平台、调度系统和监控体系协同,建立训练效率、集群算力利用率和任务稳定性的评估机制; 5、探索 AI Agent 在自动化 profiling、瓶颈定位和代码优化建议中的应用,沉淀可复用的训练优化工具链。
参与大语言模型的核心技术研发,包括但不限于: - 预训练优化(数据合成、长上下文建模、训练动态分析) - 后训练技术(强化学习、奖励模型、推理能力提升) - 代码生成与理解(自动化数据构建、运行反馈优化) - 模型架构创新(MoE、高效推理、稳定性优化) - 探索AI Agent、长序列推理、在线学习等新兴方向
1、负责具身大模型训练与推理基础设施的架构设计、搭建与优化,支撑大规模预训练、持续训练、强化学习及在线/离线推理任务稳定高效运行。 2、基于Megatron-LM、DeepSpeed、FSDP等分布式训练框架,设计并优化数据并行、张量并行、流水并行、专家并行等策略,支撑大参数量多模态模型训练。 3、深耕大模型训练性能优化,包括显存占用、算力利用率、通信效率、checkpoint与断点续训、训练稳定性等关键问题,提升训练吞吐与资源效率。 4、负责推理系统优化与部署,覆盖自回归模型、Diffusion模型及MoE模型等典型架构,提升推理链路在吞吐、延迟、显存占用和稳定性方面的综合表现。 5、推动量化、算子融合、图优化、显存复用、服务化部署等推理加速技术落地,支撑具身大模型在云端或端上环境的部署。 6、与算法、数据、平台团队紧密协作,完善训练配置、日志监控、指标可视化、故障定位等工具链,提升研发效率与工程标准化水平。
1. 负责大语言模型线上推理框架的性能优化,解决高并发、低延迟、高可靠性等核心问题,提升服务吞吐量与稳定性; 2. 设计并实现分布式大模型推理系统,优化多卡(如NVIDIA GPU集群)资源调度与通信效率,支持千卡级训练/推理场景; 3. 深度适配NVIDIA GPU硬件架构,利用CUDA、cuDNN等工具链进行算子级优化,提升模型计算效率与显存利用率; 4. 调研并引入前沿技术(如异构计算、AI编译器优化),推动模型量化、蒸馏等轻量化方案落地。 【课题名称】 大模型分布式推理加速 【课题内容】 探索和实现大模型大规模推理加速包括分布式推理架构,模型和算法优化等。