地平线模型训练平台实习生

实习兼职软件序列2026-03-16地点：北京状态：招聘

扫码手机上打开

任职要求

基本要求
- 计算机科学、人工智能或相关方向 在读博士
- 扎实的编程基础，熟练掌握 Python 或 C++
- 熟悉至少一种深度学习框架，例如 PyTorch
- 熟悉 Linux开发环境，具备良好的系统调试能力
- 对 大规模机器学习系统、分布式训练或AI基础设施 有浓厚兴趣
 

加分项
具备以下经验之一者优先：
- 分布式训练经验（DDP / FSDP / DeepSpeed / Megatron 等）
- CUDA或GPU性能优化经验
- 大规模训练系统或训练平台研发经验
- 自动驾驶相关模型…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

关于团队
我们正在构建支撑下一代自动驾驶模型的大规模训练基础设施。平台每天处理 PB级自动驾驶数据，在 万卡规模GPU集群 上运行大规模分布式训练任务，为感知、预测和端到端驾驶模型提供高效稳定的训练能力。
团队聚焦 大规模机器学习系统（ML Systems）与训练基础设施（Training Infrastructure），解决自动驾驶模型训练中的核心系统问题，包括分布式训练效率、数据管线扩展性、以及超大规模GPU集群的稳定性与资源利用率优化。


工作内容
你将参与解决自动驾驶大规模模型训练中的核心系统问题，包括：
- 设计与优化自动驾驶模型的 大规模训练基础设施
- 提升 万卡GPU训练集群 的训练效率与系统稳定性
- 构建可扩展的 PB级自动驾驶数据训练 pipeline
- 分析并解决分布式训练中的性能瓶颈，包括 GPU利用率、通信开销、I/O吞吐等问题
- 与自动驾驶算法团队协作，加速感知、多模态及端到端模型的训练迭代

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Python+

C+++

深度学习+

PyTorch+

Linux+

机器学习+

FSDP+

还有更多 •••

登录查看完整学习资料

相关职位

模型训练平台实习生

校招软件序列

关于团队我们正在构建支撑下一代自动驾驶模型的大规模训练基础设施。平台每天处理 PB级自动驾驶数据，在万卡规模GPU集群上运行大规模分布式训练任务，为感知、预测和端到端驾驶模型提供高效稳定的训练能力。团队聚焦大规模机器学习系统（ML Systems）与训练基础设施（Training Infrastructure），解决自动驾驶模型训练中的核心系统问题，包括分布式训练效率、数据管线扩展性、以及超大规模GPU集群的稳定性与资源利用率优化。工作内容你将参与解决自动驾驶大规模模型训练中的核心系统问题，包括： - 设计与优化自动驾驶模型的大规模训练基础设施 - 提升万卡GPU训练集群的训练效率与系统稳定性 - 构建可扩展的 PB级自动驾驶数据训练 pipeline - 分析并解决分布式训练中的性能瓶颈，包括 GPU利用率、通信开销、I/O吞吐等问题 - 与自动驾驶算法团队协作，加速感知、多模态及端到端模型的训练迭代

更新于 2026-03-16北京

模型推理平台实习生

实习软件序列

岗位介绍我们正在构建下一代大模型推理平台（LLM Inference Platform），面向 AI Coding、研发效率提升与生产业务智能化等核心场景，提供高性能、可扩展的大模型推理能力。团队正在结合开源模型与推理生态，在大规模 GPU 集群上持续优化推理系统的吞吐以及单位 Token 推理成本（$/Million Tokens）。岗位职责 - 参与大模型推理平台的系统研发与架构优化 - 在大规模 GPU 集群环境中优化推理系统的 Throughput、TTFT 和 GPU Utilization - 设计和实现高效推理架构，例如：Prefill / Decode 分离式推理、Continuous / Dynamic Batching、异构推理资源调度 - 构建分布式 KV Cache 与推理缓存体系，减少重复计算并提升 token generation efficiency 优化推理系统的单位 Token 计算成本（$/Million Tokens）与集群资源效率

更新于 2026-03-16北京

模型推理平台实习生

校招软件序列

更新于 2026-03-16北京

训练平台性能优化工程师实习生

实习

深度优化训练流程主导模型训练全链路性能分析与优化，设计GPU资源弹性调度策略开发自动化训练加速工具链，构建可扩展的云端训练框架研发混合精度训练、梯度压缩等前沿技术，突破训练吞吐瓶颈构建训练优化体系制定标准化训练效能评估体系，建立成本-效率量化模型设计可复用的训练加速组件库，沉淀最佳实践方法论开发训练过程性能分析平台，实现性能问题智能诊断赋能业务研发优化多任务资源调度策略，提升GPU集群整体利用率为算法团队提供训练加速解决方案，缩短模型迭代周期

更新于 2025-07-22北京