logo of horizon

地平线模型训练平台实习生

实习兼职软件序列地点:北京状态:招聘

任职要求


基本要求
- 计算机科学、人工智能或相关方向 在读博士
- 扎实的编程基础,熟练掌握 PythonC++
- 熟悉至少一种深度学习框架,例如 PyTorch
- 熟悉 Linux开发环境,具备良好的系统调试能力
- 对 大规模机器学习系统、分布式训练或AI基础设施 有浓厚兴趣
 

加分项
具备以下经验之一者优先:
- 分布式训练经验(DDP / FSDP / DeepSpeed / Megatron 等)
- CUDA或GPU性能优化经验
- 大规模训练系统或训练平台研发经验
- 自动驾驶相关模型…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


关于团队
我们正在构建支撑下一代自动驾驶模型的大规模训练基础设施。平台每天处理 PB级自动驾驶数据,在 万卡规模GPU集群 上运行大规模分布式训练任务,为感知、预测和端到端驾驶模型提供高效稳定的训练能力。
团队聚焦 大规模机器学习系统(ML Systems)与训练基础设施(Training Infrastructure),解决自动驾驶模型训练中的核心系统问题,包括分布式训练效率、数据管线扩展性、以及超大规模GPU集群的稳定性与资源利用率优化。


工作内容
你将参与解决自动驾驶大规模模型训练中的核心系统问题,包括:
- 设计与优化自动驾驶模型的 大规模训练基础设施
- 提升 万卡GPU训练集群 的训练效率与系统稳定性
- 构建可扩展的 PB级自动驾驶数据训练 pipeline
- 分析并解决分布式训练中的性能瓶颈,包括 GPU利用率、通信开销、I/O吞吐等问题
- 与自动驾驶算法团队协作,加速感知、多模态及端到端模型的训练迭代
包括英文材料
Python+
C+++
深度学习+
PyTorch+
Linux+
机器学习+
FSDP+
还有更多 •••
相关职位

logo of horizon
校招软件序列

关于团队 我们正在构建支撑下一代自动驾驶模型的大规模训练基础设施。平台每天处理 PB级自动驾驶数据,在 万卡规模GPU集群 上运行大规模分布式训练任务,为感知、预测和端到端驾驶模型提供高效稳定的训练能力。 团队聚焦 大规模机器学习系统(ML Systems)与训练基础设施(Training Infrastructure),解决自动驾驶模型训练中的核心系统问题,包括分布式训练效率、数据管线扩展性、以及超大规模GPU集群的稳定性与资源利用率优化。 工作内容 你将参与解决自动驾驶大规模模型训练中的核心系统问题,包括: - 设计与优化自动驾驶模型的 大规模训练基础设施 - 提升 万卡GPU训练集群 的训练效率与系统稳定性 - 构建可扩展的 PB级自动驾驶数据训练 pipeline - 分析并解决分布式训练中的性能瓶颈,包括 GPU利用率、通信开销、I/O吞吐等问题 - 与自动驾驶算法团队协作,加速感知、多模态及端到端模型的训练迭代

更新于 2026-03-16北京
logo of horizon
实习软件序列

岗位介绍 我们正在构建下一代 大模型推理平台(LLM Inference Platform),面向 AI Coding、研发效率提升与生产业务智能化等核心场景,提供高性能、可扩展的大模型推理能力。 团队正在结合开源模型与推理生态,在 大规模 GPU 集群上持续优化推理系统的 吞吐 以及单位 Token 推理成本($/Million Tokens)。 岗位职责 - 参与 大模型推理平台的系统研发与架构优化 - 在大规模 GPU 集群环境中优化推理系统的 Throughput、TTFT 和 GPU Utilization - 设计和实现高效推理架构,例如:Prefill / Decode 分离式推理、Continuous / Dynamic Batching、异构推理资源调度 - 构建 分布式 KV Cache 与推理缓存体系,减少重复计算并提升 token generation efficiency 优化推理系统的 单位 Token 计算成本($/Million Tokens) 与集群资源效率

更新于 2026-03-16北京
logo of horizon
校招软件序列

岗位介绍 我们正在构建下一代 大模型推理平台(LLM Inference Platform),面向 AI Coding、研发效率提升与生产业务智能化等核心场景,提供高性能、可扩展的大模型推理能力。 团队正在结合开源模型与推理生态,在 大规模 GPU 集群上持续优化推理系统的 吞吐 以及单位 Token 推理成本($/Million Tokens)。 岗位职责 - 参与 大模型推理平台的系统研发与架构优化 - 在大规模 GPU 集群环境中优化推理系统的 Throughput、TTFT 和 GPU Utilization - 设计和实现高效推理架构,例如:Prefill / Decode 分离式推理、Continuous / Dynamic Batching、异构推理资源调度 - 构建 分布式 KV Cache 与推理缓存体系,减少重复计算并提升 token generation efficiency 优化推理系统的 单位 Token 计算成本($/Million Tokens) 与集群资源效率

更新于 2026-03-16北京
logo of mi
实习

深度优化训练流程 主导模型训练全链路性能分析与优化,设计GPU资源弹性调度策略 开发自动化训练加速工具链,构建可扩展的云端训练框架 研发混合精度训练、梯度压缩等前沿技术,突破训练吞吐瓶颈 构建训练优化体系 制定标准化训练效能评估体系,建立成本-效率量化模型 设计可复用的训练加速组件库,沉淀最佳实践方法论 开发训练过程性能分析平台,实现性能问题智能诊断 赋能业务研发 优化多任务资源调度策略,提升GPU集群整体利用率 为算法团队提供训练加速解决方案,缩短模型迭代周期

更新于 2025-07-22北京