
地平线模型训练平台实习生
任职要求
基本要求 - 计算机科学、人工智能或相关方向 在读博士 - 扎实的编程基础,熟练掌握 Python 或 C++ - 熟悉至少一种深度学习框架,例如 PyTorch - 熟悉 Linux开发环境,具备良好的系统调试能力 - 对 大规模机器学习系统、分布式训练或AI基础设施 有浓厚兴趣 加分项 具备以下经验之一者优先: - 分布式训练经验(DDP / FSDP / DeepSpeed / Megatron 等) - CUDA或GPU性能优化经验 - 大规模训练系统或训练平台研发经验 - 自动驾驶相关模型…
工作职责
关于团队 我们正在构建支撑下一代自动驾驶模型的大规模训练基础设施。平台每天处理 PB级自动驾驶数据,在 万卡规模GPU集群 上运行大规模分布式训练任务,为感知、预测和端到端驾驶模型提供高效稳定的训练能力。 团队聚焦 大规模机器学习系统(ML Systems)与训练基础设施(Training Infrastructure),解决自动驾驶模型训练中的核心系统问题,包括分布式训练效率、数据管线扩展性、以及超大规模GPU集群的稳定性与资源利用率优化。 工作内容 你将参与解决自动驾驶大规模模型训练中的核心系统问题,包括: - 设计与优化自动驾驶模型的 大规模训练基础设施 - 提升 万卡GPU训练集群 的训练效率与系统稳定性 - 构建可扩展的 PB级自动驾驶数据训练 pipeline - 分析并解决分布式训练中的性能瓶颈,包括 GPU利用率、通信开销、I/O吞吐等问题 - 与自动驾驶算法团队协作,加速感知、多模态及端到端模型的训练迭代

关于团队 我们正在构建支撑下一代自动驾驶模型的大规模训练基础设施。平台每天处理 PB级自动驾驶数据,在 万卡规模GPU集群 上运行大规模分布式训练任务,为感知、预测和端到端驾驶模型提供高效稳定的训练能力。 团队聚焦 大规模机器学习系统(ML Systems)与训练基础设施(Training Infrastructure),解决自动驾驶模型训练中的核心系统问题,包括分布式训练效率、数据管线扩展性、以及超大规模GPU集群的稳定性与资源利用率优化。 工作内容 你将参与解决自动驾驶大规模模型训练中的核心系统问题,包括: - 设计与优化自动驾驶模型的 大规模训练基础设施 - 提升 万卡GPU训练集群 的训练效率与系统稳定性 - 构建可扩展的 PB级自动驾驶数据训练 pipeline - 分析并解决分布式训练中的性能瓶颈,包括 GPU利用率、通信开销、I/O吞吐等问题 - 与自动驾驶算法团队协作,加速感知、多模态及端到端模型的训练迭代

岗位介绍 我们正在构建下一代 大模型推理平台(LLM Inference Platform),面向 AI Coding、研发效率提升与生产业务智能化等核心场景,提供高性能、可扩展的大模型推理能力。 团队正在结合开源模型与推理生态,在 大规模 GPU 集群上持续优化推理系统的 吞吐 以及单位 Token 推理成本($/Million Tokens)。 岗位职责 - 参与 大模型推理平台的系统研发与架构优化 - 在大规模 GPU 集群环境中优化推理系统的 Throughput、TTFT 和 GPU Utilization - 设计和实现高效推理架构,例如:Prefill / Decode 分离式推理、Continuous / Dynamic Batching、异构推理资源调度 - 构建 分布式 KV Cache 与推理缓存体系,减少重复计算并提升 token generation efficiency 优化推理系统的 单位 Token 计算成本($/Million Tokens) 与集群资源效率

岗位介绍 我们正在构建下一代 大模型推理平台(LLM Inference Platform),面向 AI Coding、研发效率提升与生产业务智能化等核心场景,提供高性能、可扩展的大模型推理能力。 团队正在结合开源模型与推理生态,在 大规模 GPU 集群上持续优化推理系统的 吞吐 以及单位 Token 推理成本($/Million Tokens)。 岗位职责 - 参与 大模型推理平台的系统研发与架构优化 - 在大规模 GPU 集群环境中优化推理系统的 Throughput、TTFT 和 GPU Utilization - 设计和实现高效推理架构,例如:Prefill / Decode 分离式推理、Continuous / Dynamic Batching、异构推理资源调度 - 构建 分布式 KV Cache 与推理缓存体系,减少重复计算并提升 token generation efficiency 优化推理系统的 单位 Token 计算成本($/Million Tokens) 与集群资源效率