
地平线模型训练平台开发工程师
社招全职软件序列地点:北京状态:招聘
任职要求
1. 本科及以上学历,计算机、软件相关专业,有AI模型训练平台开发或优化经验,尤其是大规模分布式训练; 2. 掌握PyTorch等深度学习框架,具备丰富的分布式训练优化经验,熟悉通信优化、混合精度训练、梯度压缩等技术。 3. 具备丰富的故障定位和诊断经验,能够快速识别和解决问题; 4. 扎实的编程技术,熟悉 python/Golang/C++等至少编程语言; 5. 具备良好的团队合作精神,能够与跨职能团队紧密合作。 加分项: 1. 有自动驾驶或相关领域的大规模模型训练经验;
工作职责
我们正在寻找一位专注于AI模型训练平台构建与优化的技术专家,负责模型训练平台及训练任务的优化,确保平台稳定性、高效率和可扩展。 1. 训练平台架构设计与构建。基于云原生技术设计和实现大规模AI模型训练平台,支持千卡规模以上的分布式训练任务;构建高效的资源调度和管理系统,优化GPU计算资源的利用率,确保平台的高性能和可扩展性。 2. 大规模训练稳定性优化。解决大规模训练过程中的稳定性问题,包括软硬件故障、通信瓶颈、数据同步与加速等;设计和实现容错机制,确保训练任务在硬件或网络故障时能够快速恢复。 3. 故障定位与诊断。设计和实现高效的故障定位系统,能够在大规模集群的复杂环境中快速定位故障点;利用日志分析、性能监控和分布式追踪技术,实时监控训练任务的运行状态,快速识别和修复问题;简化故障排查流程,减少人工干预。 4. 训练效率提升。利用大模型训练的优化技巧,结合自动驾驶场景的超大数据集,持续优化提升整体训练效率;
包括英文材料
学历+
PyTorch+
https://datawhalechina.github.io/thorough-pytorch/
PyTorch是利用深度学习进行数据科学研究的重要工具,在灵活性、可读性和性能上都具备相当的优势,近年来已成为学术界实现深度学习算法最常用的框架。
https://www.youtube.com/watch?v=V_xro1bcAuA
Learn PyTorch for deep learning in this comprehensive course for beginners. PyTorch is a machine learning framework written in Python.
深度学习+
https://d2l.ai/
Interactive deep learning book with code, math, and discussions.
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
Go+
https://www.youtube.com/watch?v=8uiZC0l4Ajw
学习Golang的完整教程!从开始到结束不到一个小时,包括如何在Go中构建API的完整演示。没有多余的内容,只有你需要知道的知识。
C+++
https://www.learncpp.com/
LearnCpp.com is a free website devoted to teaching you how to program in modern C++.
https://www.youtube.com/watch?v=ZzaPdXTrSb8
自动驾驶+
https://www.youtube.com/watch?v=_q4WUxgwDeg&list=PL05umP7R6ij321zzKXK6XCQXAaaYjQbzr
Lecture: Self-Driving Cars (Prof. Andreas Geiger, University of Tübingen)
https://www.youtube.com/watch?v=NkI9ia2cLhc&list=PLB0Tybl0UNfYoJE7ZwsBQoDIG4YN9ptyY
You will learn to make a self-driving car simulation by implementing every component one by one. I will teach you how to implement the car driving mechanics, how to define the environment, how to simulate some sensors, how to detect collisions and how to make the car control itself using a neural network.
相关职位
社招3年以上机器学习平台
【业务介绍】 作为公司统一的机器学习平台团队,负责调度公司所有模型训练与推理资源;基于自建的训推引擎,构建公司统一的机器学习平台,为公司所有算法同学(稀疏 & 稠密,含 LLM) 模型迭代提供端到端的一站式服务;包括 数据生产,模型训练,模型上线,特征管理,模型测试,资源管控等一系列能力。 【岗位职责】 1、负责机器学习链路,离在线数据相关的开发工作,包括样本数据、特征数据等的数据链路搭建、任务运维和调优、性能优化等 2、负责小红书大规模机器学习平台的后台系统设计和开发工作;包括样本平台,特征平台,训练平台,推理平台等AI应用后台建设等; 3、研究分析业内AI平台产品,优化技术方案,改进产品功能,完善产品体验。

社招3年以上系统序列
岗位职责: 1、参与公司 AI 一站式平台后端系统的开发和维护,包括数据管理标注平台、模型训练平台、推理部署平台等功能模块。 2、协助完成平台架构设计和技术选型,确保系统的稳定性和可扩展性。 3、与算法工程师、产品经理等团队成员合作,理解业务需求,并将其转化为技术解决方案。 4、负责代码编写、单元测试和代码优化,确保代码质量符合项目标准。 5、编写相关技术文档,记录开发过程和系统架构。
更新于 2025-08-18
社招
1. 全面负责AI算法数据生产工具的需求梳理、平台架构设计与开发,包括不限于音频、文本等数据类型; 2. 负责AI数据资产的数仓建设,包括标签体系设计、数据安全策略、数据查询获取等,和模型自动训练平台高效平稳对接; 3. 负责数据云服务系统的运维; 4. 与部门算法工程师,数据生产工程师配合,理解数据平台需求,完成项目升级开发; 5. 负责文档撰写、新开发人员的培训等团队建设工作。
更新于 2025-02-08