logo of horizon

地平线模型训练平台开发工程师

社招全职软件序列地点:北京状态:招聘

任职要求


1. 本科及以上学历,计算机、软件相关专业,有AI模型训练平台开发或优化经验,尤其是大规模分布式训练;
2. 掌握PyTorch深度学习框架,具备丰富的分布式训练优化经验,熟悉通信优化、混合精度训练、梯度压缩等技术。
3. 具备丰富的故障定位和诊断经验,能够快速识别和解决问题;
4. 扎实的编程技术,熟悉 python/Golang/C++等至少编程语言;
5. 具备良好的团队合作精神,能够与跨职能团队紧密合作。
加分项:
1. 有自动驾驶或相关领域的大规模模型训练经验;

工作职责


我们正在寻找一位专注于AI模型训练平台构建与优化的技术专家,负责模型训练平台及训练任务的优化,确保平台稳定性、高效率和可扩展。
1. 训练平台架构设计与构建。基于云原生技术设计和实现大规模AI模型训练平台,支持千卡规模以上的分布式训练任务;构建高效的资源调度和管理系统,优化GPU计算资源的利用率,确保平台的高性能和可扩展性。
2. 大规模训练稳定性优化。解决大规模训练过程中的稳定性问题,包括软硬件故障、通信瓶颈、数据同步与加速等;设计和实现容错机制,确保训练任务在硬件或网络故障时能够快速恢复。
3. 故障定位与诊断。设计和实现高效的故障定位系统,能够在大规模集群的复杂环境中快速定位故障点;利用日志分析、性能监控和分布式追踪技术,实时监控训练任务的运行状态,快速识别和修复问题;简化故障排查流程,减少人工干预。
4.  训练效率提升。利用大模型训练的优化技巧,结合自动驾驶场景的超大数据集,持续优化提升整体训练效率;
包括英文材料
学历+
PyTorch+
深度学习+
Python+
Go+
C+++
自动驾驶+
相关职位

logo of xiaohongshu
社招3年以上机器学习平台

【业务介绍】 作为公司统一的机器学习平台团队,负责调度公司所有模型训练与推理资源;基于自建的训推引擎,构建公司统一的机器学习平台,为公司所有算法同学(稀疏 & 稠密,含 LLM) 模型迭代提供端到端的一站式服务;包括 数据生产,模型训练,模型上线,特征管理,模型测试,资源管控等一系列能力。 【岗位职责】 1、负责机器学习链路,离在线数据相关的开发工作,包括样本数据、特征数据等的数据链路搭建、任务运维和调优、性能优化等 2、负责小红书大规模机器学习平台的后台系统设计和开发工作;包括样本平台,特征平台,训练平台,推理平台等AI应用后台建设等; 3、研究分析业内AI平台产品,优化技术方案,改进产品功能,完善产品体验。

logo of horizon
社招3年以上系统序列

岗位职责: 1、参与公司 AI 一站式平台后端系统的开发和维护,包括数据管理标注平台、模型训练平台、推理部署平台等功能模块。 2、协助完成平台架构设计和技术选型,确保系统的稳定性和可扩展性。 3、与算法工程师、产品经理等团队成员合作,理解业务需求,并将其转化为技术解决方案。 4、负责代码编写、单元测试和代码优化,确保代码质量符合项目标准。 5、编写相关技术文档,记录开发过程和系统架构。

更新于 2025-08-18
logo of transsion
社招

1. 全面负责AI算法数据生产工具的需求梳理、平台架构设计与开发,包括不限于音频、文本等数据类型; 2. 负责AI数据资产的数仓建设,包括标签体系设计、数据安全策略、数据查询获取等,和模型自动训练平台高效平稳对接; 3. 负责数据云服务系统的运维; 4. 与部门算法工程师,数据生产工程师配合,理解数据平台需求,完成项目升级开发; 5. 负责文档撰写、新开发人员的培训等团队建设工作。

更新于 2025-02-08
logo of baidu
社招3年以上ACG

-参与大模型工程化平台设计与建设,搭建产业级AI原生应用开发平台 -负责平台相关的产品和技术中台研发工作,包括但不限于Agent、RAG、Workflow等 -负责平台相关的基础设施研发工作,包括但不限于网关、流控、统一鉴权、计费等 -负责平台稳定性、性能等提升工作,包括但不限于服务性能监控与优化、trace、效率工具等 -与前端研发、算法研发和产品团队紧密合作,构建优秀的用户体验和功能

更新于 2024-09-10