小鹏汽车深度学习平台研发工程师
任职要求
【基本资格】: 5. 计算机科学,工程或相关领域的学士学位 6. 熟悉Linux开发环境,掌握Golang/Python等语言,具备良好的代码规范意识和文档编写能力 7. 熟悉云原生相关技术,如kubernetes、kubeflow、volcano等,具备二次开发经验 8. 熟悉微服务、数据库、分布式系统、缓存技术、消息队列等相关技术 9. 强大的解决问题能力,热爱技术,有较强的自我驱动学习能力,持续关注前沿技术发展 【加…
工作职责
: 建设高效的深度学习基础服务,为各类模型研发提供技术支撑,优化计算效率,支持算法团队业务需求落地 【主要职责】: 1. 负责深度学习平台的系统架构设计和研发工作,提供端到端的模型交付能力 2. 集成云原生能力,负责模型研发、训练、推理等相关功能,提升平台资源利用率和计算效率 3. 负责大模型训练/推理的监控、调优和故障定位 4. 持续运营,改进平台性能、易用性和稳定性,优化用户体验
1.建设特征/样本工程,设计包括从特征打印到特征服务的完整实时+离线特征/样本生产流程,设计大规模分布式特征存储系统,支撑百亿级数据实时处理,提升特征/样本的生产效率、质量和访问性能,进而提升算法迭代效率和效果; 2.对算法开发过程进行抽象,将常用的机器学习、深度学习过程沉淀为组件,建设算法开发pipeline,设计代码与可视化组件相结合的编程范式,提供便捷稳固的一站式环境托管,提升算法迭代效率; 3.建设训练任务的托管能力,设计异构、多地域、多系统资源池、多租户分组的实验编排调度系统,建立模型实验效果评估体系,支撑几十个业务线、千级模型同时进行训练,保障模型及时产出,提升资源利用率,帮助业务优化模型效果; 4.探索云原生下的模型服务部署架构,设计高可用、多角色的模型服务框架,制定流量分发、模型/服务治理策略,支撑万亿级推理调用量,提升模型部署成功率、推理请求成功率和性能;
1、负责公司级机器学习平台MLOps 的研发,从机器学习系统、云原生、云计算架构等多个层面进行技术探索和攻坚,实现高性能、高资源利用率的高性能机器学习平台; 2、设计和实现机器学习相关的基础设施/算法框架/工具链等,并推动落地到业务中; 3、覆盖机器学习系统多个子方向领域的工作,包括:资源调度、任务编排、模型训练、模型推理、特征平台、工作流编排等; 4、负责机器学习系统前瞻技术的调研和引入,比如:硬件架构、异构计算系统、GPU 优化技术的引入落地;
【业务介绍】 作为公司统一的机器学习平台团队,负责调度公司所有模型训练与推理资源;基于自建的训推引擎,构建公司统一的机器学习平台,为公司所有算法同学(稀疏 & 稠密,含 LLM) 模型迭代提供端到端的一站式服务;包括 数据生产,模型训练,模型上线,特征管理,模型测试,资源管控等一系列能力。 【岗位职责】 1、负责小红书大规模机器学习平台的后台系统设计和开发工作; 2、将平台和框架结合,通过任务调度、弹性容灾、性能优化等措施端到端提升深度学习的训练效率,涉及k8s/kubeflow、网络通信、分布式训练等; 3、设计和构建 K8S 场景下的资源调度系统,参与底层GPU训练资源的调度优化与管理; 4、研究分析业内AI平台产品,优化技术方案,改进产品功能,完善产品体验。