蔚来AI平台研发工程师(计算加速/智算方向)
任职要求
1. 全日制统招硕士以上学历,计算机、人工智能相关专业; 2. 熟悉Go/C++/Python中的一种及以上,有训练/推理/微调平台研发、优化或模型训练经验; 3. 熟悉深度学习、神经网络相关知识,有深度学习、自动驾驶实际工作经验; 4. 了解多种分布式训练架构及原理,有实际分布式训练框架落地经验。 加分项: 有人工智能训练平台或自动驾驶行业经验; 有AI智算中心/平台设计实施经验。
工作职责
1.负责公司AI平台架构设计,包括但不限于改善训练及推理效率、超大规模训练、智算平台等; 2.负责设计、研发大模型算法开发组件,包括但不限于微调软件框架、模型流水线等; 3.规划AI平台技术发展方向,跟进业界前沿技术,实现面向端到端大模型系统的极致性能优化。
-负责建设业界领先的AI异构算力容器平台,提供高性能、高稳定性、高易用性的混合云产品,支持AIGC、智算中心、智驾、金融能源等客户AI应用高效部署 -负责云原生AI容器相关产品的架构设计和产品研发,引入开源社区先进的AI框架、AI调度、AI工作流和AI可观测能力组件构建全栈AI应用云原生解决方案 -结合 SOTA 模型训练推理优化原理,深入模型结构与设计思路,将训练推理优化手段工程实践化,为客户提供系统性加速方案,提升训推效率 -针对大规模异构集群场景下,探索训推任务管理、异构资源调度、虚拟化混布、容器存储、高性能网络、分布式训练和推理等技术的创新和应用 -探索业界最新技术方向,参与机器学习框架等开源社区,提升百度混合云AI核心竞争力,提升团队技术影响力
1、面向AI应用场景设计开发业界领先的AI平台,包括prompt工程,RAG工程、模型微调、推理加速等能力; 2、负责大模型场景下多领域的数据工程,包含知识库数据的高质量处理,Prompt提示词的优化,模型微调数据集的质量提升; 3、负责大模型场景下模型推理框架的性能优化方案的设计与实现; 4、设计训练和优化大模型,跟踪和研发代码大模型的预训练、持续训练、SFT、RLHF等技术; 5、设计与实现AI智能体应用的编排定义,提升企业应用的智能度。
1、面向AI应用场景设计开发业界领先的AI平台,包括prompt工程,RAG工程、模型微调、推理加速等能力; 2、负责大模型场景下多领域的数据工程,包含知识库数据的高质量处理,Prompt提示词的优化,模型微调数据集的质量提升; 3、负责大模型场景下模型推理框架的性能优化方案的设计与实现; 4、设计训练和优化大模型,跟踪和研发代码大模型的预训练、持续训练、SFT、RLHF等技术; 5、设计与实现AI智能体应用的编排定义,提升企业应用的智能度。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、负责大模型平台的架构设计和核心功能研发,构建云原生架构,设计高可用、高性能的微服务体系; 2、负责构建面向大模型全流程的DevOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地; 3、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、GPU虚拟化、存储&网络加速等手段,提升GPU集群使用效率; 4、将平台和框架结合,通过任务调度、弹性容灾、性能优化等措施端到端提升AI生产效率,涉及k8s/kubeflow、网络通信、分布式训练等; 5、优化各AI平台性能,提升系统稳定性和可扩展性,保障大规模并发场景下的服务质量与用户体验; 6、持续研究分析业内创新AI平台产品,优化技术方案,改进产品功能,提升创新能力与产品体验。