快手(大模型专项)机器学习平台研发工程师(云原生及资源调度方向)
任职要求
1、计算机基础知识与编程基本功扎实,熟悉Go/Python/C++/Bash至少一种; 2、 有云原生相关平台的开发与管理经验,有CPU、GPU集群的资源管理 与调度平台开发经验; 3、良好的沟通能力和团队…
工作职责
1、负责快手内部推荐、大模型模型训练、大模型推理的云原生平台、负责训练与推理的二层调度、大规模GPU、CPU集群管理和资源优化,做深度学习框架与资源调度相结合的资源管理与优化; 2、业内AI资源管理平台前沿技术进展跟进与调研、落地。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、负责大模型平台的架构设计和核心功能研发,构建云原生架构,设计高可用、高性能的微服务体系; 2、负责构建面向大模型全流程的DevOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地; 3、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、GPU虚拟化、存储&网络加速等手段,提升GPU集群使用效率; 4、将平台和框架结合,通过任务调度、弹性容灾、性能优化等措施端到端提升AI生产效率,涉及k8s/kubeflow、网络通信、分布式训练等; 5、优化各AI平台性能,提升系统稳定性和可扩展性,保障大规模并发场景下的服务质量与用户体验; 6、持续研究分析业内创新AI平台产品,优化技术方案,改进产品功能,提升创新能力与产品体验。
1、负责AIGC创作平台(MaaS)开发,包括但不限于:模型体验、Comfy推理引擎、AI自动工程化、智能运维与流量治理等,与团队共同打造AI全生命周期的技术中台。 2、负责高质量的设计和编码及系统稳定性优化; 3、参与系统瓶颈问题专项治理,解决系统高并发、大数据等问题,提高系统稳定性; 4、参与新技术的调研和落地。
1、多模态推理工作流架构,设计并实现多阶段分布式推理工作流,支持视觉/文本/音频等多模态内容生成任务,负责大模型服务的端到端开发与部署,包括模型集成、API封装及异构资源调度优化; 2、AIOPS平台建设与协作提效,构建面向大模型业务的全生命周期AIOPS平台,覆盖开发、测试、监控全流程,建设标准化工具链与自动化流程,落地跨团队高效协作范式,加速业务迭代与成果转化; 3、Agent应用开发,支持TOC多模态AIGC任务的编排计算,利用Agent能力辅助用户进行复杂视频生成等。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架,优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline; 2、研发支持多机多卡 RL 的分布式训练框架,开发TP/PP/ZeRO-3与RL流程的动态协同机制,解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链,主导框架与 MLOps 平台集成,提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作,参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代; 5、参与分析各业务 GPU 利用率与饱和度等指标,结合业务场景持续优化训练框架能力,提升框架领先性。