快手(大模型专项)深度学习平台研发工程师(C++)
任职要求
1、具备良好的团队协作能力,热爱钻研技术,善于分析、解决工程问题; 2、熟练掌握 C++ 开发,熟悉常用数据结构和基础算法,有两年及以上 C++ 工程经验更佳; 3、熟悉 Tensorflow 或 PyTorch 的使用,有二次开发能力 或 开源社区贡献经历 更佳; 4、了解分布式训练相关概念,如 参数服务器、集合通信 等,有 训练框架、HPC 等领域从业背景更佳; 5、加分项: (1) 熟悉 CPU 体系结构,有 高性能系统 开发、优化经验; (2)熟悉 GPU 体系结构,有 CUDA 开发、优化经验; (3)熟悉 异构计算,有 ASIC 相关经验; (4)熟悉 深度学习编译优化,有 MLIR / XLA / TVM 开发、优化经验; (5)熟悉 通信优化,有 RDMA 开发、优化经验; (6)有 ACM、Kaggle 等比赛获奖经历,或顶会论文发表经历。
工作职责
1、 研发业界领先的分布式深度学习训练框架,提供面向大规模稀疏数据的解决方案,服务于快手内部所有推荐类业务场景,包括 短视频、海外、广告、电商、直播等; 2、 多样的业务形态和庞大的业务规模 使得 框架的开发与优化 极富挑战性:万量级 GPU 卡,千亿量级样本,万亿量级参数,PB 量级训练数据; 3、工作内容包括但不限于: (1)参数服务器; (2)多机多卡分布式; (3)网络通信优化(以太网,RDMA); (4)GPU 优化(Kernel 优化,编译优化 等); (5)框架原生化(Tensorflow,PyTorch)。
1、负责快手内部推荐、大模型模型训练、大模型推理的云原生平台、负责训练与推理的二层调度、大规模GPU、CPU集群管理和资源优化,做深度学习框架与资源调度相结合的资源管理与优化; 2、业内AI资源管理平台前沿技术进展跟进与调研、落地。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、负责大模型平台的架构设计和核心功能研发,构建云原生架构,设计高可用、高性能的微服务体系; 2、负责构建面向大模型全流程的DevOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地; 3、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、GPU虚拟化、存储&网络加速等手段,提升GPU集群使用效率; 4、将平台和框架结合,通过任务调度、弹性容灾、性能优化等措施端到端提升AI生产效率,涉及k8s/kubeflow、网络通信、分布式训练等; 5、优化各AI平台性能,提升系统稳定性和可扩展性,保障大规模并发场景下的服务质量与用户体验; 6、持续研究分析业内创新AI平台产品,优化技术方案,改进产品功能,提升创新能力与产品体验。
1、深度参与大模型平台产品,协同产品和研发团队高质量交付产品; 2、通过测试技术,提升测试效率及测试覆盖度; 3、负责开发测试工具,推进系统的稳定性建设; 4、根据系统特性,探索测试手段,参与专项的质量建设。