快手推荐架构工程师-【模型推理方向】
任职要求
1、熟悉Linux开发环境,良好的系统编程、数据结构、算法基础、系统设计能力;掌握C++/Python编程语言; 2、熟悉TensorFlow/Pytorch/TensorRT/XLA等等主…
工作职责
1、负责快手搜广推场景的在线预估引擎的建设,覆盖特征查询计算到模型预估全链路,支撑算法实现全场景全链路深度模型化; 2、针对CPU&GPU的异构系统联合优化,持续提升算法天花板; 3、支撑推荐大模型范式在快手的应用落地。
1.主导多模态推荐系统研发,结合文本、图像、视频等多模态数据优化商品理解、用户行为分析及推荐策略,推动多模态与电商场景的深度融合。 2.设计并实现跨模态对齐技术(如图文/视频语义一致性建模),提升推荐系统的泛化能力和冷启动效果,探索多模态大模型在电商中的创新应用(如CLIP、BEiT3等框架优化)。 3.推动多模态模型的工程化部署,包括分布式训练加速(如TensorRT-LLM)、推理效率优化及性能调优。 4.结合搜索与推荐场景,探索多模态特征在排序、检索中的辅助作用,提升用户交互体验。
1. 大模型部署与性能优化:负责电商搜索推荐场景下的常规深度模型和大模型(如LLM、多模态模型等)高效部署,优化推理性能,提升吞吐量并降低延迟;探索模型压缩(如量化、剪枝、蒸馏)、动态批处理(Dynamic Batching)、显存优化等技术,降低线上服务成本; 2. 工程化落地与调优:结合业务需求,优化模型在GPU/CPU异构计算环境下的推理效率,解决显存溢出、计算瓶颈等问题;实现模型服务与现有电商系统的无缝集成,确保高可用性和稳定性; 3. 跨团队协作与创新:与算法团队紧密合作,推动模型从训练到部署的全流程优化,平衡效果与性能;调研前沿技术(如vLLM、Triton Inference Server、FlashAttention等),探索在1688电商场景的落地可能性;
1、参与/负责研发面向大规模稀疏参数机器学习模型的等推理服务框架; 2、通过并行计算优化、分布式架构优化、异构调度等多种框架技术,打造高效、易用、领先的AI推理框架; 3、与全公司各业务算法部门深度合作,为重点项目进行算法与系统的联合优化,支撑业务目标达成; 4、深度参与周边深度学习系统多个子方向的工作,包括但不限于模型管理、推理部署、日志/监控、推荐系统等;