快手AI推理优化工程师/专家-大模型
任职要求
1、具备良好的团队协作能力,热爱钻研技术,善于分析、解决工程问题; 2、掌握C++/Python编程语言,熟悉常用数据结构; 3、熟悉深度学习基本知识,熟悉Transformer/Bert网络结构及优化经验更佳; 4、熟悉Pytorch、TensorFlow、ONNX等框架,有二次开发能力或开源社区贡献经历更佳; 5、对NVIDI…
工作职责
1、利用图优化,编译优化,CPU/GPU优化等技术加速CV/NLP/Speech等AI算法推理,充分挖掘处理器算力,为快手数亿用户提供高效稳定的算法能力输出; 2、追踪业界在异构计算性能优化方面的发展,并进行预研和应用探索; 3、工作内容包括但不限于: (1)CUDA kernel开发; (2)编译优化技术开发; (3)onnx parser开发; (4)训推一体加速库开发; (5)多卡推理技术开发; (6)针对Transformer/bert网络结构性能优化。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 工作职责: 1、参与/负责研发面向大语言模型(LLM)/多模态大模型(MLLM)等类型模型的推理服务框架; 2、参与/负责KV Router、PD分离/EPD分离、KVCache管理、动态PD调整等分布式推理能力建设; 3、通过并行计算优化、分布式架构优化、异构调度等多种框架技术,打造高效、易用、领先的AI推理框架; 4、参与/负责构建推理框架的系统容错能力,包括但不限于请求迁移、优雅退出、故障检测、自愈等能力建设; 5、深度参与周边深度学习系统多个子方向的工作,包括但不限于模型管理、推理部署、日志/监控、工作流编排等; 6、与全公司各业务算法部门深度合作,为重点项目进行算法与系统的联合优化,支撑业务目标达成。

这是一个综合的AI推理、优化的技术岗位,适合从事以下工作的候选人投递: ● AI应用构建与模型优化工作的候选人 ● AI应用数据构建与自动化评测工作的候选人 ●多模态AI应用构建与算法优化工作的候选人 围绕真实业务核心场景,参与AI应用的系统化构建与优化,把AI变为业务增长引擎,具体职责包括以下相关方向的一项或多项: 1、AI应用全生命周期演进:深度参与业务问题建模、应用架构设计、上下文工程、训练数据构建、自动化评估体系、模型后训练优化等; 2、数据飞轮构建:打造高质量数据生产链路,探索合成数据(Synthetic Data)与高效蒸馏技术方案,跑通“业务-模型-反馈”迭代闭环; 3、评测体系构建:面向业务目标,设计完备的AI应用效果评估体系,构建自动化评估框架,建立离线评估与在线业务指标联动的量化评估能力; 4、强化学习与奖励机制设计:构建可工程化的Reward体系与RL训练环境,提升模型在垂直业务场景中的可控性与泛化能力; 5、AI外部能力体系搭建:实现AI应用所需的知识库(RAG)、长短期记忆系统(Memory)、工具调用、多Agent协作框架等 6、多模态AI应用开发:构建AI应用的多模态感知与推理能力,解决在UI自动化、视觉理解与审核、多模态会话等场景的落地应用问题。
1、核心引擎开发与优化:负责或深度参与基于国产异构计算芯片(如NPU/PPU等)的大模型训练/推理引擎的架构设计、开发与迭代,构建高性能、高稳定性的上层软件栈; 2、大模型业务落地:将引擎能力应用于公司核心业务,主导或参与多模态、大语言模型等前沿AI模型在国产芯片上的训练、微调与推理部署,解决实际落地中的技术难题; 3、极致性能调优:针对各类业务大模型,进行深度的推理调度策略优化和关键算子(Kernel)的性能剖析与极致优化,持续提升系统的吞吐量、降低延迟; 4、生态合作与协同:作为技术接口人,与国产芯片原厂技术支持团队紧密合作,高效推进芯片驱动、基础软件栈的引入、问题排查与版本迭代,确保技术路线顺畅推进。