快手AI推理优化工程师/专家-大模型

社招全职D117222025-05-16地点：北京状态：招聘

扫码手机上打开

任职要求

1、具备良好的团队协作能力，热爱钻研技术，善于分析、解决工程问题；
2、掌握C++/Python编程语言，熟悉常用数据结构；
3、熟悉深度学习基本知识，熟悉Transformer/Bert网络结构及优化经验更佳；
4、熟悉Pytorch、TensorFlow、ONNX等框架，有二次开发能力或开源社区贡献经历更佳；
5、对NVIDI…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、利用图优化，编译优化，CPU/GPU优化等技术加速CV/NLP/Speech等AI算法推理，充分挖掘处理器算力，为快手数亿用户提供高效稳定的算法能力输出；
2、追踪业界在异构计算性能优化方面的发展，并进行预研和应用探索；
3、工作内容包括但不限于：
	（1）CUDA kernel开发；
	（2）编译优化技术开发；
	（3）onnx parser开发；
	（4）训推一体加速库开发；
	（5）多卡推理技术开发；
	（6）针对Transformer/bert网络结构性能优化。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

C+++

Python+

数据结构+

深度学习+

Transformer+

PyTorch+

还有更多 •••

登录查看完整学习资料

相关职位

大模型推理框架研发工程师/专家

社招5-10年引擎

我们是小红书中台大模型 Infra 团队，专注打造领先易用的「AI 大模型全链路基础设施」！团队深耕大模型「数-训-压-推-评」技术闭环，在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势，基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品，持续赋能社区、商业、交易、安全、数平、研效等多个核心业务，实现 AI 技术高效落地！工作职责： 1、参与/负责研发面向大语言模型(LLM)/多模态大模型(MLLM)等类型模型的推理服务框架； 2、参与/负责KV Router、PD分离/EPD分离、KVCache管理、动态PD调整等分布式推理能力建设； 3、通过并行计算优化、分布式架构优化、异构调度等多种框架技术，打造高效、易用、领先的AI推理框架； 4、参与/负责构建推理框架的系统容错能力，包括但不限于请求迁移、优雅退出、故障检测、自愈等能力建设； 5、深度参与周边深度学习系统多个子方向的工作，包括但不限于模型管理、推理部署、日志/监控、工作流编排等； 6、与全公司各业务算法部门深度合作，为重点项目进行算法与系统的联合优化，支撑业务目标达成。

更新于 2026-03-28北京|上海

大模型异构计算优化工程师/专家

社招3-5年引擎

1、核心引擎开发与优化：负责或深度参与基于国产异构计算芯片（如NPU/PPU等）的大模型训练/推理引擎的架构设计、开发与迭代，构建高性能、高稳定性的上层软件栈； 2、大模型业务落地：将引擎能力应用于公司核心业务，主导或参与多模态、大语言模型等前沿AI模型在国产芯片上的训练、微调与推理部署，解决实际落地中的技术难题； 3、极致性能调优：针对各类业务大模型，进行深度的推理调度策略优化和关键算子（Kernel）的性能剖析与极致优化，持续提升系统的吞吐量、降低延迟； 4、生态合作与协同：作为技术接口人，与国产芯片原厂技术支持团队紧密合作，高效推进芯片驱动、基础软件栈的引入、问题排查与版本迭代，确保技术路线顺畅推进。

更新于 2026-03-28北京|上海

业务技术-AI Agent 优化工程师/专家-物流技术

社招2年以上

这是一个综合的AI推理、优化的技术岗位，适合从事以下工作的候选人投递： ● AI应用构建与模型优化工作的候选人 ● AI应用数据构建与自动化评测工作的候选人 ●多模态AI应用构建与算法优化工作的候选人围绕真实业务核心场景，参与AI应用的系统化构建与优化，把AI变为业务增长引擎，具体职责包括以下相关方向的一项或多项： 1、AI应用全生命周期演进：深度参与业务问题建模、应用架构设计、上下文工程、训练数据构建、自动化评估体系、模型后训练优化等； 2、数据飞轮构建：打造高质量数据生产链路，探索合成数据（Synthetic Data）与高效蒸馏技术方案，跑通“业务-模型-反馈”迭代闭环； 3、评测体系构建：面向业务目标，设计完备的AI应用效果评估体系，构建自动化评估框架，建立离线评估与在线业务指标联动的量化评估能力； 4、强化学习与奖励机制设计：构建可工程化的Reward体系与RL训练环境，提升模型在垂直业务场景中的可控性与泛化能力； 5、AI外部能力体系搭建：实现AI应用所需的知识库（RAG）、长短期记忆系统（Memory）、工具调用、多Agent协作框架等 6、多模态AI应用开发：构建AI应用的多模态感知与推理能力，解决在UI自动化、视觉理解与审核、多模态会话等场景的落地应用问题。

更新于 2026-04-08杭州

大模型训练框架研发工程师/专家

社招5-10年引擎

我们是小红书中台大模型 Infra 团队，专注打造领先易用的「AI 大模型全链路基础设施」！团队深耕大模型「数-训-压-推-评」技术闭环，在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势，基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品，持续赋能社区、商业、交易、安全、数平、研效等多个核心业务，实现 AI 技术高效落地！ 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架，优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline； 2、研发支持多机多卡 RL 的分布式训练框架，开发TP/PP/ZeRO-3与RL流程的动态协同机制，解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链，主导框架与 MLOps 平台集成，提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作，参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代； 5、参与分析各业务 GPU 利用率与饱和度等指标，结合业务场景持续优化训练框架能力，提升框架领先性。

更新于 2026-03-28上海|北京