logo of xiaohongshu

小红书大模型-推理框架研发工程师

社招全职3-5年引擎地点:北京 | 上海状态:招聘

任职要求


1. 熟练掌握GPU CUDA编程
2. 追求技术极致,务实,渴望有自己的作品和代表作
3. 加分项
- 对芯片…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


【业务介绍】小红书业务技术部-引擎架构团队,支撑社区、搜索、商业化等小红书核心业务落地AI技术
:
1. 参与/负责研发面向大语言模型(LLM)/多模态大模型(MLLM)的推理服务的研发和优化; 
2. 在PD分离、EP部署的基础上,优化Agentic 服务的推理效率,降低推理成本
包括英文材料
CUDA+
相关职位

logo of xiaohongshu
社招5-10年引擎

我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 工作职责: 1、参与/负责研发面向大语言模型(LLM)/多模态大模型(MLLM)等类型模型的推理服务框架; 2、参与/负责KV Router、PD分离/EPD分离、KVCache管理、动态PD调整等分布式推理能力建设; 3、通过并行计算优化、分布式架构优化、异构调度等多种框架技术,打造高效、易用、领先的AI推理框架; 4、参与/负责构建推理框架的系统容错能力,包括但不限于请求迁移、优雅退出、故障检测、自愈等能力建设; 5、深度参与周边深度学习系统多个子方向的工作,包括但不限于模型管理、推理部署、日志/监控、工作流编排等; 6、与全公司各业务算法部门深度合作,为重点项目进行算法与系统的联合优化,支撑业务目标达成。

更新于 2026-03-28北京|上海
logo of didi
社招技术

1. 主导大模型推理引擎的架构设计与核心模块开发,支撑千亿参数模型的高效分布式推理。 2. 研发面向GPU/NPU等异构计算平台的高性能算子,提升硬件利用效率。 3. 参与模型低精度量化,图优化,编译优化等性能优化工作。 4. 攻克分布式推理中的动态负载均衡、通信优化、显存管理等核心技术难题。 5. 跟踪学术界与工业界前沿技术(如vLLM、TGI、TensorRT-LLM等),推进框架迭代。

更新于 2025-12-02北京
logo of tencent
社招3年以上腾讯云技术

1.研发及优化大模型推理引擎、PD分离推理调度系统,提升大规模分布式推理系统的整体效率; 2.支持主流GPU和异构AI芯片,优化大模型推理性能,打造极致性能成本优势。

更新于 2026-04-01上海
logo of xiaohongshu
社招引擎

工作职责: 1、负责研发面向CV/NLP/多模态/大语言模型等类型的模型推理服务框架,通过在CPU/GPU/NPU/...等异构硬件上实现并行计算优化、分布式架构设计、异构调度等多种高性能优化技术,打造业界领先的高性能异构AI推理引擎 2、围绕框架,深度参与周边机器学习系统多个子方向的工作,包括:模型管理、推理部署、日志/监控、工作流编排等 3、与全公司相关算法部门深度合作,为重点项目进行算法与系统的联合优化

更新于 2025-08-06北京|上海