百度大模型推理架构研发工程师（J95970）

社招全职基础模型研发部2026-01-28地点：北京 | 上海 | 深圳状态：招聘

扫码手机上打开

任职要求

-热爱编程，精通C++/Python，精通CUDA 编程
-具有独立开发能力，精通计算机体系结构，有汇编级别开发经验，对AI算法和主流框架有丰富的应用或开发经验
-了解FlashAttention、PagedAttention、MoE、Chunked Prefill 等大模型核心技术；
-了解常见的大模型量化算法（如AWQ、GPTQ、SmoothQuant 等）及量化算子的实现；
-了解大模型通信算子（如Allreduce…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

-负责百度文心大模型的推理性能优化
-参与飞桨深度学习平台（ PaddlePaddle）推理框架的设计、开发和业务支持
-负责深度学习框架的性能优化工作，包括但不限于功能模块在CPU/GPU上的深度优化工作
-负责深度学习推理框架前瞻技术的跟踪调研，实现技术创新突破
-参与深度学习框架的易用性优化工作，使开发者能够以更简单的方式实现各类任务，降低学习成本和开发成本
-负责异构高性能计算平台的设计、研发，高性能计算库、通信库开发与优化
-支持百度萝卜快跑、搜索等业务大模型的推理性能优化

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

C+++

Python+

CUDA+

算法+

大模型+

PaddlePaddle+

还有更多 •••

登录查看完整学习资料

相关职位

大模型推理架构研发工程师（J95970）

社招基础模型研发部

-负责百度文心大模型的推理性能优化 -参与飞桨深度学习平台（ PaddlePaddle）推理框架的设计、开发和业务支持 -负责深度学习框架的性能优化工作，包括但不限于功能模块在CPU/GPU上的深度优化工作 -负责深度学习推理框架前瞻技术的跟踪调研，实现技术创新突破 -参与深度学习框架的易用性优化工作，使开发者能够以更简单的方式实现各类任务，降低学习成本和开发成本 -负责异构高性能计算平台的设计、研发，高性能计算库、通信库开发与优化 -支持百度萝卜快跑、搜索等业务大模型的推理性能优化

更新于 2026-01-29北京|上海|深圳

大模型推理KV Cache系统：从存储架构到软硬协同的全栈演进-阿里星

实习阿里巴巴2027

大模型推理的成本与效率是行业核心挑战，而 KV Cache 管理是突破瓶颈的关键。本岗位将主导构建下一代 LLM 推理存储架构，融合算法优化、系统调度与硬件感知能力，打造高弹性、低成本、高可用的推理基础设施，支撑公司核心大模型业务的规模化落地。 1. 负责设计和实现面向大规模推理的存储系统，深度融合推理引擎，构建从显存、本地内存至分布式冷存储的全局多级存储池； 2. 基于特征识别实现数据的智能调度与分布管理，推动计算存储分离、弹性资源池等核心能力落地，建立高扩展、高可靠的推理存储系统底座； 3. 定义存储与推理引擎间的统一数据访问抽象层，通过零侵入式接口设计实现计算存储解耦，为多级缓存、预取调度等高级策略提供标准化支撑； 4. 建立 KV Cache 资源评估与治理体系，通过数据驱动的方式识别优化空间，在保障服务品质的前提下持续降低推理成本、提升资源 ROI； 5. 联合上下游团队，深入 KV Cache 全栈优化和技术攻关，建立端到端 KV Cache 系统； 6. 跟踪学术界与工业界 KV Cache 最新进展，推动量化、压缩、调度等创新技术在大规模生产环境中的落地。

更新于 2026-03-23北京|杭州

广告大模型训练/推理优化实习生-广告架构与工程

实习A89336A

ByteIntern：面向2027届毕业生（2026年9月-2027年8月期间毕业），为符合岗位要求的同学提供转正机会。团队介绍：架构与工程团队负责为中国交易与广告产品和业务打造大规模、可扩展、高效和稳定的工程架构支撑。团队职责包括抖音、今日头条、番茄视频等各APP端的广告架构和工程、抖音商城架构、广告创意平台等。加入我们，可以直面超大流量规模、复杂的业务逻辑，不断探索产品和技术的演进前沿，实现新技术趋势下的业务和架构转型。期待你来，一起打造高效、智能、可信赖、可持续发展的交易与广告产品，实现用户、客户和平台共赢！ 1、完成LLM训练/推理技术在广告大模型场景的研发、落地和调优，解决广告/推荐场景的大模型工程问题； 2、针对PyTorch、TensorFlow等框架提供高自动化、极致性能的模型优化方案； 3、推动基于大模型开源组件构建，设计和实现新一代推荐系统架构，支持推荐大模型在业务落地； 4、与算法团队Co-Design，推动端到端生成式推荐技术创新的预研和落地。

更新于 2026-05-20上海

面向多模态大模型的分布式推理架构与极致性能优化-阿里星

实习阿里巴巴2027

1、分布式推理架构的研发，包括多机推理架构设计，P/D分离、A/F分离、VL模型分离架构的落地； 2、推理引擎服务化，包括推理引擎如何接入线上服务平台，自动扩缩容和可观测性的适配，以及提升线上服务稳定性； 3、多模态模型的推理功能开发和性能优化，包括对Qwen-VL、Qwen-Audio、Qwen-Omni等多模态输入/输出模型的功能支持和推理性能优化； 4、分布式 KV Cache Store 的设计与研发，构建高吞吐、低延迟的全局 KV Cache 池化管理机制，实现跨计算节点（显存/内存）的高效数据传输与共享。

更新于 2026-03-23北京|杭州|上海