百度大模型推理架构研发工程师（J95970）

社招全职基础模型研发部2026-01-29地点：北京 | 上海 | 深圳状态：招聘

扫码手机上打开

任职要求

-热爱编程，精通C++/Python，精通CUDA 编程
-具有独立开发能力，精通计算机体系结构，有汇编级别开发经验，对AI算法和主流框架有丰富的应用或开发经验
-了解FlashAttention、PagedAttention、MoE、Chunked Prefill 等大模型核心技术
-了解常见的大模型量化算法（如AWQ、GPTQ、SmoothQuant 等）及量化算子的实现
-了解大模型通信算子（如Allre…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

-负责百度文心大模型的推理性能优化
-参与飞桨深度学习平台（ PaddlePaddle）推理框架的设计、开发和业务支持
-负责深度学习框架的性能优化工作，包括但不限于功能模块在CPU/GPU上的深度优化工作
-负责深度学习推理框架前瞻技术的跟踪调研，实现技术创新突破
-参与深度学习框架的易用性优化工作，使开发者能够以更简单的方式实现各类任务，降低学习成本和开发成本
-负责异构高性能计算平台的设计、研发，高性能计算库、通信库开发与优化
-支持百度萝卜快跑、搜索等业务大模型的推理性能优化

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

C+++

Python+

CUDA+

算法+

大模型+

PaddlePaddle+

还有更多 •••

登录查看完整学习资料

相关职位

大模型推理架构研发工程师（J95970）

社招基础模型研发部

-负责百度文心大模型的推理性能优化 -参与飞桨深度学习平台（ PaddlePaddle）推理框架的设计、开发和业务支持 -负责深度学习框架的性能优化工作，包括但不限于功能模块在CPU/GPU上的深度优化工作 -负责深度学习推理框架前瞻技术的跟踪调研，实现技术创新突破 -参与深度学习框架的易用性优化工作，使开发者能够以更简单的方式实现各类任务，降低学习成本和开发成本 -负责异构高性能计算平台的设计、研发，高性能计算库、通信库开发与优化 -支持百度萝卜快跑、搜索等业务大模型的推理性能优化

更新于 2026-01-28北京|上海|深圳

大模型推理架构师

社招

1. 参与 Soul 大模型、多模态模型、推荐模型等核心 AI 任务的训练与推理基础设施建设，提升模型从实验到线上部署的整体效率。 2. 负责大规模分布式训练系统的性能优化，包括数据并行、张量并行、流水线并行、专家并行、参数/梯度/优化器状态切分、显存优化、通信调度等方向，提升 GPU/NPU 集群利用率。 3. 参与高性能推理引擎建设，围绕大模型在线服务中的低延迟、高吞吐、弹性扩缩容、多租户隔离、KV Cache 管理、批处理调度、量化部署等问题进行系统优化。 4. 针对 Soul 的实时社交、多模态内容理解、AIGC 互动等场景，设计和优化端到端 AI 系统架构，降低训练和推理成本，保障核心业务的稳定性和体验质量。 5. 参与异构计算算子优化和计算图优化，包括 CUDA、Triton、CUTLASS、Ascend C、TileLang 等方向，针对 Attention、MoE、Embedding、推荐模型特征交互、多模态编码等关键模块进行性能调优。 6. 参与 AI 编译器和模型编译优化相关工作，围绕 IR 表达、算子融合、内存复用、调度优化、跨硬件后端适配等方向，提升模型在不同硬件平台上的执行效率。 7. 建设训练/推理性能分析、故障诊断、自动化调优、资源调度和可观测性工具，提升 AI 基础设施的工程效率与稳定性。 8. 跟踪并吸收业界前沿大模型系统技术，在合适的业务场景中完成工程化验证和落地。

更新于 2026-07-15上海

大模型推理KV Cache系统：从存储架构到软硬协同的全栈演进-阿里星

实习阿里巴巴2027

大模型推理的成本与效率是行业核心挑战，而 KV Cache 管理是突破瓶颈的关键。本岗位将主导构建下一代 LLM 推理存储架构，融合算法优化、系统调度与硬件感知能力，打造高弹性、低成本、高可用的推理基础设施，支撑公司核心大模型业务的规模化落地。 1. 负责设计和实现面向大规模推理的存储系统，深度融合推理引擎，构建从显存、本地内存至分布式冷存储的全局多级存储池； 2. 基于特征识别实现数据的智能调度与分布管理，推动计算存储分离、弹性资源池等核心能力落地，建立高扩展、高可靠的推理存储系统底座； 3. 定义存储与推理引擎间的统一数据访问抽象层，通过零侵入式接口设计实现计算存储解耦，为多级缓存、预取调度等高级策略提供标准化支撑； 4. 建立 KV Cache 资源评估与治理体系，通过数据驱动的方式识别优化空间，在保障服务品质的前提下持续降低推理成本、提升资源 ROI； 5. 联合上下游团队，深入 KV Cache 全栈优化和技术攻关，建立端到端 KV Cache 系统； 6. 跟踪学术界与工业界 KV Cache 最新进展，推动量化、压缩、调度等创新技术在大规模生产环境中的落地。

更新于 2026-03-23北京|杭州

广告大模型训练/推理优化实习生-广告架构与工程

实习A89336A

ByteIntern：面向2027届毕业生（2026年9月-2027年8月期间毕业），为符合岗位要求的同学提供转正机会。团队介绍：架构与工程团队负责为中国交易与广告产品和业务打造大规模、可扩展、高效和稳定的工程架构支撑。团队职责包括抖音、今日头条、番茄视频等各APP端的广告架构和工程、抖音商城架构、广告创意平台等。加入我们，可以直面超大流量规模、复杂的业务逻辑，不断探索产品和技术的演进前沿，实现新技术趋势下的业务和架构转型。期待你来，一起打造高效、智能、可信赖、可持续发展的交易与广告产品，实现用户、客户和平台共赢！ 1、完成LLM训练/推理技术在广告大模型场景的研发、落地和调优，解决广告/推荐场景的大模型工程问题； 2、针对PyTorch、TensorFlow等框架提供高自动化、极致性能的模型优化方案； 3、推动基于大模型开源组件构建，设计和实现新一代推荐系统架构，支持推荐大模型在业务落地； 4、与算法团队Co-Design，推动端到端生成式推荐技术创新的预研和落地。

更新于 2026-05-20上海