百度大模型推理服务端工程师（J94378）

社招全职2年以上ACG2025-10-17地点：上海 | 成都状态：招聘

扫码手机上打开

任职要求

-本科或硕士研究生，计算机相关专业，两年以上后端开发经验
-熟悉Golang 、 python语言编程；有较强的编程、算法实现、文档撰写能力，具有良好的代码风格和质量意识，能独立完成算法和工程应用模块的设计、开发、测试和应用
-精通Linux平台编程，熟悉docker、k8s相关组件和操作
-了解深度学习算法，了解LLM基…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

-负责百度千帆大模型平台模型服务工程相关系统的开发和支持，推理服务架构稳定性、性能优化、扩展性技术研发
-参与大模型的国产芯片适配、推理加速与优化工作，参与深度学习前沿加速技术研究
-将AI前沿技术应用到各个垂直行业，负责相关应用工程配套开发
-根据需求文档进行相关产品的开发，撰写开发文档，对负责的产品做好客户支持工作

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

后端开发+

Go+

Python+

算法+

Linux+

还有更多 •••

登录查看完整学习资料

相关职位

大模型推理服务(MaaS)研发工程师/专家

社招引擎

我们是小红书中台大模型 Infra 团队，专注打造领先易用的「AI 大模型全链路基础设施」！团队深耕大模型「数-训-压-推-评」技术闭环，在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势，基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品，持续赋能社区、商业、交易、安全、数平、研效等多个核心业务，实现 AI 技术高效落地！ DirectLLM是小红书内部面向各业务场景建设的大模型API服务产品，通过标准化API接口提供LLM/MLLM等大模型推理服务，致力于为AI应用开发者提供品类丰富、数量众多的模型选择，并通过API接口为其提供开箱即用、能力卓越、成本经济的模型服务，各领域模型的能力均可通过统一的API和SDK来实现被不同业务系统集成。核心职责 1、MaaS 平台架构与研发：参与 MaaS 系统架构设计与研发，建设公司统一的大模型 API 服务入口。 2、模型服务治理能力建设：负责模型接入、请求路由、鉴权、限流、配额、TPM / RPM、灰度发布、SLO、成本统计等核心能力。 3、请求调度与稳定性建设：建设多模型、多租户、高并发场景下的请求调度与服务治理能力，提升模型服务稳定性和资源效率。 4、推理引擎与业务打通：打通底层推理引擎与上层业务应用，为社区、搜索、审核、企效、AI 应用等场景提供开箱即用的大模型服务能力。 5、开发者体验优化：持续优化统一 API、SDK、文档、监控、问题诊断和接入流程，提升内部 AI 应用开发效率。 6、成本与效率优化：与推理、压缩、调度团队协同，持续优化模型调用成本、服务延迟和资源利用率。

更新于 2026-06-26北京|上海|杭州

基于量化与并行化的高效大模型推理服务优化技术研究-A Star

实习阿里巴巴2027

1. 模型优化 * 应用模型压缩技术（如剪枝、量化、知识蒸馏）减少模型复杂度，提升推理效率； * 应用模型自适应推理，模型能够根据输入数据的特征动态调整推理策略，减少不必要的计算； * 实现模型并行与稀疏化技术，提升模型推理速度； 2. Prompt优化 * 设计简洁高效的Prompt模板，减少上下文长度和计算复杂度； * 实现Prompt参数化与动态调整，优化推理时间； * 应用Prompt蒸馏与嵌入优化技术，提升推理速度和质量； 3. 任务调度与负载均衡 * 优化任务调度算法，提高分布式推理任务的分配效率； * 实现负载均衡策略，动态分配任务到不同设备，确保资源利用率最大化； * 应用智能调度技术，根据业务的峰谷差异，实现潮汐调度、抢占调度能智能调度方案； 4. 前沿技术研究与应用 * 研究动态模型压缩、自适应推理、量化感知推理等前沿技术，并将其应用到实际项目中； * 针对多模态模型（如文本+图像+语音）的推理优化，减少模态间通信开销； 5. 政企客户支持与业务需求对接 * 理解政企客户的业务需求，确保模型推理优化方案符合实际应用场景和安全规范； * 针对政企客户的复杂业务场景，设计高效的推理优化方案，提升业务效率； 6. 系统性问题解决 * 综合算力、模型、存储、通信、Prompt、推理框架等多维度，解决模型推理速度的系统性优化问题； * 针对政企客户的实际需求，提供端到端的推理优化解决方案。

更新于 2026-03-17北京|杭州

智能引擎-大模型推理与 KV Cache 系统研发工程师-存储服务方向

社招2年以上

面向大模型在线推理场景，建设高性能、低成本、高可靠的推理加速基础设施，支撑高并发、大规模模型服务。你将参与以下工作： 1. 设计和研发 KV Cache 存储、复用、调度与加速系统，优化 Prefill/Decode 阶段的缓存管理与资源利用率。 2. 协同 GPU 显存、主存、SSD 及远端存储等多级资源，优化 KV Cache 换入换出、跨节点迁移、共享复用和生命周期管理。 3. 优化首 Token 延迟、端到端时延、推理吞吐和集群资源成本，提升大模型服务的稳定性与弹性能力。 4. 分析并解决推理服务在线上的性能瓶颈、显存碎片、长尾延迟和稳定性问题，持续推动系统架构演进。

更新于 2026-07-17北京

大模型推理加速算法方案前沿技术研究-阿里星

实习阿里巴巴2027

面向大模型在高并发、低延迟、低成本生产环境中的规模化落地，本课题聚焦下一代大模型推理加速关键技术，探索从模型架构、算法创新、硬件协同到集群系统的全链路优化方法，突破当前大模型推理在计算效率、显存占用、通信开销和系统稳定性等方面的瓶颈。 1. 探索面向推理友好的高效模型架构演进方法，结合后训练技术，研究 Attention、MoE、长上下文、KV Cache 等核心结构的推理效率优化，在保证模型效果的前提下提升吞吐、降低时延与部署成本。 2. 探索具有突破性的推理算法优化方案，围绕低比特量化、投机解码、稀疏注意力、LLM/Diffusion蒸馏等方向，以算法的角度持续突破并降低推理代价。 3. 探索面向新型硬件的推理加速技术，结合 GPU/NPU、异构算力单元、存算协同、算子融合和内存访问优化等能力，提升大模型推理在不同硬件平台上的执行效率。 4. 探索大流量集群推理系统的加速方案，结合网络通信、异构算力调度、请求路由、动态批处理等技术，提升推理系统在复杂业务场景下的效率、稳定性与鲁棒性。

更新于 2026-06-03北京|杭州