智能互联智能引擎-大模型推理系统工程师-LLM

社招全职3年以上技术类-开发2026-04-08地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 对 AI 算法和 AI 系统工程（如迭代模式、端到端系统设计、工程框架、性能建模等）有比较深刻的理解，至少熟练掌握一种常见深度学习框架。
2. 理解异构计算和软硬件结合优化，在性能优化方面有一定经验。理解 cutlass 和…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

本岗位隶属于我们是阿里巴巴大模型推理团队，负责生成式 AI 领域（主要是图像生成和LLM）的内部产品、训练推理服务系统建设和维护，为淘宝、天猫、聚划算、优酷、闲鱼等多个集团业务部门提供强有力的技术支撑和底层服务能力。

主要工作内容如下：
1. 负责设计开发高性能大模型推理引擎；结合流量调度、并行、Cache 等方法构建大规模分布式模型服务系统。
2. 融合业界前沿的算法工程理论，基于量化、动态剪枝等有损方法进行极致的模型加速和成本优化。
3. 结合数据、算法和工程，协同构建 AI Infra 平台，为生成式 AI 提供端到端解决方案，推动业务创新与实践应用。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

算法+

深度学习+

还有更多 •••

登录查看完整学习资料

相关职位

【提前批】大模型推理系统工程师

校招程序&技术类

1、负责公司各AI推理场景（LLM/多模态/视频等）的推理系统研发和性能优化、资源调度、可观测性搭建、日常维护等工作 2、与算法团队深度合作，进行算法与系统的联合设计与优化（如模型量化、kvcache量化、投机采样等） 3、保持关注行业前沿技术，且有能力和热情开展创新研究

上海|北京

【日常实习】大模型推理系统工程师

实习程序&技术类

北京

大模型推理系统工程师

社招程序&技术类

北京

大模型推理存储系统工程师/专家-Seed

社招A121315

团队介绍：字节跳动豆包大模型团队（Seed）成立于 2023 年，致力于寻找通用智能的新方法，追求智能上限，并探索新的交互。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等，在中国、新加坡、美国等地设有实验室和岗位。豆包大模型团队在 AI 领域拥有长期愿景与决心，坚持深耕基础，期望成为世界一流的 AI 研究团队，为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力，支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责机器学习系统存储相关组件的设计和开发，服务于大模型推理的各业务场景（LLM/S2S/VLM/多模态等），包括模型分发加载、KV Cache存储和优化，数据IO性能优化，提高推理TTFT、TBT等核心性能指标； 2、负责设计和实现面向大模型推理的多层级存储系统，综合利用显存、本地内存、分布式内存/磁盘、远端大容量存储系统（HDFS/对象存储）等多种介质进行数据的存储和迁移管理，实现「近计算缓存+远端大容量存储」的一体化分级系统； 3、负责优化大模型KV Cache命中率，从推理框架，流量调度，多级缓存等多个系统纬度入手定制化优化策略；优化数据的读取性能，充分利用近计算侧的NVLink、RDMA高速网络、GPU Direct技术实现数据的高效传输；优化数据副本的存放策略，实现负载流量和存储数据的合理化分布； 4、负责设计和实现高效、易用的数据访问接口，实现和推理框架、引擎的无缝对接，管理KV Cache的生命周期； 5、负责Kubernetes场景下多级存储系统的接入、管理、运维、监控，确保稳定性； 6、负责多机房、多地域、多云场景的系统搭建和容灾，优化跨集群的数据摆放。

更新于 2024-12-20上海