平头哥平头哥-AI Infra 工程师-上海

社招全职5年以上技术-芯片2026-06-08地点：上海状态：招聘

扫码手机上打开

任职要求

1. 硕士及以上学历，计算机科学、人工智能等相关专业，具备3年以上AI基础设施或大规模分布式系统研发经验
2. 精通Python/C++/Go等至少一种编程语言，具备扎实的分布式系统设计能力
3. 深入掌握Kubernetes集群的高可用架构设计与大规模运维，熟悉容器编排…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 主导高扩展性、高吞吐量AI基础设施平台的设计与构建，基于VLLM、SGLang等前沿推理框架，搭建支持多模态大模型的分布式推理系统，实现动态资源调度与低延迟响应
2. 构建智能化资源调度策略与弹性扩缩容机制，保障高并发场景下推理服务的稳定性与资源利用率最大化
3. 解决大规模分布式场景下的性能瓶颈，优化GPU集群资源利用率及端到端推理吞吐量，降低推理成本并提升TTFT、TPOT等指标
4. 跟踪AI基础设施领域（AI Infra）技术趋势，包括但不限于分布式推理优化、模型即服务（MaaS）、自动化模型部署（AutoML）等，结合业务场景进行技术选型与创新性实践
5. 设计并实现AI推理服务效能监控看板与端到端可观测性（Observability）系统，通过实时指标分析（如token消耗、GPU利用率、延迟分布）驱动业务侧资源优化。
6. 构建数据驱动的A/B测试与成本分析模型，为业务决策提供量化依据，助力模型服务化全生命周期管理。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

分布式系统+

Python+

C+++

Go+

Kubernetes+

高可用+

还有更多 •••

登录查看完整学习资料

相关职位

大模型训练框架研发工程师/专家

社招5-10年引擎

我们是小红书中台大模型 Infra 团队，专注打造领先易用的「AI 大模型全链路基础设施」！团队深耕大模型「数-训-压-推-评」技术闭环，在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势，基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品，持续赋能社区、商业、交易、安全、数平、研效等多个核心业务，实现 AI 技术高效落地！ 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架，优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline； 2、研发支持多机多卡 RL 的分布式训练框架，开发TP/PP/ZeRO-3与RL流程的动态协同机制，解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链，主导框架与 MLOps 平台集成，提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作，参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代； 5、参与分析各业务 GPU 利用率与饱和度等指标，结合业务场景持续优化训练框架能力，提升框架领先性。

更新于 2026-03-28上海|北京

大模型推理框架研发工程师/专家

社招5-10年引擎

我们是小红书中台大模型 Infra 团队，专注打造领先易用的「AI 大模型全链路基础设施」！团队深耕大模型「数-训-压-推-评」技术闭环，在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势，基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品，持续赋能社区、商业、交易、安全、数平、研效等多个核心业务，实现 AI 技术高效落地！工作职责： 1、参与/负责研发面向大语言模型(LLM)/多模态大模型(MLLM)等类型模型的推理服务框架； 2、参与/负责KV Router、PD分离/EPD分离、KVCache管理、动态PD调整等分布式推理能力建设； 3、通过并行计算优化、分布式架构优化、异构调度等多种框架技术，打造高效、易用、领先的AI推理框架； 4、参与/负责构建推理框架的系统容错能力，包括但不限于请求迁移、优雅退出、故障检测、自愈等能力建设； 5、深度参与周边深度学习系统多个子方向的工作，包括但不限于模型管理、推理部署、日志/监控、工作流编排等； 6、与全公司各业务算法部门深度合作，为重点项目进行算法与系统的联合优化，支撑业务目标达成。

更新于 2026-03-28北京|上海

大模型推理存储系统工程师/专家-Seed

社招A121315

团队介绍：字节跳动豆包大模型团队（Seed）成立于 2023 年，致力于寻找通用智能的新方法，追求智能上限，并探索新的交互。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等，在中国、新加坡、美国等地设有实验室和岗位。豆包大模型团队在 AI 领域拥有长期愿景与决心，坚持深耕基础，期望成为世界一流的 AI 研究团队，为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力，支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责机器学习系统存储相关组件的设计和开发，服务于大模型推理的各业务场景（LLM/S2S/VLM/多模态等），包括模型分发加载、KV Cache存储和优化，数据IO性能优化，提高推理TTFT、TBT等核心性能指标； 2、负责设计和实现面向大模型推理的多层级存储系统，综合利用显存、本地内存、分布式内存/磁盘、远端大容量存储系统（HDFS/对象存储）等多种介质进行数据的存储和迁移管理，实现「近计算缓存+远端大容量存储」的一体化分级系统； 3、负责优化大模型KV Cache命中率，从推理框架，流量调度，多级缓存等多个系统纬度入手定制化优化策略；优化数据的读取性能，充分利用近计算侧的NVLink、RDMA高速网络、GPU Direct技术实现数据的高效传输；优化数据副本的存放策略，实现负载流量和存储数据的合理化分布； 4、负责设计和实现高效、易用的数据访问接口，实现和推理框架、引擎的无缝对接，管理KV Cache的生命周期； 5、负责Kubernetes场景下多级存储系统的接入、管理、运维、监控，确保稳定性； 6、负责多机房、多地域、多云场景的系统搭建和容灾，优化跨集群的数据摆放。

更新于 2024-12-20上海

【商业化】大模型Infra架构工程师

社招技术类

1、构建适合电商领域的大模型，提供高性能低成本的在离线解决方案，与算法工程师密切合作，持续提升大模型的能力 2、设计开发大模型训练系统，优化实现多种并行策略、算子优化、ZeRO技术、FlashAttention、量化技术、高性能Reduce通信库等，极致优化训练性能 3、设计开发大模型推理系统，应用PagedAttention、Batching优化、GPU算子优化、量化与压缩等技术，构建高吞吐、低延迟、支持数万QPS的在线服务 4、跟进最新的AI算法和infra的进展，并高效地将新技术落地应用到PDD电商的实际业务中，为消费者创造价值

更新于 2026-05-12上海