小红书AI Infra工程师/专家

社招全职引擎2026-04-02地点：北京 | 上海 | 深圳状态：招聘

扫码手机上打开

任职要求

【岗位要求】
1. 有扎实的工程算法基础，精通数据结构和常用算法，熟练掌握各种编译、调试、性能分析工具。
2. 精通C/C++/CUDA/Topscc/AscendC，具备扎实的系统底层能力（内存、并发、网络）。
3. 有大规模分布式系统开发和优化经验；有大模型分布式训练经验者优先。
4. 精通MLIR/TVM/Triton/Torch Inductor/TileLang/Verbs/NCCL/NVSHMEM…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

【部门介绍】引擎架构部是目前小红书AI Infra核心部门，囊括搜广推、CV、NLP、语音、多模态等主要业务场景。团队主导SOTA AI Infra架构设计与核心模块开发，支撑AI业务在AI前沿场景上规模落地。
【岗位职责】
参与开发下一代超大模型（百亿-万亿级）模型的GPU/NPU/PPU/CPU千卡互联分布式训练和推理框架。
参与开发分布式并行/流水线/通信优化/ZeRO/FSDP工作，消除大规模分布式训练通讯/计算/内存瓶颈，极致优化模型训练和推理的性能。
参与开发Triton，TileLang计算图编译优化或者使用CUDA/cutlass编写高性能算子，将硬件性能压榨到极致，最大化发挥出GPU/NPU/PPU/CPU等异构硬件协同算力。
参与开发/调试用于异构计算全链路的AI编译器，探索基于IR编译优化的片内多部件并行流水线等前沿技术，构建业界影响力。
支撑业界领先的多模态模型在国内最大的生活兴趣社区上落地。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

算法+

数据结构+

C+

C+++

CUDA+

分布式系统+

大模型+

Triton Inference Server+

还有更多 •••

登录查看完整学习资料

相关职位

推理GPU性能优化工程师/专家-Seed

社招A00725A

团队介绍：字节跳动 Seed 团队成立于 2023 年，致力于寻找通用智能的新方法，追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等，在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心，坚持深耕基础，期望成为世界一流的 AI 研究团队，为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力，支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责开发和优化字节跳动公司级的大模型推理框架； 2、主要通过GPU、CUDA性能优化的手段，结合线上实际情况，打造业界领先的高性能LLM推理引擎； 3、负责机器学习系统前瞻技术的调研和引入； 4、与算法部门深度合作，进行算法与系统的联合优化。

更新于 2024-05-08北京

业务技术-大模型后训练平台稳定性研发工程师 / 专家-AI infra

社招2年以上

1. 立足AI Agent研发运维视角，贯穿整个技术栈，在稳定、体验、效率和成本这四个方面持续进行优化 2. 基于AI研发领域的MaaS/PaaS/IaaS，进行模型训练与推理的算力保障，并提升资源使用率 3. 统性地提升Agent研发、部署、运行阶段的稳定性，适应Agent QPS、模型推理TPM每年提升1个量级的发展速度 4. 主导解决Agent研发运维过程中各类疑难问题，并推进完善产品与平台的能力 5. 系统性构建故障节点、慢节点检测平台化能力，响应并解决日常大模型任务的故障问题 6. 负责LLM 后训练（SFT、RLHF/RLAIF 等）相关链路稳定性治理、规范建设：理解研发与优化 LLM + RL/HRF 相关训练框架，提升扩展性、稳定性与性能（吞吐、显存占用、收敛效率等）。结合分布式训练技术（如 tensor / pipeline / data parallel），优化多机多卡训练性能和资源利用率。 7. 平台稳定性与工程质量：建设训练平台的观测与运维体系，完善监控、告警、日志与故障排查工具；持续提升平台的稳定性、可调试性和可维护性，产出高质量技术文档与设计方案。

更新于 2025-12-15杭州

大模型推理存储系统工程师/专家-Seed

社招A121315

团队介绍：字节跳动豆包大模型团队（Seed）成立于 2023 年，致力于寻找通用智能的新方法，追求智能上限，并探索新的交互。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等，在中国、新加坡、美国等地设有实验室和岗位。豆包大模型团队在 AI 领域拥有长期愿景与决心，坚持深耕基础，期望成为世界一流的 AI 研究团队，为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力，支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责机器学习系统存储相关组件的设计和开发，服务于大模型推理的各业务场景（LLM/S2S/VLM/多模态等），包括模型分发加载、KV Cache存储和优化，数据IO性能优化，提高推理TTFT、TBT等核心性能指标； 2、负责设计和实现面向大模型推理的多层级存储系统，综合利用显存、本地内存、分布式内存/磁盘、远端大容量存储系统（HDFS/对象存储）等多种介质进行数据的存储和迁移管理，实现「近计算缓存+远端大容量存储」的一体化分级系统； 3、负责优化大模型KV Cache命中率，从推理框架，流量调度，多级缓存等多个系统纬度入手定制化优化策略；优化数据的读取性能，充分利用近计算侧的NVLink、RDMA高速网络、GPU Direct技术实现数据的高效传输；优化数据副本的存放策略，实现负载流量和存储数据的合理化分布； 4、负责设计和实现高效、易用的数据访问接口，实现和推理框架、引擎的无缝对接，管理KV Cache的生命周期； 5、负责Kubernetes场景下多级存储系统的接入、管理、运维、监控，确保稳定性； 6、负责多机房、多地域、多云场景的系统搭建和容灾，优化跨集群的数据摆放。

更新于 2024-12-20上海

大模型训练调度工程师/专家-Seed

社招A16273

更新于 2024-05-08北京