字节跳动推理流量调度研发工程师-Data AML

校招全职A77447A2025-07-29地点：上海状态：招聘

扫码手机上打开

任职要求

1、2026届获得本科及以上学历，计算机、人工智能、信息安全等相关专业； 
2、熟悉Golang/C/C++/Python/Java（至少一种），熟悉Linux开发环境；
3、对计算机基础（数据结构、算法、网络、操作系统）有良好理解；
4、强烈的求知欲和解决复杂技术问题的热情，渴望在大型分布式系统领域深耕。

加分项
1、有大规模分布式系统相关项目经验；
2、熟悉Se…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

团队介绍：Data AML是字节跳动的机器学习中台，为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力，并在这些业务的问题上研究一些具有通用性和创新性的算法。同时，也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外，AML还在AI for Science，科学计算等领域做一些前沿研究。

1、参与AML方舟推理千亿级TPM流量调度核心架构的开发、优化与迭代，共同打造国内领先的AI MaaS平台；
2、在公有云&云原生（Kubernetes）环境下，深入设计和实现大模型推理服务的关键子系统；
3、探索并实现智能流量路由、精细化服务治理策略，保障平台在超大规模负载下的超高可用性（99.99%+）与极致性能；
4、持续优化平台在资源调度效率、服务稳定性、成本效益等方面的表现；
5、与团队一起攻克大规模分布式系统带来的复杂挑战，确保平台能够弹性扩展，支撑业务的飞速增长。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

Go+

C+

C+++

Python+

Java+

Linux+

数据结构+

算法+

还有更多 •••

登录查看完整学习资料

相关职位

训练推理一体化存储研发高级工程师-Data

社招3年以上A56142

团队介绍：推荐架构团队支撑字节跳动旗下多款APP产品，如抖音、今日头条、番茄小说、西瓜视频、剪映等推荐系统架构的设计和开发，保障系统的稳定和高可用，致力于抽象系统通用组件和服务，建设推荐中台、数据中台；关于在线服务，在这里你有机会参与大规模机器学习在线预估框架的研发与优化，也有机会参与模型训练与调度等相关问题的研究与突破，解决系统瓶颈，降低成本开销；如你对大数据感兴趣，在这里也有机会参与通用实时计算系统的开发、构建统一的推荐特征中台，为推荐业务实现先进的消重、计数、特征服务等；我们期待热爱技术的你加入，一起创造更多可能。 1、负责设计和实现面向推荐/广告大模型推理和训练的多层级存储系统，综合利用显存、本地内存、分布式内存/磁盘、远端大容量存储系统（HDFS）等多种介质进行数据的存储和迁移管理，实现近计算缓存+远端大容量存储的一体化分级系统； 2、负责优化推荐大模型KV Cache命中率，从推理框架、流量调度、多级缓存等多个系统维度入手定制化优化策略，和业务方协作完成端到端推理性能加速； 3、负责建设搜广推通用用户行为数据存储，设计和实现离在线EB级别行为数据的统一存储、IO、近端Cache解决方案，支撑EB级别训练和推理数据，提供高可用保障，在离在线混合负载下，高吞吐和低延时能力的分布式存储系统。

更新于 2025-08-05北京

推理平台研发工程师（网关与流量向）

社招3年以上程序&技术类

1. 负责大模型推理平台（含多模态）与传统网关场景的统一流量接入与调度体系建设：入口网关到推理后端的路由、转发、灰度、熔断、降级与回滚策略落地。 2. 设计与实现面向推理业务的流量调度算法：按模型/租户/优先级/成本/延迟目标进行动态路由与容量分配，持续优化 TTFT / TPOT / P99 等指标。 3. 建设流量治理能力：限流（全局/分层/配额）、并发控制、排队与背压、超时与重试、连接管理、长连接与流式请求治理、突发保护与弹性策略。 4. 完善可观测性与问题定位：全链路 tracing、结构化日志、指标与告警体系；建设压测/回放/故障演练能力，提升定位与恢复效率。 5. 推进平台化与工程化：沉淀配置/策略编排/发布体系，保障多集群、多环境的一致性、稳定性与安全合规。 6. 持续跟进业界先进网关与推理流量技术/算法，推动在生产环境落地与迭代。

北京

推理平台研发工程师（网关 & 流量方向）

社招3年以上程序&技术类

上海

大模型推理系统MaaS研发工程师（实习）

实习大模型

1、参与小红书万亿级Token量MaaS系统构建，包括但不限于大模型智能网关、大模型弹性伸缩、推理系统优化等方向，共同打造国内领先的大模型MaaS系统； 2、探索负载感知的推理系统流量调度算法，如基于Prefix Cache命中率调度、基于P/D分离的流量调度、基于KVCache使用率、推理排队负载感知的流量调度、长上下文请求调度优化等，持续提升MaaS系统的稳定性、成本效益； 3、探索并跟进业界开源SOTA模型，如Qwen系列、DeepSeek系列，多维度评估模型效果并建立相关的准入体系，及时上架到MaaS系统； 4、参与MaaS系统的国产卡适配，如华为910C、阿里PPU等； 5、参与攻克大规模分布式推理系统带来的复杂挑战，通过弹性调度、容量规划、链路压测等手段提升系统健壮性，确保平台能够弹性扩展，支撑业务的飞速增长。

更新于 2025-08-05北京|上海