logo of bytedance

字节跳动推理流量调度研发工程师-Data AML

校招全职A77447A地点:上海状态:招聘

任职要求


1、2026届获得本科及以上学历,计算机、人工智能、信息安全等相关专业; 
2、熟悉Golang/C/C++/Python/Java(至少一种),熟悉Linux开发环境;
3、对计算机基础(数据结构算法、网络、操作系统)有良好理解;
4、强烈的求知欲和解决复杂技术问题的热情,渴望在大型分布式系统领域深耕。

加分项
1、有大规模分布式系统相关项目经验;
2、熟悉Se…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


团队介绍:Data AML是字节跳动的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。

1、参与AML方舟推理千亿级TPM流量调度核心架构的开发、优化与迭代,共同打造国内领先的AI MaaS平台;
2、在公有云&云原生(Kubernetes)环境下,深入设计和实现大模型推理服务的关键子系统;
3、探索并实现智能流量路由、精细化服务治理策略,保障平台在超大规模负载下的超高可用性(99.99%+)与极致性能;
4、持续优化平台在资源调度效率、服务稳定性、成本效益等方面的表现;
5、与团队一起攻克大规模分布式系统带来的复杂挑战,确保平台能够弹性扩展,支撑业务的飞速增长。
包括英文材料
学历+
Go+
C+
C+++
Python+
Java+
Linux+
数据结构+
算法+
还有更多 •••
相关职位

logo of bytedance
社招3年以上A56142

团队介绍:推荐架构团队支撑字节跳动旗下多款APP产品,如抖音、今日头条、番茄小说、西瓜视频、剪映等推荐系统架构的设计和开发,保障系统的稳定和高可用,致力于抽象系统通用组件和服务,建设推荐中台、数据中台;关于在线服务,在这里你有机会参与大规模机器学习在线预估框架的研发与优化,也有机会参与模型训练与调度等相关问题的研究与突破,解决系统瓶颈,降低成本开销;如你对大数据感兴趣,在这里也有机会参与通用实时计算系统的开发、构建统一的推荐特征中台,为推荐业务实现先进的消重、计数、特征服务等;我们期待热爱技术的你加入,一起创造更多可能。 1、负责设计和实现面向推荐/广告大模型推理和训练的多层级存储系统,综合利用显存、本地内存、分布式内存/磁盘、远端大容量存储系统(HDFS)等多种介质进行数据的存储和迁移管理,实现近计算缓存+远端大容量存储的一体化分级系统; 2、负责优化推荐大模型KV Cache命中率,从推理框架、流量调度、多级缓存等多个系统维度入手定制化优化策略,和业务方协作完成端到端推理性能加速; 3、负责建设搜广推通用用户行为数据存储,设计和实现离在线EB级别行为数据的统一存储、IO、近端Cache解决方案,支撑EB级别训练和推理数据,提供高可用保障,在离在线混合负载下,高吞吐和低延时能力的分布式存储系统。

更新于 2025-08-05北京
logo of antgroup
社招3年以上技术类-开发

我们是蚂蚁集团网络技术团队,为蚂蚁集团全站提供通智一体、稳定高效的网络基础设施产品、平台和服务。 ● 负责推理网关核心能力设计和开发; ● 通过创新的流量调度算法减少推理成本;

更新于 2025-04-03北京|杭州|成都
logo of bytedance
社招5年以上A223866A

1、负责Agent系统的稳定性建设,设计高可用架构与容灾降级方案,保障系统在极端场景下稳定运行; 2、优化系统性能,解决分布式场景下的任务调度、数据一致性、故障自愈等挑战,提升服务SLA; 3、建立系统监控、告警及应急响应机制,负责重大故障的排查与恢复; 4、持续优化系统架构,通过代码重构、性能调优等手段提升系统扩展性与可维护性; 5、探索分布式计算、任务调度、流式数据处理等领域的前沿技术(如分布式事务、弹性扩缩容、异构计算等),推动技术成果转化。

更新于 2025-03-11北京
logo of alibaba
社招3年以上技术类-开发

1. 负责大模型训练和推理系统的研发和性能优化,包括性能计算性能优化,大模型推理框架,大模型流量调度,高效 CUDA 算子开发,低精度计算,高并发服务请求优化等打造领先的推理引擎。 2. 负责大模型训练和推理等前瞻性技术架构的调研和引入,不限于子图匹配、编译优化、模型量化等。 3. 与算法团队深度合作,进行算法和系统的联合优化,包括分析业务性能瓶颈,通过软硬结合的 方式,高效部署和优化 AIGC 核心业务模型,建设 AI 工具链等能力,支撑 AI 业务的高速发展。

更新于 2025-12-29杭州