logo of bytedance

字节跳动大模型网关资深工程师/专家

社招全职A172997地点:北京状态:招聘

任职要求


1、对云原生技术、中间件、容器、网络,分布式、Faas等方面技术有深入研究的;
2、精通云计算平台技术体系,具有系统架构设计经验和能力,能独立负责技术架构规划和架构演进;
3、熟练掌握C/C++Java/ScalaPythonGolang中的一门语言;
4、…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责边缘大模型网关,边缘推理等产品化工作;
2、负责安全、高可靠性、高性能的端边云算力协同平台建设;
3、掌握业界前沿的技术,持续探索在各种边缘场景下的AI解决方案。
包括英文材料
中间件+
C+
C+++
Java+
Scala+
Python+
还有更多 •••
相关职位

logo of xiaohongshu
实习大模型

1、参与小红书万亿级Token量MaaS系统构建,包括但不限于大模型智能网关、大模型弹性伸缩、推理系统优化等方向,共同打造国内领先的大模型MaaS系统; 2、探索负载感知的推理系统流量调度算法,如基于Prefix Cache命中率调度、基于P/D分离的流量调度、基于KVCache使用率、推理排队负载感知的流量调度、长上下文请求调度优化等,持续提升MaaS系统的稳定性、成本效益; 3、探索并跟进业界开源SOTA模型,如Qwen系列、DeepSeek系列,多维度评估模型效果并建立相关的准入体系,及时上架到MaaS系统; 4、参与MaaS系统的国产卡适配,如华为910C、阿里PPU等; 5、参与攻克大规模分布式推理系统带来的复杂挑战,通过弹性调度、容量规划、链路压测等手段提升系统健壮性,确保平台能够弹性扩展,支撑业务的飞速增长。

更新于 2025-08-05北京|上海
logo of xiaohongshu
实习大模型

1、参与小红书万亿级Token量推理系统构建,包括但不限于大模型智能网关、大模型弹性伸缩、推理系统优化等方向,共同打造国内领先的大模型推理系统; 2、探索负载感知的推理系统流量调度算法,如基于Prefix Cache命中率调度、基于P/D分离的流量调度、基于KVCache使用率、推理排队负载感知的流量调度、长上下文请求调度优化等,持续提升MaaS系统的稳定性、成本效益; 3、探索并跟进业界开源SOTA模型,如Qwen系列、DeepSeek系列,多维度评估模型效果并建立相关的准入体系,及时上架到MaaS系统; 4、参与MaaS系统的国产卡适配,如华为910C、阿里PPU等; 5、参与攻克大规模分布式推理系统带来的复杂挑战,通过弹性调度、容量规划、链路压测等手段提升系统健壮性,确保平台能够弹性扩展,支撑业务的飞速增长。

更新于 2025-08-22北京|上海
logo of xiaohongshu
实习引擎

核心职责 参与小红书万亿级Token量推理系统构建,包括但不限于大模型智能网关、大模型弹性伸缩、推理系统优化等方向,共同打造国内领先的大模型推理系统; 探索负载感知的推理系统流量调度算法,如基于Prefix Cache命中率调度、基于P/D分离的流量调度、基于KVCache使用率、推理排队负载感知的流量调度、长上下文请求调度优化等,持续提升MaaS系统的稳定性、成本效益; 探索并跟进业界开源SOTA模型,如Qwen系列、DeepSeek系列,多维度评估模型效果并建立相关的准入体系,及时上架到MaaS系统; 参与MaaS系统的国产卡适配,如华为910C、阿里PPU等; 参与攻克大规模分布式推理系统带来的复杂挑战,通过弹性调度、容量规划、链路压测等手段提升系统健壮性,确保平台能够弹性扩展,支撑业务的飞速增长。

更新于 2025-11-25北京|上海
logo of antgroup
社招3年以上技术类-开发

我们是蚂蚁集团网络技术团队,为蚂蚁集团全站提供通智一体、稳定高效的网络基础设施产品、平台和服务。 ● 负责推理网关核心能力设计和开发; ● 通过创新的流量调度算法减少推理成本;

更新于 2025-04-03北京|杭州|成都