logo of antgroup

蚂蚁金服蚂蚁集团-推理网关研发工程师/网络专家-杭州/成都/北京

社招全职3年以上技术类-开发地点:北京 | 杭州 | 成都状态:招聘

任职要求


● 熟练掌握 CC++Golang 一种或多种语言,3年以上系统软件开发经验;
● 具备扎实的 Linux/Network/GPU 等系统基础知识;
● 具备大模型推理网关经验,实践 GPU 流量调度、PD 分离调度、Prefix Cache 调度、推理限流和推理Cache等技术;
● 熟练掌握 Envoy/Istio 等云原生网关技术实现;
● 在 CNCF、Apache 等开源项目有代码贡献优先;
● 掌握性能分析和调优手段,对系统稳定性、扩展性有思考;

工作职责


我们是蚂蚁集团网络技术团队,为蚂蚁集团全站提供通智一体、稳定高效的网络基础设施产品、平台和服务。
● 负责推理网关核心能力设计和开发;
● 通过创新的流量调度算法减少推理成本;
包括英文材料
C+
C+++
Go+
Linux+
大模型+
Envoy+
Istio+
Apache+
性能调优+
相关职位

logo of eleme
社招3年以上技术类-开发

1、负责淘宝闪购接入层网关设计,开发和稳定性等工作,协助业务后端高效稳定地跟端侧交互; 2、负责网关,RPC和框架等微服务技术领域的AI演进,主导AI原生应用框架搭建和开发,结合机器学习与深度学习场景,构建适合业务的AI服务化架构; 3、与各业务线技术团队紧密协作,提供网关,RPC,框架和AI原生应用等技术支持和解决方案; 4、关注业界前沿技术动态,结合实际业务需求,探索并引入先进的微服务架构理念和技术工具; 5、编写高质量、可复用的技术文档和代码,保障系统的可扩展性和易维护性; 6、参与系统性能调优、故障排查和线上问题应急响应,确保关键链路的低延迟与高可靠性。

更新于 2025-10-11
logo of bytedance
社招1年以上A221693A

1、风险定义:完善标准中心平台,负责定义和维护各业务风险标签体系,并基于标准审核要素、案例库构建治理大模型的风险知识库平台; 2、处置决策:完善处置策略平台,基于处置计次与其他实时&离线特征,通过策略编排多个处置决策节点,输出匹配治理预期的处置能力组合,并推动执行;构建健康分区间节点处置策略; 3、处置执行:构建处置能力网关,接受处置决策的处置能力组合,联合基础产品保障处置成功执行并搭配对账能力保障处置效果达成;负责账号、额度管控、状态处置和校验网关等通用能力的建设和运维; 4、大模型应用:大模型生产处置动作脚本代码,AI生产动作对账脚本代码,AI治理处置中心Oncall和报警。

更新于 2025-04-18
logo of xiaohongshu
实习大模型

1、参与小红书万亿级Token量MaaS系统构建,包括但不限于大模型智能网关、大模型弹性伸缩、推理系统优化等方向,共同打造国内领先的大模型MaaS系统; 2、探索负载感知的推理系统流量调度算法,如基于Prefix Cache命中率调度、基于P/D分离的流量调度、基于KVCache使用率、推理排队负载感知的流量调度、长上下文请求调度优化等,持续提升MaaS系统的稳定性、成本效益; 3、探索并跟进业界开源SOTA模型,如Qwen系列、DeepSeek系列,多维度评估模型效果并建立相关的准入体系,及时上架到MaaS系统; 4、参与MaaS系统的国产卡适配,如华为910C、阿里PPU等; 5、参与攻克大规模分布式推理系统带来的复杂挑战,通过弹性调度、容量规划、链路压测等手段提升系统健壮性,确保平台能够弹性扩展,支撑业务的飞速增长。

更新于 2025-08-05
logo of xiaohongshu
实习大模型

1、参与小红书万亿级Token量推理系统构建,包括但不限于大模型智能网关、大模型弹性伸缩、推理系统优化等方向,共同打造国内领先的大模型推理系统; 2、探索负载感知的推理系统流量调度算法,如基于Prefix Cache命中率调度、基于P/D分离的流量调度、基于KVCache使用率、推理排队负载感知的流量调度、长上下文请求调度优化等,持续提升MaaS系统的稳定性、成本效益; 3、探索并跟进业界开源SOTA模型,如Qwen系列、DeepSeek系列,多维度评估模型效果并建立相关的准入体系,及时上架到MaaS系统; 4、参与MaaS系统的国产卡适配,如华为910C、阿里PPU等; 5、参与攻克大规模分布式推理系统带来的复杂挑战,通过弹性调度、容量规划、链路压测等手段提升系统健壮性,确保平台能够弹性扩展,支撑业务的飞速增长。

更新于 2025-08-22