logo of alibaba

阿里巴巴业务技术-高性能AI大模型网关工程师-急招

社招全职1年以上地点:杭州状态:招聘

任职要求


1. 计算机相关专业本科及以上学历,2年以上后端开发经验,有高并发、高性能分布式系统开发经验;
2. 精通 Java 核心技术(包括多线程、NIO、JVM 内存模型与调优),熟练掌握 Spring BootSpring Cloud 等主流框架,具备良好的代码规范与工程素养;
3. 熟悉高性能API网关或服务代理架构,了解请求生命周期管理、协议转换(如 REST/gRPC/SSE)、认证鉴权、限流熔断等核心机制;
4. 具备高并发、低延迟系统的实战经验,如分布式限流与动态配额控制;缓存策略及防穿透/雪崩方案;异步处理与响应流式传输等
5. 熟悉数据库与中间件优化,包括 SQL 调优、分库分表、消息队列(Kafka/RocketMQ)原理及可靠性保障;
6. 具备系统架构设计能力,能主导模块划分、技术选型、容灾降级与弹性伸缩方案,对可用性(SLA)、可观测性(Metrics/Logs/Traces)有深刻理解;
7. 对 AI 基础设施有浓厚兴趣或实践经验,了解大模型推理的基本流程(如 Prompt 输入、Token 生成、上下文管理),能理解并协同算力平台(如 GPU 资源调度、推理引擎集成)进行服务优化;
8. 优秀的逻辑思维与业务抽象能力,能从复杂业务场景中提炼通用服务能力,并推动技术方案跨…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


作为集团 AI 基础设施的关键组成部分,你将负责内部大模型网关(AI Hub)的设计、开发与持续演进,打造统一、高效、智能的大模型服务接入平台。  
我们向下聚合集团内外多源大模型能力(包括自研及第三方 LLM、多模态模型等),向上为搜索、客服、内容生成、智能办公等数十个高并发业务场景提供标准化、低门槛的 API 接入服务。  

面对万级QPS、毫秒级延迟、十万亿Token 级计量等严苛挑战,你将深度参与以下核心技术方向:  
- 构建智能路由引擎,支持按模型能力、成本、延迟 SLA、地域等维度动态调度请求;  
- 设计精细化流量治理体系,实现多租户配额管理、Token 级限流、优先级队列与熔断降级;  
- 打造商业化计费与用量追踪系统,支撑按 Token、时长或套餐的灵活计费模式;  
- 优化流式推理链路(SSE/WebSocket),保障长上下文、高吞吐场景下的低首Token延迟(TTFT)与稳定性;
- 协同底层算力平台,推动网关与推理引擎(如 vLLM、TGI)的高效协同,提升 GPU 资源利用率。  

你的工作将直接影响集团 AI 能力效率、服务成本与用户体验,是推动 AI 工程化落地的核心力量!加入我们,一起创造价值~
包括英文材料
学历+
Java+
多线程+
JVM+
Spring+
Spring Boot+
RPC+
中间件+
SQL+
缓存+
Redis+
高并发+
系统设计+
大模型+
后端开发+
分布式系统+
还有更多 •••
相关职位

logo of jd
社招5年以上安全工程师岗

岗位职责: 1.负责基于大模型在业务场景下关键能力的应用研发,智能体建设 2.研发和优化智能体、多智能协作,使其能够高效、准确地调用内部和外部工具,扩展智能体的应用边界; 3.解决开发过程中的难题和挑战,并与团队成员合作推动项目的进展; 4.承担安全大模型应用系统的开发任务,致力于安全 agent 系统的构建以及数字员工系统的研发与完善,推动模型在实际业务场景中的落地应用

更新于 2025-10-20北京
logo of tesla
社招2年以上运维开发

特斯拉信息技术部门(工作地点:特斯拉上海超级工厂)正在招聘一名全职IT AI Platform 开发工程师,专注于构建和扩展下一代 AIOps与MLOps平台。随着人工智能技术在企业核心系统(尤其是GenAI平台)中的深入应用,亟需一位能够打通AI研发与生产部署之间壁垒的工程专家。该岗位将负责从模型训练、版本管理、自动化部署到高性能推理服务的完整MLOps体系建设,并主导构建支持本地GPU与云端LLM API融合的混合式推理网关平台,以实现低延迟、高吞吐的企业级AI服务能力。推动GenAI平台及未来AI服务落地的关键力量,将显著提升AI功能的交付效率与稳定性。 岗位职责: • 设计、构建和维护可扩展的 MLOps平台,实现AI模型从训练、版本控制、部署到监控的全生命周期管理。 • 基于 vLLM、TensorRT-LLM 、TGI 等框架,在大规模GPU集群上开发并优化大语言模型(LLM)推理流水线。 • 构建融合本地GPU模型与云上LLM API 的混合推理网关平台,实现智能路由、负载均衡与成本性能的优化。 • 搭建自动化 LLM微调(Fine-Tuning)流水线,支持LoRA、QLoRA等参数高效训练方法,涵盖数据预处理、分布式训练与检查点管理。 • 推动 RAG(检索增强生成)能力服务化(RAG-as-a-Service),集成并运维主流向量数据库(如 Pinecone、Milvus、Weaviate)。 • 通过 Prometheus、Grafana、OpenTelemetry 及自研监控方案,保障AI系统的可观测性与稳定性。 • 与AI科学家和应用工程师协作进行模型优化(量化、剪枝、蒸馏),提升推理效率与资源利用率。 • 支持 GenAI CN平台的高性能模型服务需求,确保低延迟、高并发的服务能力。 • 制定AI模型服务的关键性能指标(KPI)与服务等级协议(SLA),量化业务价值与系统表现。 • 使用 GitLab CI、Jenkins、ArgoCD 等工具实现AI工作流的CI/CD自动化,确保可复现性与可审计性。

上海
logo of tesla
社招2年以上IT-基础架构与

职位角色 特斯拉信息技术部门(工作地点:上海超级工厂)现招聘一名全职 IT AI Platform 开发工程师,专注于构建和扩展下一代 AIOps 与 MLOps 平台。随着人工智能技术,尤其是生成式AI(GenAI)平台在企业核心系统中的深入应用,我们亟需一位能够打通 AI研发与生产部署之间壁垒 的工程专家。 您将负责从 模型训练、版本管理、自动化部署到高性能推理服务 的完整 MLOps 体系建设,并主导构建支持 本地 GPU 推理与云端 LLM API 融合 的混合式推理网关平台,以实现 低延迟、高吞吐 的企业级 AI 服务能力。作为 GenAI 平台及未来 AI 服务落地的核心力量,您将显著提升 AI 功能的交付效率与系统稳定性。 设计、构建并维护可扩展的 MLOps 平台,实现 AI 模型从训练、版本控制、部署到监控的全生命周期管理。 基于 vLLM、TensorRT-LLM、TGI 等框架,在大规模 GPU 集群上开发并优化大语言模型(LLM)推理流水线。 构建融合本地 GPU 模型与云上 LLM API 的混合推理网关平台,实现智能路由、负载均衡与性能成本优化。 搭建自动化 LLM 微调(Fine-Tuning)流水线,支持 LoRA、QLoRA 等参数高效训练方法,涵盖数据预处理、分布式训练与检查点管理。 推动 RAG(检索增强生成)能力服务化(RAG-as-a-Service),集成并运维主流向量数据库(如 Pinecone、Milvus、Weaviate)。 通过 Prometheus、Grafana、OpenTelemetry 及自研监控方案,保障 AI 系统的可观测性与稳定性。 与 AI 科学家和应用工程师协作,进行模型优化(如量化、剪枝、蒸馏),提升推理效率与资源利用率。 支持 GenAI CN 平台的高性能模型服务需求,确保低延迟、高并发的服务能力。 制定 AI 模型服务的关键性能指标(KPI)与服务等级协议(SLA),量化业务价值与系统表现。 使用 GitLab CI、Jenkins、ArgoCD 等工具实现 AI 工作流的 CI/CD 自动化,确保可复现性与可审计性。

上海
logo of bytedance
校招A09518

团队介绍:字节跳动基础设施计算团队,专注构建面向大模型与 AI Agent 时代的 AI-Native Infra。我们从算力、系统到平台,围绕“AI 如何高效运行、持续进化、规模化落地”这一核心问题,重构计算基础设施。我们管理着数十万台服务器组成的超大规模集群,构建统一的异构算力调度与云原生运行体系;通过软硬协同与自研框架,持续突破大模型训练与推理的性能瓶颈;并进一步向上,打造企业级 AI Agent Infra,让 Agent 具备身份、权限、记忆、观测与治理能力,真正成为可运行在生产环境中的新型“应用形态”。 从云服务器、容器、函数,到 AI 网关、可观测与弹性体系,我们构建的是一个为 AI 而生、由 AI 驱动进化的基础设施平台,支撑集团核心业务与企业级客户的智能化升级。 如果你希望参与定义 AI 时代的 Infra 范式,而不仅是优化一个模块或服务——欢迎加入我们,一起构建下一代 AI 云原生基础设施。 课题介绍: 随着大语言模型与AI Agent规模化落地,传统云原生基础设施已难以适配AI负载的极致性能与弹性需求。本课题围绕AI基础设施全栈展开系统性研究: 1、网络与可观测:研究大规模AI集群故障智能定位与根因分析,结合时序数据库智能调优,提升集群稳定性; 2、存储系统:研发AI场景专属的Serverless高性能弹性文件系统与存储加速架构,探索DPU软硬件协同优化,突破AI存储性能瓶颈; 3、算力调度:研究GPU/CPU/MEM异构协同调度技术,面向AI Agent构建Serverless异构算力编排系统,解决负载异构、状态依赖等调度难题; 4、向量检索:优化面向大模型应用的向量检索核心技术,打造云原生分布式向量索引引擎,满足超大规模向量检索的低延迟、低成本需求; 5、智能化与Agent架构:探索基于AI Agent工作流的基础设施自动寻优,构建可自主进化的业务Agent框架,通过AI for Infra赋能全栈智能优化; 本课题旨在构建支撑大模型与AI Agent落地的下一代AI原生基础设施,提升资源利用率、降低成本、支撑弹性扩展,推动AI基础设施技术演进。 课题挑战: 1、全栈协同挑战:覆盖多技术领域,需要从端到端视角实现系统性优化,避免单点优化收益不足; 2、性能成本平衡:AI场景对性能提出极致要求,需要在吞吐、延迟、规模与成本之间找到最优平衡点; 3、云原生适配:需要将传统单机技术方案重构为适配云原生分布式架构,解决扩缩容、容错、调度等新问题; 4、AI系统融合:既需要用AI赋能基础设施优化,又需要基础设施原生适配AI负载,深度融合对技术整合要求高; 5、Agent稳定性:自主进化Agent框架需要解决经验学习、知识一致性、持续安全进化等基础问题,工程化难度大; 6、研发生态平衡:需要平衡前沿理论创新与工程落地,兼顾技术突破与现有业务生态适配。 课题价值: 1、构建大模型/RAG 场景的高性能基础设施底座,支撑大规模向量数据高效检索; 2、优化AI业务存储成本结构与运维复杂度; 3、提升异构算力资源配置效率与技术复用性。

更新于 2026-04-15上海