阿里巴巴业务技术-高性能AI大模型网关工程师-急招

社招全职1年以上2026-02-05地点：杭州状态：招聘

扫码手机上打开

任职要求

1. 计算机相关专业本科及以上学历，2年以上后端开发经验，有高并发、高性能分布式系统开发经验；
2. 精通 Java 核心技术（包括多线程、NIO、JVM 内存模型与调优），熟练掌握 Spring Boot、Spring Cloud 等主流框架，具备良好的代码规范与工程素养；
3. 熟悉高性能API网关或服务代理架构，了解请求生命周期管理、协议转换（如 REST/gRPC/SSE）、认证鉴权、限流熔断等核心机制；
4. 具备高并发、低延迟系统的实战经验，如分布式限流与动态配额控制；缓存策略及防穿透/雪崩方案；异步处理与响应流式传输等
5. 熟悉数据库与中间件优化，包括 SQL 调优、分库分表、消息队列（Kafka/RocketMQ）原理及可靠性保障；
6. 具备系统架构设计能力，能主导模块划分、技术选型、容灾降级与弹性伸缩方案，对可用性（SLA）、可观测性（Metrics/Logs/Traces）有深刻理解；
7. 对 AI 基础设施有浓厚兴趣或实践经验，了解大模型推理的基本流程（如 Prompt 输入、Token 生成、上下文管理），能理解并协同算力平台（如 GPU 资源调度、推理引擎集成）进行服务优化；
8. 优秀的逻辑思维与业务抽象能力，能从复杂业务场景中提炼通用服务能力，并推动技术方案跨…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

作为集团 AI 基础设施的关键组成部分，你将负责内部大模型网关（AI Hub）的设计、开发与持续演进，打造统一、高效、智能的大模型服务接入平台。  
我们向下聚合集团内外多源大模型能力（包括自研及第三方 LLM、多模态模型等），向上为搜索、客服、内容生成、智能办公等数十个高并发业务场景提供标准化、低门槛的 API 接入服务。  

面对万级QPS、毫秒级延迟、十万亿Token 级计量等严苛挑战，你将深度参与以下核心技术方向：  
- 构建智能路由引擎，支持按模型能力、成本、延迟 SLA、地域等维度动态调度请求；  
- 设计精细化流量治理体系，实现多租户配额管理、Token 级限流、优先级队列与熔断降级；  
- 打造商业化计费与用量追踪系统，支撑按 Token、时长或套餐的灵活计费模式；  
- 优化流式推理链路（SSE/WebSocket），保障长上下文、高吞吐场景下的低首Token延迟（TTFT）与稳定性；
- 协同底层算力平台，推动网关与推理引擎（如 vLLM、TGI）的高效协同，提升 GPU 资源利用率。  

你的工作将直接影响集团 AI 能力效率、服务成本与用户体验，是推动 AI 工程化落地的核心力量！加入我们，一起创造价值~

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

Java+

多线程+

JVM+

Spring+

Spring Boot+

RPC+

中间件+

SQL+

缓存+

Redis+

高并发+

系统设计+

大模型+

后端开发+

分布式系统+

还有更多 •••

登录查看完整学习资料

相关职位

后端架构师-信息安全部

社招5年以上安全工程师岗

岗位职责： 1.负责基于大模型在业务场景下关键能力的应用研发，智能体建设 2.研发和优化智能体、多智能协作，使其能够高效、准确地调用内部和外部工具，扩展智能体的应用边界； 3.解决开发过程中的难题和挑战，并与团队成员合作推动项目的进展； 4.承担安全大模型应用系统的开发任务，致力于安全 agent 系统的构建以及数字员工系统的研发与完善，推动模型在实际业务场景中的落地应用

更新于 2025-10-20北京

高级软件开发工程师，AI平台

社招2年以上运维开发

特斯拉信息技术部门（工作地点：特斯拉上海超级工厂）正在招聘一名全职IT AI Platform 开发工程师，专注于构建和扩展下一代 AIOps与MLOps平台。随着人工智能技术在企业核心系统（尤其是GenAI平台）中的深入应用，亟需一位能够打通AI研发与生产部署之间壁垒的工程专家。该岗位将负责从模型训练、版本管理、自动化部署到高性能推理服务的完整MLOps体系建设，并主导构建支持本地GPU与云端LLM API融合的混合式推理网关平台，以实现低延迟、高吞吐的企业级AI服务能力。推动GenAI平台及未来AI服务落地的关键力量，将显著提升AI功能的交付效率与稳定性。岗位职责： • 设计、构建和维护可扩展的 MLOps平台，实现AI模型从训练、版本控制、部署到监控的全生命周期管理。 • 基于 vLLM、TensorRT-LLM 、TGI 等框架，在大规模GPU集群上开发并优化大语言模型（LLM）推理流水线。 • 构建融合本地GPU模型与云上LLM API 的混合推理网关平台，实现智能路由、负载均衡与成本性能的优化。 • 搭建自动化 LLM微调（Fine-Tuning）流水线，支持LoRA、QLoRA等参数高效训练方法，涵盖数据预处理、分布式训练与检查点管理。 • 推动 RAG（检索增强生成）能力服务化（RAG-as-a-Service），集成并运维主流向量数据库（如 Pinecone、Milvus、Weaviate）。 • 通过 Prometheus、Grafana、OpenTelemetry 及自研监控方案，保障AI系统的可观测性与稳定性。 • 与AI科学家和应用工程师协作进行模型优化（量化、剪枝、蒸馏），提升推理效率与资源利用率。 • 支持 GenAI CN平台的高性能模型服务需求，确保低延迟、高并发的服务能力。 • 制定AI模型服务的关键性能指标（KPI）与服务等级协议（SLA），量化业务价值与系统表现。 • 使用 GitLab CI、Jenkins、ArgoCD 等工具实现AI工作流的CI/CD自动化，确保可复现性与可审计性。

上海

全栈开发工程师，AI，上海

社招2年以上IT-基础架构与

职位角色特斯拉信息技术部门（工作地点：上海超级工厂）现招聘一名全职 IT AI Platform 开发工程师，专注于构建和扩展下一代 AIOps 与 MLOps 平台。随着人工智能技术，尤其是生成式AI（GenAI）平台在企业核心系统中的深入应用，我们亟需一位能够打通 AI研发与生产部署之间壁垒的工程专家。您将负责从模型训练、版本管理、自动化部署到高性能推理服务的完整 MLOps 体系建设，并主导构建支持本地 GPU 推理与云端 LLM API 融合的混合式推理网关平台，以实现低延迟、高吞吐的企业级 AI 服务能力。作为 GenAI 平台及未来 AI 服务落地的核心力量，您将显著提升 AI 功能的交付效率与系统稳定性。设计、构建并维护可扩展的 MLOps 平台，实现 AI 模型从训练、版本控制、部署到监控的全生命周期管理。基于 vLLM、TensorRT-LLM、TGI 等框架，在大规模 GPU 集群上开发并优化大语言模型（LLM）推理流水线。构建融合本地 GPU 模型与云上 LLM API 的混合推理网关平台，实现智能路由、负载均衡与性能成本优化。搭建自动化 LLM 微调（Fine-Tuning）流水线，支持 LoRA、QLoRA 等参数高效训练方法，涵盖数据预处理、分布式训练与检查点管理。推动 RAG（检索增强生成）能力服务化（RAG-as-a-Service），集成并运维主流向量数据库（如 Pinecone、Milvus、Weaviate）。通过 Prometheus、Grafana、OpenTelemetry 及自研监控方案，保障 AI 系统的可观测性与稳定性。与 AI 科学家和应用工程师协作，进行模型优化（如量化、剪枝、蒸馏），提升推理效率与资源利用率。支持 GenAI CN 平台的高性能模型服务需求，确保低延迟、高并发的服务能力。制定 AI 模型服务的关键性能指标（KPI）与服务等级协议（SLA），量化业务价值与系统表现。使用 GitLab CI、Jenkins、ArgoCD 等工具实现 AI 工作流的 CI/CD 自动化，确保可复现性与可审计性。

上海

大模型训练框架研发工程师/专家

社招5-10年引擎

我们是小红书中台大模型 Infra 团队，专注打造领先易用的「AI 大模型全链路基础设施」！团队深耕大模型「数-训-压-推-评」技术闭环，在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势，基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品，持续赋能社区、商业、交易、安全、数平、研效等多个核心业务，实现 AI 技术高效落地！ 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架，优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline； 2、研发支持多机多卡 RL 的分布式训练框架，开发TP/PP/ZeRO-3与RL流程的动态协同机制，解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链，主导框架与 MLOps 平台集成，提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作，参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代； 5、参与分析各业务 GPU 利用率与饱和度等指标，结合业务场景持续优化训练框架能力，提升框架领先性。

更新于 2026-03-28上海|北京