阿里云阿里云智能-AI 网关高级技术专家-杭州

社招全职8年以上云智能集团2026-01-09地点：杭州状态：招聘

扫码手机上打开

任职要求

1、具备强烈的技术好奇心，有专注网关（Nginx/Higress/APISix/Kong）等领域相关经验。有研发生产级高可用分布式系统者优先考虑；
2、熟练掌握 Golang 编程语言及其技术栈。具备良好的软件工程研发素质、极限编程以及敏捷开发经验者优先；
3、熟悉AI Agent、MCP、A2A、Mem…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

阿里云 AI 中间件团队致力于打造行业优秀的AI中间件（Agent框架，Agent Registry，Agent网关等），拥有全球优秀开源项目AgentScope/Higress / Dubbo / Nacos ，优秀的商业产品AI网关，MSE，支撑阿里Qwen-APP/百炼/PAI 等核心业务流量。期待你能够洞察 AI 网关趋势，梳理核心技术竞争点，带领团队持续引领 AI 网关先进性。
1、主导 AI 网关的系统设计与实现， 独立完成 AI 模块的完整设计、开发工作，并保证功能交付的质量与稳定性；
2、主导 AI 网关的用户洞察，产品链接，需求实现，主动组织、推动上下游团队的协作，按时保质地交付用户功能需求；
3、主导 AI 网关的高可用能力构建，主动通过单元测试、功能测试、性能测试、容灾演练等持续提升自身负责模块的稳定性能力；
4、主导 AI网关的开源项目 Higress 影响力和标准的构建，积极参与开源 Higress 社区的生态扩展以及 AIGC 的探索；
5、能够 洞察 AI 网关趋势，结合行业报告、竞对分析、市场反馈，扩大 AI 网关竞争优势。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Nginx+

高可用+

分布式系统+

还有更多 •••

登录查看完整学习资料

相关职位

阿里云智能-百炼平台工程技术专家/高级工程师-北京/杭州

社招3年以上云智能集团

1. 设计并实现高性能AI原生网关。构建低延迟、高并发的API网关系统，支持多模态、多协议接入，为国内及全球客户提供灵活、安全、可扩展的流量接入方案，提供完整的数据面控制与可观测能力。 2. 打造智能推理调度与资源管理系统。设计并实现面向复杂分布式推理场景的请求调度和资源调度系统，结合动态负载特征与异构硬件资源，持续优化请求分发策略；建设Serverless化资源调度架构，实现资源的弹性伸缩与极致利用率提升。 3. 构建先进的MLOps平台能力。深度优化模型服务的CI/CD流程，推动算法研发到生产部署的自动化与标准化；实现模型版本管理、灰度发布、监控告警、性能分析等全生命周期管理能力，提升迭代效率与系统稳定性。

更新于 2026-04-08北京|杭州

JAVA高级技术专家

社招A247103

1、OpenClaw核心系统开发负责OpenClaw AI智能体平台的核心模块设计与开发，包括Gateway网关层、Agent智能体引擎、Skills技能系统等；构建可观测性基础设施，实现基于OpenTelemetry的链路追踪、指标采集和日志聚合能力；优化AI Agent执行流程，支持多智能体协作、任务编排和状态管理 2、AI工程化与Agent生态建设负责AI Agent与业务系统的对接集成，包括知识库（向量数据库+RAG）、工具调用、外部API对接；实现Agent执行过程的可观测性，追踪成功率、延迟、token消耗等关键指标 3、微服务架构设计与演进基于云原生架构设计高可用、高扩展的微服务系统，确保支撑大规模AI请求并发；负责服务治理体系建设，包括服务发现、负载均衡、熔断降级、限流等核心能力；实现流量管理、安全通信和可观测性统一 4、中间件研发与优化深度参与RPC框架（Dubbo/gRPC）、消息队列、配置中心等中间件的选型、定制和优化；解决分布式系统核心难题，包括数据一致性、分布式事务、容错恢复等；构建高性能日志服务（Log Server），支持海量日志的实时采集、路由和查询 5、技术攻关与团队赋能独立承担云原生、中间件、AI应用中的复杂技术难题攻关；参与团队技术规划，推动技术创新和最佳实践落地；指导初级工程师，提升团队整体技术水平

更新于 2026-03-23北京

腾讯云-存储高级产品专家(北京/深圳/上海)

社招5年以上腾讯云-存储产品

1.负责腾讯云存储产品的全生命周期管理，结合云计算技术趋势，推动存储产品功能完善； 2.为产品能力To B化输出负责，参与存储产品能力向方案的转化和包装工作，并参与相关方案结合客户真实业务场景的投放和跟进工作； 3.为业务目标负责，参与腾讯云存储产品商业化输出工作，拉通前后端资源实现业务目标。

更新于 2025-12-05上海

高级软件开发工程师，AI平台

社招2年以上运维开发

特斯拉信息技术部门（工作地点：特斯拉上海超级工厂）正在招聘一名全职IT AI Platform 开发工程师，专注于构建和扩展下一代 AIOps与MLOps平台。随着人工智能技术在企业核心系统（尤其是GenAI平台）中的深入应用，亟需一位能够打通AI研发与生产部署之间壁垒的工程专家。该岗位将负责从模型训练、版本管理、自动化部署到高性能推理服务的完整MLOps体系建设，并主导构建支持本地GPU与云端LLM API融合的混合式推理网关平台，以实现低延迟、高吞吐的企业级AI服务能力。推动GenAI平台及未来AI服务落地的关键力量，将显著提升AI功能的交付效率与稳定性。岗位职责： • 设计、构建和维护可扩展的 MLOps平台，实现AI模型从训练、版本控制、部署到监控的全生命周期管理。 • 基于 vLLM、TensorRT-LLM 、TGI 等框架，在大规模GPU集群上开发并优化大语言模型（LLM）推理流水线。 • 构建融合本地GPU模型与云上LLM API 的混合推理网关平台，实现智能路由、负载均衡与成本性能的优化。 • 搭建自动化 LLM微调（Fine-Tuning）流水线，支持LoRA、QLoRA等参数高效训练方法，涵盖数据预处理、分布式训练与检查点管理。 • 推动 RAG（检索增强生成）能力服务化（RAG-as-a-Service），集成并运维主流向量数据库（如 Pinecone、Milvus、Weaviate）。 • 通过 Prometheus、Grafana、OpenTelemetry 及自研监控方案，保障AI系统的可观测性与稳定性。 • 与AI科学家和应用工程师协作进行模型优化（量化、剪枝、蒸馏），提升推理效率与资源利用率。 • 支持 GenAI CN平台的高性能模型服务需求，确保低延迟、高并发的服务能力。 • 制定AI模型服务的关键性能指标（KPI）与服务等级协议（SLA），量化业务价值与系统表现。 • 使用 GitLab CI、Jenkins、ArgoCD 等工具实现AI工作流的CI/CD自动化，确保可复现性与可审计性。

上海