logo of aliyun

阿里云阿里云智能-AI 网关高级技术专家-杭州

社招全职8年以上云智能集团地点:杭州状态:招聘

任职要求


1、具备强烈的技术好奇心,有专注网关(Nginx/Higress/APISix/Kong)等领域相关经验。有研发生产级高可用分布式系统者优先考虑;
2、熟练掌握 Golang 编程语言及其技术栈。具备良好的软件工程研发素质、极限编程以及敏捷开发经验者优先;
3、熟悉AI Agent、MCP、A2A、Mem…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


阿里云 AI 中间件团队致力于打造行业优秀的AI中间件(Agent框架,Agent Registry,Agent网关等),拥有全球优秀开源项目AgentScope/Higress / Dubbo / Nacos ,优秀的商业产品AI网关,MSE,支撑阿里Qwen-APP/百炼/PAI 等核心业务流量。期待你能够洞察 AI 网关趋势,梳理核心技术竞争点,带领团队持续引领 AI 网关先进性。
1、主导 AI 网关的系统设计与实现, 独立完成 AI 模块的完整设计、开发工作,并保证功能交付的质量与稳定性;
2、主导 AI 网关的用户洞察,产品链接,需求实现,主动组织、推动上下游团队的协作,按时保质地交付用户功能需求;
3、主导 AI 网关的高可用能力构建,主动通过单元测试、功能测试、性能测试、容灾演练等持续提升自身负责模块的稳定性能力;
4、主导 AI网关的开源项目 Higress 影响力和标准的构建,积极参与开源 Higress 社区的生态扩展以及 AIGC 的探索;
5、能够 洞察 AI 网关趋势,结合行业报告、竞对分析、市场反馈,扩大 AI 网关竞争优势。
包括英文材料
Nginx+
高可用+
分布式系统+
还有更多 •••
相关职位

logo of tencent
社招5年以上腾讯云-存储产品

1.负责腾讯云存储产品的全生命周期管理,结合云计算技术趋势,推动存储产品功能完善; 2.为产品能力To B化输出负责, 参与存储产品能力向方案的转化和包装工作,并参与相关方案结合客户真实业务场景的投放和跟进工作; 3.为业务目标负责,参与腾讯云存储产品商业化输出工作,拉通前后端资源实现业务目标。

更新于 2025-12-05上海
logo of tesla
社招2年以上IT-应用软件

特斯拉信息技术部门(工作地点:特斯拉上海超级工厂)正在招聘一名全职IT AI Platform 开发工程师,专注于构建和扩展下一代 AIOps与MLOps平台。随着人工智能技术在企业核心系统(尤其是GenAI平台)中的深入应用,亟需一位能够打通AI研发与生产部署之间壁垒的工程专家。该岗位将负责从模型训练、版本管理、自动化部署到高性能推理服务的完整MLOps体系建设,并主导构建支持本地GPU与云端LLM API融合的混合式推理网关平台,以实现低延迟、高吞吐的企业级AI服务能力。推动GenAI平台及未来AI服务落地的关键力量,将显著提升AI功能的交付效率与稳定性。 岗位职责: • 设计、构建和维护可扩展的 MLOps平台,实现AI模型从训练、版本控制、部署到监控的全生命周期管理。 • 基于 vLLM、TensorRT-LLM 、TGI 等框架,在大规模GPU集群上开发并优化大语言模型(LLM)推理流水线。 • 构建融合本地GPU模型与云上LLM API 的混合推理网关平台,实现智能路由、负载均衡与成本性能的优化。 • 搭建自动化 LLM微调(Fine-Tuning)流水线,支持LoRA、QLoRA等参数高效训练方法,涵盖数据预处理、分布式训练与检查点管理。 • 推动 RAG(检索增强生成)能力服务化(RAG-as-a-Service),集成并运维主流向量数据库(如 Pinecone、Milvus、Weaviate)。 • 通过 Prometheus、Grafana、OpenTelemetry 及自研监控方案,保障AI系统的可观测性与稳定性。 • 与AI科学家和应用工程师协作进行模型优化(量化、剪枝、蒸馏),提升推理效率与资源利用率。 • 支持 GenAI CN平台的高性能模型服务需求,确保低延迟、高并发的服务能力。 • 制定AI模型服务的关键性能指标(KPI)与服务等级协议(SLA),量化业务价值与系统表现。 • 使用 GitLab CI、Jenkins、ArgoCD 等工具实现AI工作流的CI/CD自动化,确保可复现性与可审计性。

上海
logo of aliyun
社招5年以上云智能集团

Steam 部门设立于2025年1月,正如蒸汽机(Steam Engine)在工业革命 1.0 中所象征的创新开端,我们也希望以此之名,积极探索云与 AI 结合的产品方向。 在当前大模型能力日新月异的情况下,唯有坚持自己的核心价值主张和对未来的判断,且面向半年至一年后的大模型能力打造应用产品,才有一战的可能。对于大模型领域的未来进展,我们相信: 1) 大模型的智商会快速接近乃至与人类齐平; 2) 大模型的多模态理解能力,特别是视觉能力将得到长足发展; 3) 在1和2前提下,信息处理类工作将最终被 AI 接管,大量替代真人员工。 对于阿里云如何做到云+ AI,我们认为"云的最大客户会是 AI",我们的行动路径是让更多现实世界的工作量从“人类脑力劳动”转移到“云端 AI 消耗的计算资源”。 在这些认知下,我们确定了“高效完成重复任务,完整替代人类工作”的产品目标,如果你也相信这个未来,欢迎上船。 1、负责整个AI Agent平台面向C端用户功能的架构设计、技术选型和长期演进路线规划,确保架构的前瞻性、健壮性和可扩展性; 2、设计、实现并持续优化AI Agent平台的核心架构模块: •大规模弹性计算调度系模块:为平台提供一套能够管理海量Agent Runtime(容器/VM/Serverless)的计算资源调度框架,确保低时延、高效调度、安全隔离且成本可控。 •外部服务管理模块: 针对Agent对海量外部API的调用,构建一套稳定高效的接入和调度体系,包括智能API网关、可用性检查、弹性伸缩和全链路流量控制,确保该能力的稳定性不被第三方服务影响。 3、稳定性与SRE建设: 建立并领导平台的稳定性保障体系。推动全链路可观测性建设、容量规划和故障演练,将系统可用性提升至业界顶尖水平; 4、性能与成本优化: 深入分析系统瓶颈,主导性能优化项目。同时,建立准确的成本度量机制并持续优化平台成本,持续推动平台性能的提升和成本的下降; 5、参与AI Agent平台其他部分功能的架构设计与评审。

更新于 2025-09-19上海
logo of aliyun
社招3年以上云智能集团

1. 参与AI网关的系统设计与实现, 独立完成相关模块的完整设计、开发工作,并保证功能交付的质量与稳定性。 2. 参与AI网关的用户需求实现,主动组织、推动上下游团队的协作,按时保质地交付用户功能需求。 3. 参与AI网关的高可用能力构建,主动通过单元测试、功能测试、性能测试、容灾演练等持续提升自身负责模块的稳定性能力。 4. 参与AI网关的性能调优,关注网关领域的前沿技术发展趋势,结合网关实际场景落地持续提升网关的性能,打造高性能的企业级网关产品,例如多供应商模型之间的智能路由、 HTTP 3.0弱网环境应用等。 5. 参与AI网关的AI场景探索与落地,基于用户需求独自完成AI类插件的设计与开发工作,并保证功能交付的质量与稳定性。 6. 参与AI网关的开源项目 Higress 影响力和标准的构建,积极参与开源Higress社区的生态扩展以及 AIGC 的探索。

更新于 2025-09-24杭州