阿里巴巴业务技术-高性能AI大模型网关工程师-急招
任职要求
1. 计算机相关专业本科及以上学历,2年以上后端开发经验,有高并发、高性能分布式系统开发经验; 2. 精通 Java 核心技术(包括多线程、NIO、JVM 内存模型与调优),熟练掌握 Spring Boot、Spring Cloud 等主流框架,具备良好的代码规范与工程素养; 3. 熟悉高性能API网关或服务代理架构,了解请求生命周期管理、协议转换(如 REST/gRPC/SSE)、认证鉴权、限流熔断等核心机制; 4. 具备高并发、低延迟系统的实战经验,如分布式限流与动态配额控制;缓存策略及防穿透/雪崩方案;异步处理与响应流式传输等 5. 熟悉数据库与中间件优化,包括 SQL 调优、分库分表、消息队列(Kafka/RocketMQ)原理及可靠性保障; 6. 具备系统架构设计能力,能主导模块划分、技术选型、容灾降级与弹性伸缩方案,对可用性(SLA)、可观测性(Metrics/Logs/Traces)有深刻理解; 7. 对 AI 基础设施有浓厚兴趣或实践经验,了解大模型推理的基本流程(如 Prompt 输入、Token 生成、上下文管理),能理解并协同算力平台(如 GPU 资源调度、推理引擎集成)进行服务优化; 8. 优秀的逻辑思维与业务抽象能力,能从复杂业务场景中提炼通用服务能力,并推动技术方案跨…
工作职责
作为集团 AI 基础设施的关键组成部分,你将负责内部大模型网关(AI Hub)的设计、开发与持续演进,打造统一、高效、智能的大模型服务接入平台。 我们向下聚合集团内外多源大模型能力(包括自研及第三方 LLM、多模态模型等),向上为搜索、客服、内容生成、智能办公等数十个高并发业务场景提供标准化、低门槛的 API 接入服务。 面对万级QPS、毫秒级延迟、十万亿Token 级计量等严苛挑战,你将深度参与以下核心技术方向: - 构建智能路由引擎,支持按模型能力、成本、延迟 SLA、地域等维度动态调度请求; - 设计精细化流量治理体系,实现多租户配额管理、Token 级限流、优先级队列与熔断降级; - 打造商业化计费与用量追踪系统,支撑按 Token、时长或套餐的灵活计费模式; - 优化流式推理链路(SSE/WebSocket),保障长上下文、高吞吐场景下的低首Token延迟(TTFT)与稳定性; - 协同底层算力平台,推动网关与推理引擎(如 vLLM、TGI)的高效协同,提升 GPU 资源利用率。 你的工作将直接影响集团 AI 能力效率、服务成本与用户体验,是推动 AI 工程化落地的核心力量!加入我们,一起创造价值~
岗位职责: 1.负责基于大模型在业务场景下关键能力的应用研发,智能体建设 2.研发和优化智能体、多智能协作,使其能够高效、准确地调用内部和外部工具,扩展智能体的应用边界; 3.解决开发过程中的难题和挑战,并与团队成员合作推动项目的进展; 4.承担安全大模型应用系统的开发任务,致力于安全 agent 系统的构建以及数字员工系统的研发与完善,推动模型在实际业务场景中的落地应用
特斯拉信息技术部门(工作地点:特斯拉上海超级工厂)正在招聘一名全职IT AI Platform 开发工程师,专注于构建和扩展下一代 AIOps与MLOps平台。随着人工智能技术在企业核心系统(尤其是GenAI平台)中的深入应用,亟需一位能够打通AI研发与生产部署之间壁垒的工程专家。该岗位将负责从模型训练、版本管理、自动化部署到高性能推理服务的完整MLOps体系建设,并主导构建支持本地GPU与云端LLM API融合的混合式推理网关平台,以实现低延迟、高吞吐的企业级AI服务能力。推动GenAI平台及未来AI服务落地的关键力量,将显著提升AI功能的交付效率与稳定性。 岗位职责: • 设计、构建和维护可扩展的 MLOps平台,实现AI模型从训练、版本控制、部署到监控的全生命周期管理。 • 基于 vLLM、TensorRT-LLM 、TGI 等框架,在大规模GPU集群上开发并优化大语言模型(LLM)推理流水线。 • 构建融合本地GPU模型与云上LLM API 的混合推理网关平台,实现智能路由、负载均衡与成本性能的优化。 • 搭建自动化 LLM微调(Fine-Tuning)流水线,支持LoRA、QLoRA等参数高效训练方法,涵盖数据预处理、分布式训练与检查点管理。 • 推动 RAG(检索增强生成)能力服务化(RAG-as-a-Service),集成并运维主流向量数据库(如 Pinecone、Milvus、Weaviate)。 • 通过 Prometheus、Grafana、OpenTelemetry 及自研监控方案,保障AI系统的可观测性与稳定性。 • 与AI科学家和应用工程师协作进行模型优化(量化、剪枝、蒸馏),提升推理效率与资源利用率。 • 支持 GenAI CN平台的高性能模型服务需求,确保低延迟、高并发的服务能力。 • 制定AI模型服务的关键性能指标(KPI)与服务等级协议(SLA),量化业务价值与系统表现。 • 使用 GitLab CI、Jenkins、ArgoCD 等工具实现AI工作流的CI/CD自动化,确保可复现性与可审计性。
1、技术前瞻与需求洞察:跟踪云计算与网络领域的前沿技术趋势,重点研究 AI/ML 工作负载(如大模型训练与推理)对高性能网络的新需求,提炼产品创新方向; 2、竞品与市场分析:持续关注主流云厂商在网络虚拟化、高性能网络、AI 推理网关等方向的产品演进,输出竞品分析与市场洞察,支持产品演进,驱动产品差异化与战略决策; 3、产品全生命周期管理:负责核心云网络产品(如 VPC、EIP、SLB、云企业网等)的功能规划、需求分析、产品设计及商业化运营,推动产品规模增长; 4、端到端解决方案设计:面向用户多样化的业务场景,设计端到端的云网络解决方案,综合平衡性能、延迟、弹性、安全与成本等关键维度; 5、跨职能协同落地:联动网络架构、研发、运维、售前等团队,高效推进产品从规划、开发到上线的全流程,确保高质量交付与用户体验; 6、产品运营与持续迭代:负责产品上线后的运营,包括用户培训、客户交流、市场活动支持、反馈闭环机制建设,并基于数据驱动实现产品的持续优化与体验升级。
团队介绍 淘宝搜索不仅是阿里电商的核心流量入口,更是承接数亿用户购物需求、驱动集团业务增长的超级引擎。作为全集团算法密度最高、数据规模最大、业务复杂度最强的核心场景,我们正在经历从“传统搜索”向“下一代 AI 搜索”的深刻变革。 在这里,你的每一行代码都可能重塑亿万用户的购物体验,每一次技术决策都可能驱动电商大盘的增长引擎。搜索远不止“查询”——它是一个高度个性化的超级入口:千人千面、千次搜索千种链路,不同搜索词触发不同的召回、排序与展现策略。业务快速迭代,新场景层出不穷,挑战与创新始终并存。 在这里,你面临的既有分布式系统超高并发、极低延迟的架构挑战,也有 AI 大模型在工业级产品落地的无限可能。这不仅是一份工作,更是一块 AI 技术的真实试验田。如果你渴望在AI与工程的交汇点深耕成长,这里就是你成为未来AI型技术人才的最佳土壤。 加入我们,与顶尖的算法和工程专家并肩作战,共同定义未来的搜索形态,成为真正的 AI 复合型人才。 岗位职责 ● 引领下一代AI原生搜索系统:深度参与“生成式搜索”从理念到产品的全链路建设,推动大模型与传统搜索架构的深度融合。 ● 打造搜索运营智能体:从“AI辅助”迈向“AI自治”,定义并落地新一代智能运营范式,探索Agent在复杂电商场景中的极限能力。 ● 构建虚拟试穿与智能搭配平台:将前沿生成式AI技术转化为亿级用户可感知的极致体验,推动“看图购物”进化为“沉浸式体验购物”,重塑消费决策路径。 ● 夯实亿级高并发智能工程底座:在保障极致稳定性的前提下,突破大模型推理延迟瓶颈,打造支持未来智能电商的高性能、高可用、高智能系统架构。 ● 驱动搜索体验持续跃升:在AI赋能下,同步优化相关性、多样性与转化效率,为用户提升决策质量,为平台开辟新增长曲线。