阿里巴巴业务技术-高性能AI大模型网关工程师-急招
任职要求
1. 计算机相关专业本科及以上学历,2年以上后端开发经验,有高并发、高性能分布式系统开发经验; 2. 精通 Java 核心技术(包括多线程、NIO、JVM 内存模型与调优),熟练掌握 Spring Boot、Spring Cloud 等主流框架,具备良好的代码规范与工程素养; 3. 熟悉高性能API网关或服务代理架构,了解请求生命周期管理、协议转换(如 REST/gRPC/SSE)、认证鉴权、限流熔断等核心机制; 4. 具备高并发、低延迟系统的实战经验,如分布式限流与动态配额控制;缓存策略及防穿透/雪崩方案;异步处理与响应流式传输等 5. 熟悉数据库与中间件优化,包括 SQL 调优、分库分表、消息队列(Kafka/RocketMQ)原理及可靠性保障; 6. 具备系统架构设计能力,能主导模块划分、技术选型、容灾降级与弹性伸缩方案,对可用性(SLA)、可观测性(Metrics/Logs/Traces)有深刻理解; 7. 对 AI 基础设施有浓厚兴趣或实践经验,了解大模型推理的基本流程(如 Prompt 输入、Token 生成、上下文管理),能理解并协同算力平台(如 GPU 资源调度、推理引擎集成)进行服务优化; 8. 优秀的逻辑思维与业务抽象能力,能从复杂业务场景中提炼通用服务能力,并推动技术方案跨…
工作职责
作为集团 AI 基础设施的关键组成部分,你将负责内部大模型网关(AI Hub)的设计、开发与持续演进,打造统一、高效、智能的大模型服务接入平台。 我们向下聚合集团内外多源大模型能力(包括自研及第三方 LLM、多模态模型等),向上为搜索、客服、内容生成、智能办公等数十个高并发业务场景提供标准化、低门槛的 API 接入服务。 面对万级QPS、毫秒级延迟、十万亿Token 级计量等严苛挑战,你将深度参与以下核心技术方向: - 构建智能路由引擎,支持按模型能力、成本、延迟 SLA、地域等维度动态调度请求; - 设计精细化流量治理体系,实现多租户配额管理、Token 级限流、优先级队列与熔断降级; - 打造商业化计费与用量追踪系统,支撑按 Token、时长或套餐的灵活计费模式; - 优化流式推理链路(SSE/WebSocket),保障长上下文、高吞吐场景下的低首Token延迟(TTFT)与稳定性; - 协同底层算力平台,推动网关与推理引擎(如 vLLM、TGI)的高效协同,提升 GPU 资源利用率。 你的工作将直接影响集团 AI 能力效率、服务成本与用户体验,是推动 AI 工程化落地的核心力量!加入我们,一起创造价值~
岗位职责: 1.负责基于大模型在业务场景下关键能力的应用研发,智能体建设 2.研发和优化智能体、多智能协作,使其能够高效、准确地调用内部和外部工具,扩展智能体的应用边界; 3.解决开发过程中的难题和挑战,并与团队成员合作推动项目的进展; 4.承担安全大模型应用系统的开发任务,致力于安全 agent 系统的构建以及数字员工系统的研发与完善,推动模型在实际业务场景中的落地应用
特斯拉信息技术部门(工作地点:特斯拉上海超级工厂)正在招聘一名全职IT AI Platform 开发工程师,专注于构建和扩展下一代 AIOps与MLOps平台。随着人工智能技术在企业核心系统(尤其是GenAI平台)中的深入应用,亟需一位能够打通AI研发与生产部署之间壁垒的工程专家。该岗位将负责从模型训练、版本管理、自动化部署到高性能推理服务的完整MLOps体系建设,并主导构建支持本地GPU与云端LLM API融合的混合式推理网关平台,以实现低延迟、高吞吐的企业级AI服务能力。推动GenAI平台及未来AI服务落地的关键力量,将显著提升AI功能的交付效率与稳定性。 岗位职责: • 设计、构建和维护可扩展的 MLOps平台,实现AI模型从训练、版本控制、部署到监控的全生命周期管理。 • 基于 vLLM、TensorRT-LLM 、TGI 等框架,在大规模GPU集群上开发并优化大语言模型(LLM)推理流水线。 • 构建融合本地GPU模型与云上LLM API 的混合推理网关平台,实现智能路由、负载均衡与成本性能的优化。 • 搭建自动化 LLM微调(Fine-Tuning)流水线,支持LoRA、QLoRA等参数高效训练方法,涵盖数据预处理、分布式训练与检查点管理。 • 推动 RAG(检索增强生成)能力服务化(RAG-as-a-Service),集成并运维主流向量数据库(如 Pinecone、Milvus、Weaviate)。 • 通过 Prometheus、Grafana、OpenTelemetry 及自研监控方案,保障AI系统的可观测性与稳定性。 • 与AI科学家和应用工程师协作进行模型优化(量化、剪枝、蒸馏),提升推理效率与资源利用率。 • 支持 GenAI CN平台的高性能模型服务需求,确保低延迟、高并发的服务能力。 • 制定AI模型服务的关键性能指标(KPI)与服务等级协议(SLA),量化业务价值与系统表现。 • 使用 GitLab CI、Jenkins、ArgoCD 等工具实现AI工作流的CI/CD自动化,确保可复现性与可审计性。
职位角色 特斯拉信息技术部门(工作地点:上海超级工厂)现招聘一名全职 IT AI Platform 开发工程师,专注于构建和扩展下一代 AIOps 与 MLOps 平台。随着人工智能技术,尤其是生成式AI(GenAI)平台在企业核心系统中的深入应用,我们亟需一位能够打通 AI研发与生产部署之间壁垒 的工程专家。 您将负责从 模型训练、版本管理、自动化部署到高性能推理服务 的完整 MLOps 体系建设,并主导构建支持 本地 GPU 推理与云端 LLM API 融合 的混合式推理网关平台,以实现 低延迟、高吞吐 的企业级 AI 服务能力。作为 GenAI 平台及未来 AI 服务落地的核心力量,您将显著提升 AI 功能的交付效率与系统稳定性。 设计、构建并维护可扩展的 MLOps 平台,实现 AI 模型从训练、版本控制、部署到监控的全生命周期管理。 基于 vLLM、TensorRT-LLM、TGI 等框架,在大规模 GPU 集群上开发并优化大语言模型(LLM)推理流水线。 构建融合本地 GPU 模型与云上 LLM API 的混合推理网关平台,实现智能路由、负载均衡与性能成本优化。 搭建自动化 LLM 微调(Fine-Tuning)流水线,支持 LoRA、QLoRA 等参数高效训练方法,涵盖数据预处理、分布式训练与检查点管理。 推动 RAG(检索增强生成)能力服务化(RAG-as-a-Service),集成并运维主流向量数据库(如 Pinecone、Milvus、Weaviate)。 通过 Prometheus、Grafana、OpenTelemetry 及自研监控方案,保障 AI 系统的可观测性与稳定性。 与 AI 科学家和应用工程师协作,进行模型优化(如量化、剪枝、蒸馏),提升推理效率与资源利用率。 支持 GenAI CN 平台的高性能模型服务需求,确保低延迟、高并发的服务能力。 制定 AI 模型服务的关键性能指标(KPI)与服务等级协议(SLA),量化业务价值与系统表现。 使用 GitLab CI、Jenkins、ArgoCD 等工具实现 AI 工作流的 CI/CD 自动化,确保可复现性与可审计性。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架,优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline; 2、研发支持多机多卡 RL 的分布式训练框架,开发TP/PP/ZeRO-3与RL流程的动态协同机制,解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链,主导框架与 MLOps 平台集成,提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作,参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代; 5、参与分析各业务 GPU 利用率与饱和度等指标,结合业务场景持续优化训练框架能力,提升框架领先性。