阿里云阿里云智能-分布式可观测与AI工程师/技术专家-上海 / 杭州 / 北京

社招全职5年以上云智能集团2026-03-24地点：北京 | 杭州 | 上海状态：招聘

扫码手机上打开

任职要求

本科及以上学历，计算机、软件工程、电子工程、自动化、控制科学与工程、模式识别与人工智能、仪器类相关工科专业或数学、物理相关理科专业。

核心领域：【高性能内核与 AI 场景落地】
01 【极致性能 · 千亿级索引查询分析内核】
核心语言：C++ / Golang
挑战：负责下一代核心可观测大数据引擎的演进，支持 Log/Metric/Trace 多模态数据的统一存储与检索。在万亿级规模下，持续打磨倒排索引、向量索引及存储计算分离架构。优化冷热分层存储与高性能查询调度，确保在超大规模集群下实现低时延、高并发的数据分析处理能力。
02 【智能驱动 · LLM + AIOps 平台】
核心语言：Python / Java
挑战：将 AI 大模型引入数据全链路。开发智能 Agent 实现异常自动检测、根因分析（RCA）及交互式 SQL。坚持**“研用一体”**，在内部真实海量数据场景中训练并验证大数据领域的专属模型。
03 【云原生 · 应用管理与终态编排】
核心语言：Java / Golang
挑战：负责“云+应用”一体化管控平台。基于 K8S 生态实现复杂的应用蓝图编排、资源调度与容灾治理。在多单元化（Unitization）拓扑中，通过终态引擎确保大规模集群配置的一致性。
04 【全景感知 · 全栈可观测体系】
核心语言：Golang / Java
挑战：推动 OpenTelemetr…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

我们的愿景：【数据驱动智能，观测重构治理】
在专有云（Apsara Stack）这一数字化转型的技术深水区，我们正在打造 AI 驱动的可观测性中枢。通过高性能引擎与 LLM（大语言模型）的协同，我们致力于在海量、异构的专有云环境中，为政企客户提供秒级故障定位体验。
在这里，你处理的是关乎国计民生的核心基础设施，你定义的每一行代码都在构建一个**“可预测、自修复”**的数字底座。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

模式识别+

内核+

C+++

Go+

大数据+

高并发+

数据分析+

大模型+

Python+

还有更多 •••

登录查看完整学习资料

相关职位

JAVA高级技术专家

社招A247103

1、OpenClaw核心系统开发负责OpenClaw AI智能体平台的核心模块设计与开发，包括Gateway网关层、Agent智能体引擎、Skills技能系统等；构建可观测性基础设施，实现基于OpenTelemetry的链路追踪、指标采集和日志聚合能力；优化AI Agent执行流程，支持多智能体协作、任务编排和状态管理 2、AI工程化与Agent生态建设负责AI Agent与业务系统的对接集成，包括知识库（向量数据库+RAG）、工具调用、外部API对接；实现Agent执行过程的可观测性，追踪成功率、延迟、token消耗等关键指标 3、微服务架构设计与演进基于云原生架构设计高可用、高扩展的微服务系统，确保支撑大规模AI请求并发；负责服务治理体系建设，包括服务发现、负载均衡、熔断降级、限流等核心能力；实现流量管理、安全通信和可观测性统一 4、中间件研发与优化深度参与RPC框架（Dubbo/gRPC）、消息队列、配置中心等中间件的选型、定制和优化；解决分布式系统核心难题，包括数据一致性、分布式事务、容错恢复等；构建高性能日志服务（Log Server），支持海量日志的实时采集、路由和查询 5、技术攻关与团队赋能独立承担云原生、中间件、AI应用中的复杂技术难题攻关；参与团队技术规划，推动技术创新和最佳实践落地；指导初级工程师，提升团队整体技术水平

更新于 2026-03-23北京

JAVA技术专家

社招A37361A

更新于 2026-03-23北京

高级软件开发工程师，AI平台

社招2年以上IT-应用软件

特斯拉信息技术部门（工作地点：特斯拉上海超级工厂）正在招聘一名全职IT AI Platform 开发工程师，专注于构建和扩展下一代 AIOps与MLOps平台。随着人工智能技术在企业核心系统（尤其是GenAI平台）中的深入应用，亟需一位能够打通AI研发与生产部署之间壁垒的工程专家。该岗位将负责从模型训练、版本管理、自动化部署到高性能推理服务的完整MLOps体系建设，并主导构建支持本地GPU与云端LLM API融合的混合式推理网关平台，以实现低延迟、高吞吐的企业级AI服务能力。推动GenAI平台及未来AI服务落地的关键力量，将显著提升AI功能的交付效率与稳定性。岗位职责： • 设计、构建和维护可扩展的 MLOps平台，实现AI模型从训练、版本控制、部署到监控的全生命周期管理。 • 基于 vLLM、TensorRT-LLM 、TGI 等框架，在大规模GPU集群上开发并优化大语言模型（LLM）推理流水线。 • 构建融合本地GPU模型与云上LLM API 的混合推理网关平台，实现智能路由、负载均衡与成本性能的优化。 • 搭建自动化 LLM微调（Fine-Tuning）流水线，支持LoRA、QLoRA等参数高效训练方法，涵盖数据预处理、分布式训练与检查点管理。 • 推动 RAG（检索增强生成）能力服务化（RAG-as-a-Service），集成并运维主流向量数据库（如 Pinecone、Milvus、Weaviate）。 • 通过 Prometheus、Grafana、OpenTelemetry 及自研监控方案，保障AI系统的可观测性与稳定性。 • 与AI科学家和应用工程师协作进行模型优化（量化、剪枝、蒸馏），提升推理效率与资源利用率。 • 支持 GenAI CN平台的高性能模型服务需求，确保低延迟、高并发的服务能力。 • 制定AI模型服务的关键性能指标（KPI）与服务等级协议（SLA），量化业务价值与系统表现。 • 使用 GitLab CI、Jenkins、ArgoCD 等工具实现AI工作流的CI/CD自动化，确保可复现性与可审计性。

上海

高德-算法平台开发工程师/专家-算法平台方向

社招5年以上技术类-算法

1、负责高德算法平台的设计研发与迭代改进，为各业务线提供稳定易用、高性能的平台解决方案； 2、负责核心模块的设计与开发，支撑模型训练、自动迭代、特征平台、模型服务、模型管理、资源调度、服务可观测等AI全生命周期研发工作； 3、持续跟进业内AI平台与前沿技术进展，推动新技术在高德落地。

更新于 2026-01-16北京