logo of aliyun

阿里云阿里云智能-分布式可观测与AI工程师/技术专家-上海 / 杭州 / 北京

社招全职5年以上云智能集团地点:北京 | 杭州 | 上海状态:招聘

任职要求


本科及以上学历,计算机、软件工程、电子工程、自动化、控制科学与工程、模式识别与人工智能、仪器类相关工科专业或数学、物理相关理科专业。

核心领域:【高性能内核与 AI 场景落地】
01 【极致性能 · 千亿级索引查询分析内核】
核心语言:C++ / Golang
挑战:负责下一代核心可观测大数据引擎的演进,支持 Log/Metric/Trace 多模态数据的统一存储与检索。在万亿级规模下,持续打磨倒排索引、向量索引及存储计算分离架构。优化冷热分层存储与高性能查询调度,确保在超大规模集群下实现低时延、高并发数据分析处理能力。
02 【智能驱动 · LLM + AIOps 平台】
核心语言:Python / Java
挑战:将 AI 大模型引入数据全链路。开发智能 Agent 实现异常自动检测、根因分析(RCA)及交互式 SQL。坚持**“研用一体”**,在内部真实海量数据场景中训练并验证大数据领域的专属模型。
03 【云原生 · 应用管理与终态编排】
核心语言:Java / Golang
挑战:负责“云+应用”一体化管控平台。基于 K8S 生态实现复杂的应用蓝图编排、资源调度与容灾治理。在多单元化(Unitization)拓扑中,通过终态引擎确保大规模集群配置的一致性。
04 【全景感知 · 全栈可观测体系】
核心语言:Golang / Java
挑战:推动 OpenTelemetr…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


我们的愿景:【数据驱动智能,观测重构治理】
在专有云(Apsara Stack)这一数字化转型的技术深水区,我们正在打造 AI 驱动的可观测性中枢。通过高性能引擎与 LLM(大语言模型)的协同,我们致力于在海量、异构的专有云环境中,为政企客户提供秒级故障定位体验。
在这里,你处理的是关乎国计民生的核心基础设施,你定义的每一行代码都在构建一个**“可预测、自修复”**的数字底座。
包括英文材料
学历+
模式识别+
内核+
C+++
Go+
大数据+
高并发+
数据分析+
大模型+
Python+
还有更多 •••
相关职位

logo of antgroup
社招3年以上技术类-开发

1. 负责面向大规模分布式环境对Ray引擎进行定制开发,包括优化支持AI工作负载的系统架构设计、性能优化、功能改进以及问题诊断与解决;方向包括但不限于:多语言分布式编程框架、面向AI任务的资源调度优化、高效组件通信、支持大规模AI计算的共享内存对象存储、运行时环境构建、故障恢复等 2. 参与基于K8S的Ray平台化能力建设,包括云原生部署、资源弹性、可观测性、产品化等能力 3. 探索Ray在企业内部包括AI在内的各类分布式计算场景中的创新与落地 4. 参与Ray开源社区建设,通过讨论、文档撰写、代码贡献等形式推动Ray在分布式计算领域的发展与创新

更新于 2025-08-06杭州|北京
logo of xiaohongshu
社招3-5年引擎

【业务介绍】 作为公司统一的模型训练引擎团队,支撑公司内所有搜推广类业务的训练工程侧工作,包括模型训练、参数服务器、特征样本流水线等,通过引擎能力的持续建设结合多元异构算力为业务提供高效、灵活、稳定的搜广推模型服务。 为公司核心的搜广推业务提供关键的模型训练引擎支撑,解决超大规模稀疏特征训练的核心问题,不断挖掘异构硬件算力,为公司搜广推业务增长提供保障,并获得快速的成长与提升。 【岗位职责】 1、负责小红书搜广推业务线的机器学习训练框架的研发与迭代,核心支持公司所有相关业务场景; 2、深入参与分布式训练、自动并行化、参数服务器、特征样本流水线等系统底层功能的创新设计与优化,实现软硬件协同的极致训练效率; 3、跨团队合作,与公司算法部门深度协同,针对关键项目开展算法与系统的联合优化,推动解决实际业务挑战; 4、推动自动化扩展、智能资源调度、跨架构设备兼容(NV GPU、GPGPU、XPU等)、AI系统可观测性等先进技术在公司模型训练平台落地; 5、跟踪并推动AI系统领域的最新技术趋势(如生成式推荐、AI编译优化、RDMA/NCCL通信计算并发等),持续保持平台业界领先优势。

更新于 2025-11-11北京|上海
logo of amap
社招5年以上技术类-算法

1、负责高德算法平台的设计研发与迭代改进,为各业务线提供稳定易用、高性能的平台解决方案; 2、负责核心模块的设计与开发,支撑模型训练、自动迭代、特征平台、模型服务、模型管理、资源调度、服务可观测等AI全生命周期研发工作; 3、持续跟进业内AI平台与前沿技术进展,推动新技术在高德落地。

更新于 2026-01-16北京
logo of alibaba
社招2年以上

1. 立足AI Agent研发运维视角,贯穿整个技术栈,在稳定、体验、效率和成本这四个方面持续进行优化 2. 基于AI研发领域的MaaS/PaaS/IaaS,进行模型训练与推理的算力保障,并提升资源使用率 3. 统性地提升Agent研发、部署、运行阶段的稳定性,适应Agent QPS、模型推理TPM每年提升1个量级的发展速度 4. 主导解决Agent研发运维过程中各类疑难问题,并推进完善产品与平台的能力 5. 系统性构建故障节点、慢节点检测平台化能力,响应并解决日常大模型任务的故障问题 6. 负责LLM 后训练(SFT、RLHF/RLAIF 等)相关链路稳定性治理、规范建设:理解研发与优化 LLM + RL/HRF 相关训练框架,提升扩展性、稳定性与性能(吞吐、显存占用、收敛效率等)。结合分布式训练技术(如 tensor / pipeline / data parallel),优化多机多卡训练性能和资源利用率。 7. 平台稳定性与工程质量:建设训练平台的观测与运维体系,完善监控、告警、日志与故障排查工具;持续提升平台的稳定性、可调试性和可维护性,产出高质量技术文档与设计方案。

更新于 2025-12-15杭州