logo of aliyun

阿里云阿里云智能-AI Infra可观测高级研发工程师-上海

社招全职3年以上云智能集团地点:上海状态:招聘

任职要求


1. 扎实的算法基础和良好的编码习惯,精通 C++JavaGoPython 中任何一门语言;
2. 在高性能数据结构、编码压缩、向量处理、异步IO、内存管理、多线程并发等领域有深入实践;有 Linux 内核、eBPF 开发经验更佳;
3. 理解分布式系统,包括调度、分布式锁、负载均衡等;
4. 加分项(AI相关)
    1)熟悉 LLM 应用框架、Prompt 设计、Agent 框架(如 LangGraph、Dify、AutoGen、Google ADK、工具链集成等)者优…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


加入该岗位,你将参与构建面向 AI 时代的下一代可观测数据基础设施。
● 打造国内超大规模的可观测基础设施:通过实时采集、索引、存储、压缩等技术,实时处理来自千万设备的海量日志数据,并针对 AI 应用场景进行特定优化,提供智能、自动化数据分析服务;
● 深度参与 AI Infra 核心能力建设:从数据采集到智能分析,构建面向 LLM、Agent、多模态等前沿 AI 场景的统一可观测底座;
● 开源引领行业标准:主导 LoongCollector 开源项目,推动云原生可观测采集器成为 AI 时代的新一代 OneAgent。
具体职责包括:
1. 参与阿里云战略级产品 SLS 研发,参与面向AI应用场景的数据采集、处理、查询分析等功能开发与设计;
2. 参与千万级实例、数百 PB 流量的云原生可观测采集器 LoongCollector/iLogtail 及管控系统开发,打造云上统一的 OneAgent 能力,服务于日志、指标、eBPF、主机监控、安全等多种场景;
3. 深度参与并打造高性能、高可靠的数据采集与管控系统,深入底层优化,提升网络、内存和 CPU 等关键资源的利用效率;
4. 面向 AI 应用构建高性能、安全的多模态数据处理与数据集管理平台,参与上下游 AI 生态建设。
包括英文材料
算法+
编程规范+
C+++
Java+
Go+
Python+
数据结构+
多线程+
Linux+
内核+
分布式系统+
大模型+
Prompt+
还有更多 •••
相关职位

logo of aliyun
社招3年以上云智能集团

负责阿里集团、阿里云可观测数据处理基础设施建设,打造日增百PB级数据的实时数据分析平台。通过实时采集、索引、存储、压缩等技术,实时处理来自千万设备的海量日志数据,并针对AI应用场景进行特定优化,提供智能、自动化数据分析服务。 加入该岗位,您将有机会在国内超大规模的实时日志平台上,构建各种面向各类AI应用场景的数据存储和处理平台,打造新一代的AI基础设施。 1. 参与阿里云战略级产品SLS研发,参与面向AI应用场景的多模态数据采集、处理、检索分析等功能开发与设计; 2. 参与数据飞轮的建设,研发高质量数据集的清洗和存储、检索系统; 3. 参与Agent数据反馈回路建设,打磨Agent质量; 4. 参与建设Agent数据基座,研发稳定可靠的Agent运行时数据基础设施。

更新于 2026-02-11杭州|上海
logo of aliyun
社招3年以上云智能集团

负责阿里集团、阿里云可观测数据处理基础设施建设,打造日增百PB级数据的实时数据分析平台。通过实时采集、索引、存储、压缩等技术,实时处理来自千万设备的海量日志数据,并针对AI应用场景进行特定优化,提供智能、自动化数据分析服务。 加入该岗位,您将有机会在国内超大规模的实时日志平台上,构建各种面向各类AI应用场景的数据存储和处理平台,打造新一代的AI基础设施。 1. 参与阿里云战略级产品SLS研发,参与面向AI应用场景的多模态数据采集、处理、检索分析等功能开发与设计。 2. 参与数据飞轮的建设,研发高质量数据集的清洗和存储、检索系统。 3. 参与Agent数据反馈回路建设,打磨Agent质量。 4. 参与建设Agent数据基座,研发稳定可靠的Agent运行时数据基础设施。

更新于 2026-02-11杭州|上海
logo of xiaohongshu
社招5-10年引擎

我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架,优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline; 2、研发支持多机多卡 RL 的分布式训练框架,开发TP/PP/ZeRO-3与RL流程的动态协同机制,解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链,主导框架与 MLOps 平台集成,提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作,参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代; 5、参与分析各业务 GPU 利用率与饱和度等指标,结合业务场景持续优化训练框架能力,提升框架领先性。

更新于 2026-03-28上海|北京
logo of xiaohongshu
社招3年以上机器学习平台

【业务介绍】 作为公司统一的机器学习平台团队,负责调度公司所有模型训练与推理资源;基于自建的训推引擎,构建公司统一的机器学习平台,为公司所有算法同学(稀疏 & 稠密,含 LLM) 模型迭代提供端到端的一站式服务;包括 数据生产,模型训练,模型上线,特征管理,模型测试,资源管控等一系列能力。 【岗位职责】 1、负责机器学习链路,离在线数据相关的开发工作,包括样本数据、特征数据等的数据链路搭建、任务运维和调优、性能优化等 2、负责小红书大规模机器学习平台的后台系统设计和开发工作;包括样本平台,特征平台,训练平台,推理平台等AI应用后台建设等; 3、研究分析业内AI平台产品,优化技术方案,改进产品功能,完善产品体验。

上海