logo of aliyun

阿里云阿里云智能-AI 应用高级研发工程师-杭州

社招全职3年以上云智能集团地点:杭州状态:招聘

任职要求


1、计算机相关专业,3年及以上后端开发或云原生平台开发经验,精通使用java/go/python编程语言一种,熟悉分布式系统开发,熟悉K8s/Redis/Kafka中间件,具备工程化的实战经验,能独立完成从POC到生产落地的全流程;
2、具备良好的问题排查能力,能快速定位复杂系统问题,具备SRE相关平台&系统的设计、开发与持续优化能力优先考虑(如:监控告警平台、日志分析系统、故障应急平台、容量规划工具、发布管控系统等);
3、运维方向,要求深入理解 Kubernetes 架构与核心组件(如 API Server、etcd、kubelet、kube-proxy 等),熟悉 Helm、Is…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


泰山平台是支撑云原生团队稳定和质量的技术风险平台,目前已经支持数十个地域、数千个集群、百万规模的规模容器运维。在智能测试、智能运维的领域有前沿探索,和多所国内知名学校有长期的项目合作,主导混沌工程领域的开源建设。
1、基于AI技术升级技术风险平台产品,包括不限于自动化测试生成、规模化容器运维、多模态告警降噪、容器根因诊断、韧性工程等领域,深度参与或主导AI框架与工程架构设计,并推动AI产品落地;
2、探索大模型与智能体技术在技术风险领域的创新应用,推动AI驱动的自动化技术风险能力升级,大幅提升测试、观测、应急等效能;
3、不断研究大模型新的前沿技术,攻克关键技术难题,促进安全AI技术发展;
4、结合AI行业发展趋势,制定合适的技术发展规划,提升团队技术视野和技术影响力。
包括英文材料
后端开发+
系统设计+
Java+
Go+
Kubernetes+
Helm+
Istio+
Prometheus+
Fluentd+
中间件+
Kafka+
还有更多 •••
相关职位

logo of aliyun
社招4年以上云智能集团

泰山平台是支撑云原生团队稳定和质量的技术风险平台,目前已经支持数十个地域、数千个集群、百万规模的规模容器运维。在智能测试、智能运维的领域有前沿探索,和多所国内知名学校有长期的项目合作,主导混沌工程领域的开源建设。 1、基于AI技术升级技术风险平台产品,包括不限于自动化测试生成、规模化容器运维、多模态告警降噪、容器根因诊断、韧性工程等领域,深度参与或主导AI框架与工程架构设计,并推动AI产品落地。 2、探索大模型与智能体技术在技术风险领域的创新应用,推动AI驱动的自动化技术风险能力升级,大幅提升测试、观测、应急等效能。 3、不断研究大模型最新前沿技术,攻克关键技术难题,促进安全AI技术发展。 4、结合AI行业发展趋势,制定合适的技术发展规划,提升团队技术视野和技术影响力。

更新于 2026-01-05杭州
logo of aliyun
社招3年以上云智能集团

负责阿里集团、阿里云战略级产品SLS研发,在日增数百PB级的超大规模实时数据之上,挑战从“经典可观测性”向“AI Native 基建”的跨越。通过实时采集、索引、存储、语义检索和分析等技术,实时处理每日数百PB海量数据,并针对AI应用场景进行特定优化,提供智能、自动化数据检索和分析服务。加入该岗位,您将有机会在国内超大规模的实时日志平台上,打造新一代的AI基础设施。 1. 定义下一代 AI 数据基座: 基于现有海量日志平台,重构面向 Agent Runtime 的数据基础设施,解决高吞吐写入与低延迟语义检索共存的工程难题; 2. 构建 Data + AI 飞轮: 研发高性能的数据清洗与向量化流水线,从数据中实时化萃取高质量数据,构建AI存储和检索系统,通过构建数据反馈回路,使模型和Agent持续进化; 3. 超大规模系统攻坚: 维护并演进日处理百 PB 级数据的实时平台,在极致的成本与性能约束下,探索存算分离、混合索引等前沿技术落地。

更新于 2026-01-09杭州
logo of aliyun
社招3年以上云智能集团

1. 参与阿里云战略级产品研发,参与数据采集、处理、查询分析等功能开发与设计; 2. 负责面向 AI 原生应用的可观测数据采集,涉及数据采集探针(Python、Go、Java、eBPF 探针)的研发工作,为 AI 应用提供无侵入,高性能,低成本的数据采集能力; 3. 负责分布式调用链追踪,应用性能监控核心系统的开发,包含 AIOps 根因定位,Continuous Profiling 持续剖析等方向,帮助 AI 应用以及微服务应用实现代码级根因定位; 4. 参与 OpenTelemetry 开源社区,与国际大公司合作共建社区规范。

更新于 2025-09-24杭州
logo of aliyun
社招3年以上云智能集团

阿里云ApsaraMQ是行业一流的Serverless消息云服务,为客户提供一站式多场景的业界主流消息服务(包括Apache RocketMQ、Apache Kafka、RabbitMQ、MQTT、MNS、EventBridge),具备10倍成本优化、10倍弹性能力、异地多活、丰富集成生态等产品优势。目前AI时代已来,我们正在引领新一代AI MQ技术,为AI Agent提供事件驱动架构基础设施和实时AI Context服务,覆盖AI原生应用架构和一站式Agentic数据分析的场景。 1.负责阿里云消息云服务AI MQ、Data+AI等特性研发,拓展消息、事件流在AI场景的落地规模; 2.负责阿里云消息云服务稳定性建设,为AI Agent提供坚实、可靠的通信、数据流技术底座; 3.负责阿里云消息技术性能优化、成本优化,持续降低Agent通信的延迟和成本; 4.负责阿里云消息运维平台建设,基于大模型构建SRE Agent持续提升产研效率; 5.负责Apache RocketMQ技术竞争力建设和开源社区运营,打造AI MQ心智,持续扩大开发者规模。

更新于 2026-01-05深圳|杭州