logo of aliyun

阿里云阿里云智能-可观测高级研发工程师-杭州

社招全职3年以上云智能集团地点:杭州状态:招聘

任职要求


1. 对技术有强烈的进取心,具有良好的沟通能力和团队合作精神、优秀的问题分析和解决能力;
2. 有三年以上工作经验,扎实的算法基础和良好的编码习惯,熟悉 PythonGoJava 语言中的任意一种;
3. 对 Dify、MCPvLLMSGLang、AI 模型有实践经验,参与或贡献过开源社区的优先;
4. 熟悉 Java Agent 或者 eBPF 技术;
5. 熟悉 OpenTelemetryPrometheusGrafana 等开源组件;
6. 熟悉以下开发语言:Python / Go / Java

工作职责


1. 参与阿里云战略级产品研发,参与数据采集、处理、查询分析等功能开发与设计;
2. 负责面向 AI 原生应用的可观测数据采集,涉及数据采集探针(Python、Go、Java、eBPF 探针)的研发工作,为 AI 应用提供无侵入,高性能,低成本的数据采集能力;
3. 负责分布式调用链追踪,应用性能监控核心系统的开发,包含 AIOps 根因定位,Continuous Profiling 持续剖析等方向,帮助 AI 应用以及微服务应用实现代码级根因定位;
4. 参与 OpenTelemetry 开源社区,与国际大公司合作共建社区规范。
包括英文材料
算法+
编程规范+
Python+
Go+
Java+
MCP+
vLLM+
SGLang+
AI agent+
eBPF+
OpenTelemetry+
Prometheus+
Grafana+
相关职位

logo of alibaba
社招5年以上

1. 基于需求实现AI相关产品的全流程开发,包括但不限于AI应用的架构设计、工程实现、系统部署。 2. 核心参与AI Agent开发,基于大语言模型(LLM)、多模态模型或垂直领域模型,开发具备自主决策能力的AI Agent,支持任务分解、工具调用(如API、数据库)和结果反馈。 3. 持续迭代优化Agent相关技术实现和架构设计,包括但不限于CE优化、RAG优化、调度优化、AI可观测性提升等。 4. 跟踪前沿AI技术(如最新Agent框架和最新基模能力等),推动技术持续创新。

更新于 2025-08-26
logo of bytedance
社招A197733A

1、参与公司内基于Ray的分布式计算场景的方案设计以及研发,包括机器学习、图等场景; 2、参与Ray内核/Kuberay以及相关上层生态框架的功能开发&性能优化; 3、参与Ray在K8s上的弹性/潮汐资源集群稳定性/可观测性/平台化对接等能力建设; 4、参与Ray开源社区的建设。

更新于 2023-06-05
logo of xiaohongshu
社招3年以上机器学习平台

1、负责模型训练平台核心功能开发和架构设计,包括传统CN/NLP/SD/LLM等多场景支持 2、负责大模型后训练工具平台化建设,包括后预训练、微调、对齐等技术落地 3、设计和实现高性能分布式训练系统,打造端到端训练解决方案 4、优化训练调度和资源管理,提升集群利用率和训练效率 5、开发模型训练监控诊断工具,建设可观测性体系

logo of xiaohongshu
校招基础后端

网络工程研发: 建设小红书基础设施网络平台,对小红书网络进行全方位的监控、管理、运营优化,提升网络整体稳定性、效率,并优化网络成本。 1、负责网络可观测体系建设,研发链路水位、拥塞监控、流量调度、稳定性分析等平台功能; 2、负责网络自动化工具和系统的开发,包括拓扑自动生成、配置自动下发、变更自动化、异常检测与自愈; 3、与网络工程师协作,将底层网络能力平台化、服务化,提升整体运维效率与稳定性; 4、参与网络数据建模与分析,支撑容量规划、风险识别、成本优化与策略制定。 网络控制面研发: 1、参与网络SDN 控制系统的设计、研发和优化工作; 2、参与网络产品的控制面研发,包括但不局限于DNS、NAT、负载均衡、IPAM等产品; 3、参与大型分布式系统的性能和架构优化。

更新于 2025-09-13