滴滴可观测高级研发工程师(J250513021)
任职要求
1、2年及以上研发经验 2、熟悉 Golang/Java/C++ 中一种或多种编程语言 3、熟悉 MySQL/Redis/Clickhouse/ES/Druid/Flink/Kafka/HDF…
工作职责
1、负责滴滴可观测看板、日志&trace等系统的开发,致力于构建高效的可观测架构 2、技术驱动,挖掘用户价值、对标行业,不断拓展架构能力并推动落地 3、负责架构设计与优化,主导代码开发测试,积极推动上线并监控项目质量
1. 参与阿里云战略级产品研发,参与数据采集、处理、查询分析等功能开发与设计; 2. 负责面向 AI 原生应用的可观测数据采集,涉及数据采集探针(Python、Go、Java、eBPF 探针)的研发工作,为 AI 应用提供无侵入,高性能,低成本的数据采集能力; 3. 负责分布式调用链追踪,应用性能监控核心系统的开发,包含 AIOps 根因定位,Continuous Profiling 持续剖析等方向,帮助 AI 应用以及微服务应用实现代码级根因定位; 4. 参与 OpenTelemetry 开源社区,与国际大公司合作共建社区规范。
加入该岗位,你将参与构建面向 AI 时代的下一代可观测数据基础设施。 ● 打造国内超大规模的可观测基础设施:通过实时采集、索引、存储、压缩等技术,实时处理来自千万设备的海量日志数据,并针对 AI 应用场景进行特定优化,提供智能、自动化数据分析服务; ● 深度参与 AI Infra 核心能力建设:从数据采集到智能分析,构建面向 LLM、Agent、多模态等前沿 AI 场景的统一可观测底座; ● 开源引领行业标准:主导 LoongCollector 开源项目,推动云原生可观测采集器成为 AI 时代的新一代 OneAgent。 具体职责包括: 1. 参与阿里云战略级产品 SLS 研发,参与面向AI应用场景的数据采集、处理、查询分析等功能开发与设计; 2. 参与千万级实例、数百 PB 流量的云原生可观测采集器 LoongCollector/iLogtail 及管控系统开发,打造云上统一的 OneAgent 能力,服务于日志、指标、eBPF、主机监控、安全等多种场景; 3. 深度参与并打造高性能、高可靠的数据采集与管控系统,深入底层优化,提升网络、内存和 CPU 等关键资源的利用效率; 4. 面向 AI 应用构建高性能、安全的多模态数据处理与数据集管理平台,参与上下游 AI 生态建设。
1、负责模型训练平台核心功能开发和架构设计,包括传统CN/NLP/SD/LLM等多场景支持 2、负责大模型后训练工具平台化建设,包括后预训练、微调、对齐等技术落地 3、设计和实现高性能分布式训练系统,打造端到端训练解决方案 4、优化训练调度和资源管理,提升集群利用率和训练效率 5、开发模型训练监控诊断工具,建设可观测性体系