logo of didi

滴滴可观测高级研发工程师(J250513021)

社招全职2年以上技术地点:北京状态:招聘

任职要求


1、2年及以上研发经验
2、熟悉 Golang/Java/C++ 中一种或多种编程语言
3、熟悉 MySQL/Redis/Clickhouse/ES/Druid/Flink/Kafka/HDFS/Spark 等常见存储以及中间件,有较强的架构能力和良好代码规范
4、有良好的沟通表达能力,以及团队合作意识,对问题有清晰的分析逻辑和全局思维
5、有可观测平台建设、业务稳定性治理经验加分

工作职责


1、负责滴滴可观测看板、日志&trace等系统的开发,致力于构建高效的可观测架构
2、技术驱动,挖掘用户价值、对标行业,不断拓展架构能力并推动落地
3、负责架构设计与优化,主导代码开发测试,积极推动上线并监控项目质量
包括英文材料
Go+
Java+
C+++
MySQL+
Redis+
ClickHouse+
ElasticSearch+
Kafka+
HDFS+
Spark+
中间件+
稳定性治理+
相关职位

logo of aliyun
社招3年以上云智能集团

1. 参与阿里云战略级产品研发,参与数据采集、处理、查询分析等功能开发与设计; 2. 负责面向 AI 原生应用的可观测数据采集,涉及数据采集探针(Python、Go、Java、eBPF 探针)的研发工作,为 AI 应用提供无侵入,高性能,低成本的数据采集能力; 3. 负责分布式调用链追踪,应用性能监控核心系统的开发,包含 AIOps 根因定位,Continuous Profiling 持续剖析等方向,帮助 AI 应用以及微服务应用实现代码级根因定位; 4. 参与 OpenTelemetry 开源社区,与国际大公司合作共建社区规范。

更新于 2025-09-24
logo of xiaohongshu
社招3年以上机器学习平台

1、负责模型训练平台核心功能开发和架构设计,包括传统CN/NLP/SD/LLM等多场景支持 2、负责大模型后训练工具平台化建设,包括后预训练、微调、对齐等技术落地 3、设计和实现高性能分布式训练系统,打造端到端训练解决方案 4、优化训练调度和资源管理,提升集群利用率和训练效率 5、开发模型训练监控诊断工具,建设可观测性体系

logo of bytedance
社招A197733A

1、参与公司内基于Ray的分布式计算场景的方案设计以及研发,包括机器学习、图等场景; 2、参与Ray内核/Kuberay以及相关上层生态框架的功能开发&性能优化; 3、参与Ray在K8s上的弹性/潮汐资源集群稳定性/可观测性/平台化对接等能力建设; 4、参与Ray开源社区的建设。

更新于 2023-06-05
logo of mi
社招A253942

1. 主导AI训练平台任务调度系统与队列管理架构设计,优化大规模分布式训练任务的资源调度策略与执行效率 2. 开发高并发任务调度算法,解决资源抢占、优先级调度、故障恢复等核心问题,保障万卡级集群资源利用率 3. 构建智能队列管理系统,支持弹性配额、动态优先级调整、故障任务自动迁移等高级功能,满足LLM/VLM等大模型训练需求 4. 负责调度系统可观测性建设与性能优化,培养调度领域技术团队

更新于 2025-06-30