滴滴CPG-服务器专家(JR2026012700U)
任职要求
1. 本科及以上学历,计算机相关专业,5年及以上互联网行业服务器运维经验。 2. 精通X86架构服务器运维,熟悉ARM架构服务器原理及部署运维流程,了解主流服务器厂商产品特性及硬件组成。 3. 精通GPU服务器运维,熟悉NVIDIA GPU架构、驱动安装及优化,掌握NCCL等GPU通信协议,了解IB/RoCE高速网络技术,具备一定的GPU集群性能调优及故障排查能力 4. 熟悉国产硬件的适配与…
工作职责
1、负责滴滴数据中心服务器&操作系统运维保障工作,保障服务器产品稳定性。 2、参与嘀嘀数万级服务器运维体系的设计和研发,提升服务器运维管理效率。 3、参与服务器运维平台、监控平台等系统的设计和研发,保障服务器稳定运行; 4、负责GPU/异构计算服务器单机与集群的性能评测及调优,分析和优化性能瓶颈; 5、参与GPU/异构计算故障在数据中心的监控、诊断与处理。
1、主导滴滴CMDB平台架构设计与核心模块开发,保障高可用、高并发与数据准确性; 2、负责配置项模型设计、自动化采集、跨系统数据集成及 API 生态建设; 3、优化CMDB平台的数据流转与变更流程,建立配置数据校验、变更管控与质量评估机制,保障资源数据的准确性与一致性,提升资源数据在运维、交付及产品化场景中的使用效率。 4、持续迭代优化平台的性能、稳定性和可扩展性,解决研发过程中遇到的关键技术难点和线上问题,推动研发规范落地,提升团队研发效率和代码质量;
1. 作为租赁数据中心的区域运营主管,代表客户参与机房基础设施运维管理和监督、应急响应、问题沟通等,对数据中心的运营和服务质量负责。 2. 确保数据中心电力、暖通、弱电、消防系统的可靠运行,及时识别运行风险,推动机房运营商进行整改和风险消除。 3. 负责数据中心异常情况的及时通报,故障的排查抢修跟进,现场应急保障。持续提升数据中心故障识别、定位和处理能力。 4. 参与基础设施运营商的巡检、维护、测试、演练、培训等运维活动,对运营商运维流程、计划和执行规范性进行监督。 5. 深度参与现场基础设施变更,审核变更方案,跟进变更进度,管控变更风险。 6. 能够独立阅读理解设计图纸,对照检查数据中心实际情况与图纸的符合性,识别系统架构层面问题风险。 7. 能够独立审查3P文件、应急演练预案的编制和执行质量,持续更新完善。 8. 参与数据中心选址准入的技术评估和标准迭代 9. 参与数据中心的建设方案论证、图纸评审、交付验收
1. 负责滴滴 AI 推理框架的架构设计,应用于多个场景(NLP, ASR, LLM) 2. 参与高性能算子的开发及优化,支持多个后端 3. 参与模型量化相关工具设计及开发工作 4. 参与深度学习图优化,编译优化,分布式推理等性能优化工作 5. 参与服务化框架开发,SDK 封装及功能开发
• 担任为重点客户名单 (NAL) 中的客户提供服务的专家,与推广人员共同推介,以便推动客户采用合创广告、YouTube 互动广告和 YouTube/购物/商务解决方案。负责与地区内的现有成员一起推动 YouTube 在地区内的总体业务发展。 • 与 Google 客户解决方案 (GCS) 业务部门、现有 YouTube 专家以及 YouTube 合作伙伴关系 (YTP) 团队和社区合作伙伴经理 (CPM) 团队一起,携手打造优质体验,助力广告主同创作者和品牌开展合作。 • 负责市场推广 (GTM)/平台业务发展,制定业务和营销策略、业务赋能策略、产品策略,助力打造产品在地区内的美好未来。