logo of dewu

得物【技术保障】资深基础设施SRE

社招全职3-5年技术类地点:上海状态:招聘

任职要求


1.本科学历及以上,3-5年以上基础设施相关运维经验
2.熟练使用Linux系统,至少能掌握Python/Shell/GO等一至两种语言,有项目开发经验者优先
3.精通X86服务器硬件组件/子系统CPU,Disk,Memory,内核,熟悉分布式存储等优先;
4.熟悉服务器厂商售后及机房现场管理。
5.有丰富的系统故障排查和解决经验,突出的分析和解决问题的能力;良好的troubleshooting思路与经验,能够快速解决线上事故。
6.熟悉高并发高可用微服务系统架构运维者优先。
7.有良好的沟通协作能力、学习能力、团队精神,有较好的承压能力,能够在压力较大的情况下做出准确判断。
8.有责任感,对于工作积极严谨。

工作职责


1.负责公司线上及线下基础设施相关运维,提升系统稳定性和运维效率;
2.公有云/IDC资源相关需求受理及交付管理,负责各业务中短期和特殊资源需求的接收、分析、规划匹配、建设、交付跟进;
3.负责服务器、存储、基础服务等Iaas/Paas层技术评估、监控、调优、诊断及软硬件优化和故障定位分析;
4.评估硬件功能方案、基于新产品的运维场景下、完善各个过程的新产品适配可用维保障;
5.负责设备生命周期自运营维护;
6.完善运维过程的硬件/系统的技术方案输出和标准化
包括英文材料
学历+
Linux+
Python+
Bash+
Go+
内核+
高并发+
高可用+
微服务+
相关职位

logo of dewu
社招技术类

职位描述 1. 定位为资深AI Infra Arch,在AI算力基础设施、AI推理和训练框架全栈底层技术方面有丰富经验技术,可带领团队建设AI平台,助力CV/NLP/AIGC/社区/搜广推等算法业务场景提升效率,加速AI能力向业务效果的转换。 2. 负责设计研发得物AI平台,对AI算力相关相关资源(GPU/TPU/CPU、存储、网络等)做平台化管理,持续提升资源利用率,为业务提供一个满足企业级稳定性和性能要求的AI平台。 3. 负责训练和推理引擎优化,助力各算法业务场景提升模型迭代效率、提高推理服务性能。 4. 解决规模增长带来的技术和业务问题。 5. 解决多云场景下的AI算力资源、数据资源的管理问题,以及业务使用效率问题,目标是降本提效。

更新于 2023-12-26
logo of momenta
社招

更新于 2024-12-30
logo of dingdong
社招3年以上技术

1、参与基础设施相关的配置标准化、资源交付、容量/成本管理、变更及相关应急工作, 2、践行运维规范、流程,并能将其工具化,提升效率与稳定性, 3、研究前沿技术,推动团队能力提升,建立高标准的可用性保障体系。

更新于 2025-07-22
logo of dewu
社招2年以上技术类

致力于构建得物高可用、高扩展的智能营销基础设施,打造新一代优惠券智能发券能力,通过系统架构创新支撑精细化策略落地,保障海量用户场景下的实时决策与资金安全。 岗位职责: 1. 负责优惠券智能发放系统的架构设计与核心模块开发,支撑海量发放请求的毫秒级响应; 2. 建设策略工程化平台,实现算法团队定价模型、运筹优化、预算分配策略的快速迭代与AB实验; 3. 保障智能发券系统的稳定性,解决高并发场景下的错发/超发/少发问题,保障系统可用性及营销资金安全; 4. 攻关性能瓶颈,通过JVM调优、缓存架构优化、异步化改造等手段提升系统吞吐量。

更新于 2023-12-26