logo of dewu

得物【技术保障】算法SRE工程师/专家

社招全职5年以上技术类地点:上海状态:招聘

任职要求


1、计算机相关专业本科及以上学历,5年以上复杂业务系统运维经验,具备丰富的系统调优、性能优化和故障处理能力;有大规模搜广推工程运维经验者优先;
2、熟练掌握各类常用运维组件/中间件运维,如k8sNginxKafkaES、Redis、ZK等;…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责核心搜推工程业务的稳定性,通过指标建设、制度建设、降级容灾、预案设计、容量管理、监控/告警优化等一系列手段提升业务稳定性;
2、高效满足研发团队的运维服务需求,整合技术保障平台能力、服务能力等资源,提供研发团队高质量的支撑保障,并深度参与业务重大架构方案的设计与评审;
3、通过效率指标识别,新技术引进在业务域落地等手段,配合成本运营部门持续优化技术成本投入;
4、负责核心基础服务标准化建设、维护和管理,建立SOP,自动化运维工具,规范团队人员变更操作,确保系统的持续集成与交付。
包括英文材料
学历+
中间件+
Kubernetes+
Nginx+
Kafka+
ElasticSearch+
还有更多 •••
相关职位

logo of dewu
社招技术类

1.主导搜索/推荐核心链路的端到端稳定性建设,基于 SLO/SLI 与错误预算管理变更节奏,确保高可用与快速交付; 2.设计并演进全链路监控、告警、自愈、降级体系,构建自动化响应与回溯机制,加速问题定位与恢复; 3.深度优化计算、存储、调度、编译链路性能,引入并落地 JIT/AOT 等前沿技术,支撑高吞吐、低延迟算法场景; 4.运营与优化 Zookeeper、Nginx、消息队列等核心组件,保障超大规模分布式环境的稳定性与性能; 5.推进非标服务标准化、容器化与云原生化,利用 Kubernetes 构建规模化、自动化、可灰度的交付与运维体系。

更新于 2025-08-27上海
logo of tongyi
社招3年以上技术类-开发

我们正在寻找一位后台研发工程师,加入我们的核心基础设施团队,负责支撑公司云原生向量检索服务的开发、运维与稳定性保障。该服务作为智能搜索、RAG(Retrieval-Augmented Generation)等关键业务的核心组件,承载着高并发、低延迟、高可用的线上查询需求。你将参与以下工作: 1、负责向量检索服务后端功能模块的设计、开发与持续优化; 2、保障线上服务的稳定性、可扩展性与可观测性,快速响应并修复线上问题; 3、与算法、产品及前端团队紧密协作,高效落地面向RAG、智能搜索等场景的功能需求; 4、参与服务的云原生架构演进,包括容器化部署、弹性扩缩容、服务治理、监控告警等; 5、持续提升系统性能与资源利用效率,在保证准确性的前提下优化检索延迟与吞吐能力;

更新于 2026-03-26北京|杭州
logo of eleme
社招3年以上技术类-运维

1、负责阿里本地生活行业产品技术方案、售前接入集成、售后保障咨询等工作 2、针对外卖、零售等各行业特点深入用户、商户、骑手、ISV等多角色业务场景,提供针对性技术保障服务。 3、深入故障应急、风险识别、监控发现、体验治理等一个或多个技术领域,并将相关能力平台化扩展与多场景复制,解决实际场景中面临的问题,提升全域用户体验 4、基于以上技术领域能力和现有技术保障体系,结合行业特性及挑战设计开发技术保障平台,制定稳定性保障策略与整体方案,并持续挖掘需求、痛点和创新点。

更新于 2025-08-22杭州|上海
logo of xiaohongshu
社招5-10年引擎

我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架,优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline; 2、研发支持多机多卡 RL 的分布式训练框架,开发TP/PP/ZeRO-3与RL流程的动态协同机制,解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链,主导框架与 MLOps 平台集成,提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作,参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代; 5、参与分析各业务 GPU 利用率与饱和度等指标,结合业务场景持续优化训练框架能力,提升框架领先性。

更新于 2026-03-28上海|北京