美团数据库存算分离技术专家

社招全职5年以上核心本地商业-基础研发平台2025-11-10地点：北京状态：招聘

扫码手机上打开

任职要求

存算分离经验优先，云…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

架构设计与技术引领

负责企业级数据库系统中存算分离架构的整体设计与落地，推动传统数据库向云原生、弹性伸缩、高可用方向演进。
深入理解存储层（如分布式文件系统、对象存储、块存储）与计算层（如SQL引擎、事务处理、查询优化）的解耦机制，构建高效、低延迟、高并发的数据访问路径。
主导存算分离架构下的性能调优、资源隔离、弹性扩缩容、故障恢复等关键技术攻关。
核心技术攻关

解决存算分离场景下的数据一致性、缓存一致性、元数据同步、跨节点事务处理等核心难题。
优化远程数据访问（Remote Data Access）性能，包括RDMA、零拷贝、智能预取、数据本地性调度等。
探索新型存储介质（如NVMe SSD、持久内存PMem）在存算分离架构中的高效利用。
产品与平台化建设

参与或主导数据库产品（如自研云原生数据库、HTAP系统、分布式数据库）的架构演进，推动存算分离能力产品化。
构建存算分离架构下的监控、诊断、运维平台，提升系统可观测性与稳定性。
技术生态与协作

与基础设施团队（网络、存储、云平台）紧密协作，优化底层资源调度与数据流动效率。
跟踪国内外主流存算分离数据库（如Snowflake、Google BigQuery、AWS Aurora、TiDB Cloud、OceanBase等）的技术动态，输出技术洞察与演进建议。
指导中初级工程师，推动团队技术能力提升。
标准与规范制定

制定存算分离架构下的设计规范、性能评估标准、容灾方案等，确保系统长期可维护性。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

相关职位

阿里云智能-云平台运维专家-杭州

社招5年以上云智能集团

1、运维可观测链路建设 • 负责全链路稳定性解决方案的制定与执行，包括交付、变更、应急及稳定性专项建设； • 事前：建立并持续优化产品运维的监控机制,研发并维护相应的运维监控平台/工具； • 事中：建立并持续优化产品运维的预警机制，确保故障能够被快速发现、通报、定位及处理； • 事后：快速分析、诊断、定位问题，并能够协同开发人员解决问题；建立健全快速恢复服务机制，降低业务受损程度，确保产品、业务稳定运行；牵头问题复盘工作，通过架构优化等根治引起不可用的问题。 2、运维平台产品化与智能化建设 • 设计、研发并维护智能化的运维平台、工具、系统，帮助解决生产系统遇到的容量、性能、稳定性等问题，提升性能与效率； • 负责运营质量数据化分析工作，通过对日常运维指标、问题、风险、稳定性结果进行分析和研究，建立模型、计算ROI/TCO来解决、优化和落地给出运营优化建议； • 负责高可用体系建设，如巡检、故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等，保障业务持续可用。 • 负责运维能力的抽象与设计，通过平台实现运维能力产品化，建立配套的标准运维手册，提升运维的易用性/完整性和降低误操作风险（专有云）； • 将运维服务产品化能力传达给客户，建设客户心智，提升运维服务效率（反馈增加） 3、运维服务体系建设 • 建设本领域相关的运维体系(如变更标准，重保体系，客情预警等),确保本领域产品运维&稳定性能力提升； • 牵头制定本领域内的相关新产品\新功能的的SLA协议承诺； • 基于SLA要求，评审新产品\新功能的架构是否可用、安全； • 通过日常运维活动优化产品稳定性，达成SLA目标； 4、容量规划与调优 • 基于年度的产品线规划，进行预算编制、容量规划与置备，协调各方持续滚动进行存储、计算等资源消耗的预测与估算； • 通过技术手段提升线上资源利用效率，降低物理资源成本（如结合对于业务波峰/波谷等的预测，进行混合部署）。 • 通过云平台与云产品的容量模型设计与调优以及配套的工具建设，降低云平台因为资源问题带来的稳定性风险并提升资源利用率（专有云） 5、安全保障建设 • 日常on call值班，及时响应告警及技术支持升级的疑难问题，并解决； • 负责集团级重大活动（如双11等）的运维保障工作； • 配合安全团队，梳理安全漏洞，优化相关技术架构，提升产品与系统的安全性。 • 负责云平台风险管理能力建设，通过风险策略库建设提前识别风险，建立风险预警和治理机制，推动云平台风险治理提升客户稳定性（专有云） 6、平台架构升级 • 负责系统架构升级，如内核升级、网络架构升级、存算分离、服务跨机房迁移、服务上云 • 负责容灾架构设计并实施，如同城容灾、异地多活等 • 负责云平台软硬件生命周期设计，制定升级方案，通过商务法务产品与服务策略制定，推动客户云平台持续演进（专有云） • 负责云平台的分层设计，并通过依赖与兼容性治理与优化，实现云平台分层解耦，提升交付、升级的灵活性与稳定性（专有云）

更新于 2025-07-15杭州

阿里云智能-技术服务专家TAM-公共云业务-成都/西安

社招5年以上云智能集团

1. 作为企业客户技术服务工作的第一责任人，深入了解客户业务场景，与客户的架构、开发、运维团队深入合作，梳理分析客户现有云产品及应用架构，围绕企业客户上云、云上业务设计稳定性优化方案，从云上监控，主动发现，灾难演练，业务快恢/降级方案，高可用架构改造等方面协助客户持续优化云上稳定性。 2. 与阿里云各团队充分合作，从客户架构视角出发进行问题处置、护航保障、风险治理，并沉淀输出最佳实践及工具产品，面向客户痛点主动进行专项高阶服务。 3. 追踪客户关键稳定性问题，持续协助客户治理并不断推动阿里云产品及服务的优化改进。

更新于 2025-09-28西安|成都

大模型训练框架研发工程师/专家

社招5-10年引擎

我们是小红书中台大模型 Infra 团队，专注打造领先易用的「AI 大模型全链路基础设施」！团队深耕大模型「数-训-压-推-评」技术闭环，在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势，基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品，持续赋能社区、商业、交易、安全、数平、研效等多个核心业务，实现 AI 技术高效落地！ 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架，优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline； 2、研发支持多机多卡 RL 的分布式训练框架，开发TP/PP/ZeRO-3与RL流程的动态协同机制，解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链，主导框架与 MLOps 平台集成，提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作，参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代； 5、参与分析各业务 GPU 利用率与饱和度等指标，结合业务场景持续优化训练框架能力，提升框架领先性。

更新于 2026-03-28上海|北京

AI平台开发工程师-数据方向-机器学习平台

社招3年以上机器学习平台

【业务介绍】作为公司统一的机器学习平台团队，负责调度公司所有模型训练与推理资源；基于自建的训推引擎，构建公司统一的机器学习平台，为公司所有算法同学（稀疏 & 稠密，含 LLM）模型迭代提供端到端的一站式服务；包括数据生产，模型训练，模型上线，特征管理，模型测试，资源管控等一系列能力。【岗位职责】 1、负责机器学习链路，离在线数据相关的开发工作，包括样本数据、特征数据等的数据链路搭建、任务运维和调优、性能优化等 2、负责小红书大规模机器学习平台的后台系统设计和开发工作；包括样本平台，特征平台，训练平台，推理平台等AI应用后台建设等； 3、研究分析业内AI平台产品，优化技术方案，改进产品功能，完善产品体验。

上海