蚂蚁金服蚂蚁集团-高级DBA/存储运维工程师-成都
任职要求
a. 三年以上大规模分布式存储(HBase、MySQL、OceanBase)等运维经验,熟悉底层架构原理。 b. 精通Linux系统,熟练运用各种监控工具如Grafana、Prometheus等监控工具,具备全链路的问题定位能力。 c. 对运维体系化建设有方法论,能够独立主导复杂问题攻关。 d. 具备强抗压能力,对生产环境故…
工作职责
1. 系统运维与稳定性体系建设 a. 负责HBase/Lindorm、OceanBase等分布式数据库/存储系统的部署、监控、高可用设计以及故障应急,保障99.999%+稳定性SLA b. 主导存储集群性能调优、容灾方案设计(如多机房容灾、数据备份恢复、全球多活、全球合规存储等),提升系统的健壮性。 c. 深入分析慢查询、热点等疑难场景,输出系统性优化解决方案,并实现平台化落地。 d. 针对业务场景设计存储选型方案,平衡性能、成本与可维护性。 e. 制定存储产品,组件运维、变更SOP,以及容灾演练机制与应急预案。 f. 推动开发团队落地存储使用最佳实践、以及平台能力的持续演进,降低人为故障风险。 2. 智能化运维体系建设 a. 开发运维工具链(如监控告警、自动扩缩容、巡检等),推动运维效率的持续提升。 b. 持续积累沉淀专家经验与知识库,基于RAG等技术完善智能答疑的能力,并协助完成运维智能体的持续构建与优化。 c. 持续探索AI-Agent在存储运维场景的应用与落地,实现故障的自动定位、诊断以及自愈。 d. 持续跟踪HBase、Lindorm、OceanBase等分布式存储领域的前沿技术,主导关键组件的升级与架构演进。
【业务介绍】 我们是小红书内稠密类模型(LLM/MLLM/SD/CV/NLP)统一的AI平台QuickSilver,负责调度公司内所有稠密类模型训练与推理资源,基于自建的训推引擎,为公司所有AI算法同学迭代业务模型提供端到端一站式AI服务;包括数据管理,模型管理,模型训练、压缩、推理、部署,服务管理,资源调度等一系列能力。 工作职责: 1、负责稠密类模型训练推理开发平台的架构设计和核心功能研发 2、设计和实现大模型训练部署流程,包括模型fine-tuning、推理服务化等 3、构建云原生架构,设计高可用、高性能的微服务体系 4、优化平台性能,提升系统稳定性和可扩展性
1、负责模型训练平台核心功能开发和架构设计,包括传统CN/NLP/SD/LLM等多场景支持 2、负责大模型后训练工具平台化建设,包括后预训练、微调、对齐等技术落地 3、设计和实现高性能分布式训练系统,打造端到端训练解决方案 4、优化训练调度和资源管理,提升集群利用率和训练效率 5、开发模型训练监控诊断工具,建设可观测性体系
关于我们: 滴滴国际化Fintech业务,是滴滴国际化战略的重要组成板块。近年来,滴滴Fintech在拉美地区积极探索和开展电子支付、信贷、信用卡、商户收单等业务,为当地用户带来更便捷、优质、更高性价比的金融服务。我们诚挚邀请真诚、可靠、勇于挑战的您和我们一起,携手并肩,拥抱金融出海的浪潮,和滴滴Fintech一起快速成长。 职位描述: 1、参与并完成风控平台基建研发,包括决策引擎、特征平台、核身、模型、名单、图数据库、监控平台、Databus等多个方向 2、建设提效工具,提升风控研发流程的效率。 3、积极跟其他团队沟通和配合,推动项目进展,讨论并提出有建设性的意见。
滴滴国际化Fintech业务,是滴滴国际化战略的重要组成板块。其支付业务,已经覆盖了全球十多个国家,在中国互联网公司出海中出类拔萃。 自2021年开始,滴滴Fintech在拉美地区大力发展电子支付和信贷业务。短短2年时间,其个人信贷业务,已经在墨西哥的Fintech玩家中位于第一梯队;其电子钱包业务也在巴西的Fintech玩家中也名列前茅,实现快速增长。此外,滴滴Fintech还在拉美地区积极探索和开展信用卡、商户收单等业务,为当地用户带来更便捷、优质、更高性价比的金融服务,实现多个从0到1的突破。 我们诚挚邀请真诚、 可靠、勇于挑战的您和我们一起,携手并肩,拥抱金融出海的浪潮。和滴滴Fintech一起,实现从0到1,从1到100的快速成长 职位描述: 1、参与并完成风控平台基建研发,包括决策引擎、特征平台、核身、模型、名单、图数据库、监控平台、Databus等多个方向 2、建设提效工具,提升风控研发流程的效率。 3、积极跟其他团队沟通和配合,推动项目进展,讨论并提出有建设性的意见。