网易高级/资深IT运维工程师
任职要求
1.本科或以上学历,计算机及相关专业,5年以上IDC资源规划、运营、资源管理相关工作经验;
2.熟练掌握Unix/Linux操作系统的操作、维护,…工作职责
1.负责IDC机房的IT日常运维及服务管理工作,确保集团各业务在贵安机房业务连续稳定性,并达成SLA; 2.推动制度、流程在数据中心落地,提升团队效率和质量; 3.负责IT团队管理,包括引入、培训、评估、绩效管理等工作; 4.负责IT现场稳定性管理,识别风险事件并进行分析、改进提高数据中心稳定性,降低误操作事件发生; 5.负责参与数据中心服务器、网络设备部署、上架、布线及硬件资源规划; 6.负责制定流程规范、新设备SOP,并落实培训,提高IT工程师能力;
1、主导公司核心IT基础设施资源(服务器、存储、网络、云资源、容器集群等)的统筹运维管理,搭建标准化、规范化运维体系,保障业务系统稳定运行及高可用性(目标SLA 99.9%以上); 2、牵头复杂及重大运维故障的应急响应、根因分析与复盘优化,输出可复用的故障解决方案,持续降低故障发生率及影响范围; 3、统筹IT资源容量规划与弹性扩缩容策略制定,精准预判业务资源需求,优化资源配置方案,提升资源利用率,实现运维成本精细化管控; 4、推进运维自动化与智能化建设,运用Shell/Python等脚本语言及主流运维工具(如Prometheus、Grafana、Ansible),实现部署、巡检、监控、告警等核心运维流程自动化,提升运维效能; 5、优化IT资源监控与告警体系,梳理核心监控指标、优化告警策略,实现异常行为早发现、早预警、早处置,缩短故障响应时间(MTTR)与恢复时间; 6、承担中初级运维工程师的技术指导与能力赋能,沉淀运维最佳实践,支撑业务系统高效上线与迭代升级。
【业务介绍】 我们是小红书内稠密类模型(LLM/MLLM/SD/CV/NLP)统一的AI平台QuickSilver,负责调度公司内所有稠密类模型训练与推理资源,基于自建的训推引擎,为公司所有AI算法同学迭代业务模型提供端到端一站式AI服务;包括数据管理,模型管理,模型训练、压缩、推理、部署,服务管理,资源调度等一系列能力。 工作职责: 1、负责稠密类模型训练推理开发平台的架构设计和核心功能研发 2、设计和实现大模型训练部署流程,包括模型fine-tuning、推理服务化等 3、构建云原生架构,设计高可用、高性能的微服务体系 4、优化平台性能,提升系统稳定性和可扩展性
1、负责模型训练平台核心功能开发和架构设计,包括传统CN/NLP/SD/LLM等多场景支持 2、负责大模型后训练工具平台化建设,包括后预训练、微调、对齐等技术落地 3、设计和实现高性能分布式训练系统,打造端到端训练解决方案 4、优化训练调度和资源管理,提升集群利用率和训练效率 5、开发模型训练监控诊断工具,建设可观测性体系
关于我们: 滴滴国际化Fintech业务,是滴滴国际化战略的重要组成板块。近年来,滴滴Fintech在拉美地区积极探索和开展电子支付、信贷、信用卡、商户收单等业务,为当地用户带来更便捷、优质、更高性价比的金融服务。我们诚挚邀请真诚、可靠、勇于挑战的您和我们一起,携手并肩,拥抱金融出海的浪潮,和滴滴Fintech一起快速成长。 职位描述: 1、参与并完成风控平台基建研发,包括决策引擎、特征平台、核身、模型、名单、图数据库、监控平台、Databus等多个方向 2、建设提效工具,提升风控研发流程的效率。 3、积极跟其他团队沟通和配合,推动项目进展,讨论并提出有建设性的意见。