
得物【技术保障】大数据SRE工程师
1.负责腾讯云大数据基础运维和客户问题解决,基于腾讯云提供的EMR、Elasticsearch、TCHouse产品,解决客户在产品使用过程中遇到的问题,为客户业务提供最佳服务体验; 2.负责报障大数据产品服务稳定性,包括全局数智化监控、服务架构容灾、容量管理等基础运维能力建设,保障大数据服务SLA; 3.负责运维标准流程规范制定,建设大数据产品运维标准、大数据产品规范化变更流程和大数据组件可观测性标准等; 4.参与智能化运维AIOps,对标互联网SRE业界优秀经验,基于自研运维平台,实现智能化运维,提升运维效率。
【职位诱惑】- 腾讯系团队,扁平管理,六险一金 - 能深度参与互联网金融公司业务架构以及devops工具链全流程建设 - 能学习到许多金融、证券行业知识。1.保障平台登陆和行情业务的稳定性,和研发一起对事故进行快速响应,并建立机制提升处理效率 2.参与建设运维工具和平台, 推进运维自动化 3.通过持续的全方位数据运营(包括历史事故、资源利用率等),找到系统薄弱点并改进优化 4.处理告警,使告警得到良好处置 5.操作db重要变更,包括数据恢复,数据备份检查,alter操作,数据迁移 6.指导研发更好的使用平台工具。
1、负责菜鸟SRE平台的核心模块设计、开发与迭代,重点包括但不限于: - 实时核对监控系统: 构建低延迟、高可用的海量实时数据核对与监控系统,实现物流全链路的秒级故障发现与自愈。 - DevOps平台: 开发下一代CI/CD流水线、环境管理、自动化运维等产品功能,提升全球研发团队的交付效率与质量。 - FinOps平台: 参与建设集团级的成本可视化与优化平台,通过资源分析、成本分摊、优化建议等产品化手段,驱动技术降本。 2、产品化与赋能: 深入理解内部用户(SRE、开发、运维)的痛点,将复杂的基础架构能力(如稳定性保障、成本优化、效率提升)抽象、封装成标准、易用的产品和服务,实现对全公司的技术赋能。 3、技术挑战攻坚: 解决在超大规模分布式系统、高并发实时数据处理、复杂业务场景下带来的技术难题,保障平台自身的稳定性、性能和可扩展性。 4、前瞻性与协作: 跟踪业界前沿技术(如eBPF、AIOps、Serverless等),与基础设施其他团队(如网络、存储、计算)紧密合作,共同规划和完善菜鸟的基础技术体系。
团队介绍:TikTok是一个覆盖150个国家和地区的国际短视频平台,我们希望通过TikTok发现真实、有趣的瞬间,让生活更美好。TikTok 在全球各地设有办公室,全球总部位于洛杉矶和新加坡,办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。 TikTok研发团队,旨在实现TikTok业务的研发工作,搭建及维护业界领先的产品。加入我们,你能接触到包括用户增长、社交、直播、电商C端、内容创造、内容消费等核心业务场景,支持产品在全球赛道上高速发展;也能接触到包括服务架构、基础技术等方向上的技术挑战,保障业务持续高质量、高效率、且安全地为用户服务;同时还能为不同业务场景提供全面的技术解决方案,优化各项产品指标及用户体验。 在这里, 有大牛带队与大家一同不断探索前沿, 突破想象空间。 在这里,你的每一行代码都将服务亿万用户。在这里,团队专业且纯粹,合作氛围平等且轻松。目前在北京,上海,杭州、广州、深圳分别开放多个岗位机会。 1、通过自动化和工程化手段来解决TikTok资源交付和管理问题,制定资源和预算管理计划,为不断增长的业务提供坚实的基础设施支持; 2、建设资源和预算相关数据体系,并建设单位资源用量、业务ROI等模型,建立数据大盘等方式,由数据驱动制定资源和预算管理计划,持续优化供需,降低成本; 3、预测未来负载和资源需求,对历史和现有的系统负载、用户行为和数据趋势进行分析,前瞻性地做出相应的资源规划和调整,避免资源短缺和超量配置导致的问题; 4、设计、实现自动化工具和系统来观测资源使用的合理性指标,优化资源流转效率,提升资源使用效能,降低数据中心成本; 5、支撑TikTok大型活动或项目的资源方案的落地,通过项目化运作保障业务发展并推动系统化能力的沉淀和建设; 6、建立和维护与其他团队的有效沟通和协作,例如开发、产品和运营团队,以实现资源的全生命周期管理。