快手Java高级开发专家 (用户增长)-【主站】
任职要求
1、两年以上Java开发经验,有扎实的计算机基础知识和编程功底; 2、精通多线程编程,熟悉JVM,熟悉常见的开源分布式中间件,缓存,消息队列等,熟悉MySQL等常见数据库; 3、熟悉面向对象设计,有较强的系统架构设计能力; 4、热爱技术,对代码质量和开发规范有近乎苛刻的要求,善于沟通与团队协作; 5、有大型分布式、高并发、高负载、高可用系统设计和稳定性经验优先。 加分项: 1、分享裂变业务背景优先。
工作职责
1、负责用户增长业务研发,撰写技术方案和系统设计,以及相关的代码开发; 2、接受复杂系统分析和设计挑战,分析和发现系统的优化点,负责推动系统易用,扩展,可用性,性能等提升; 3、落地裂变新玩法探索,并不断抽象功能,持续提升裂变活动孵化效率。
1、负责快手用户增长组件业务全流程系统研发,深入挖掘和分析业务需求,负责核心代码编写; 2、接受高并发、海量数据的挑战,分析和发现系统优化点和业务增长点,负责推动系统的架构改造和可用性的提升,保障业务快速迭代和增长; 3、具有一定的技术前瞻性,对技术有热情,善于研究分析业内主流产品技术实现,为团队引入创新的技术、创新的解决方案,用创新的思路解决问题。
1、负责打车营销体系包括投放、权益以及增长等相关系统研发和系统重构工作; 2、识别潜在风险包括系统风险与资金损失风险,持续通过流程、工具等手段保障系统的可用性和应对高流量业务场景; 3、分析系统瓶颈,解决各种疑难问题,对系统进行持续优化,打造易扩展、高并发、低延时要求的业务架构。
团队使命: 作为网约车交易市场技术核心团队,我们应用机器学习、运筹优化、因果推断、深度强化学习及生成式AI技术(LLM) ,构建支撑千万级日订单的动态双边市场智能决策系统。通过供需预测建模、动态定价策略、智能补贴分配、生态治理引擎 等策略引擎建设,持续优化平台商业价值与司乘体验,驱动全球领先的出行市场效率革新。 供需调节策略方向的主要工作: - 负责设计研发面向司乘双边市场的动态定价和跨品类联合补贴策略引擎,涉及的技术方向包括:精细化的时空供需预测建模、针对海量数据的细粒度因果建模、大规模运筹优化与求解算法设计、大规模离线仿真系统设计与研发等。 - 负责设计研发面向用户长期增长的智能增长营销策略引擎,构建可持续优化的收益管理与增长引擎系统,涉及的技术方向包括:长周期用户价值(LTV)建模、基于强化学习的序列化决策模型设计、大规模运筹优化与收益管理系统设计等。 - 负责设计研发面向供需调节和用户增长的智能运营系统,构建面向多目标高度封装的全自动智能化的运营引擎,助力网约车业务精细化运营提效。涉及的技术方向包括:不同粒度、周期的时序预测建模、大规模运筹优化求解算法、支持深度人机结合的工业化运营引擎架构。 - 负责设计研发面向网约车交易场景的司乘生态治理引擎,构建面向不同品类业务特点的判责、治理策略系统,涉及技术包括:多模态深度学习建模、大语言模型技术、原子预测和小样本学习等技术。
职位概述: 我们正在寻找一位对系统稳定性和高可用性有着极致追求的高级运维工程师。您将成为我们电商及资讯平台基础设施的“守护者”,核心职责是确保生产环境7x24小时高可用,并高效管理从故障发现到恢复的全生命周期。您需要具备深厚的技术功底、冷静的应急心态和强大的复盘能力,通过自动化、流程化和系统化的方法,不断提升我们系统的韧性与可观测性,为亿万用户的顺畅体验保驾护航。 核心职责: 1. 系统高可用性保障: o 负责公司核心业务(电商、资讯)生产环境及基础设施(服务器、网络、数据库、中间件等)的稳定运行,确保服务SLA达到或超过既定目标(如99.99%)。 o 设计、实施和维护高可用和容灾架构,包括同城双活、异地灾备等方案的落地与演练。 2. 监控与应急响应: o 主导建设和优化集中式监控、日志分析与告警系统(如Prometheus/Grafana, ELK, Zabbix, Datadog等),确保能提前预警、快速发现问题。 o 作为主要事故处理指挥官(Incident Commander),负责7x24小时应急响应,领导并协调相关团队对线上事故进行快速定位、止损和恢复,最大限度降低影响。 3. 事故全生命周期管理: o 严格遵循ITIL等最佳实践,管理事故(Incident)和处理工单(Ticket)。 o 主导重大事故复盘(Post-mortem),编写详尽的复盘报告,深入分析根因,并推动落实改进措施(如代码修复、流程优化、架构调整等),避免同类问题重复发生。 4. 运维自动化与效率提升: o 通过编写脚本(Shell/Python/Go等)和利用自动化工具(Ansible/Terraform等),自动化日常运维操作和故障处理流程,提升效率,减少人为失误。 o 践行SRE(Site Reliability Engineering)理念,通过代码管理基础设施(IaC)。 5. 容量规划与性能优化: o 定期进行系统容量评估和规划,确保系统有能力应对业务增长和突发流量(如大促活动)。 o 分析系统性能瓶颈,协同开发团队进行调优,提升系统效率和资源利用率。 6. 系统组件的安全升级及维护: o 常规维护能力:具备使用安全扫描工具进行安全漏洞扫描额能力。 能全程跟进系统组件安全管理,做好版本监控、漏洞扫描与风险评估,按计划升级部署补丁、更新配置,快速应对突发安全事件,降低业务受影响程度。 o 借助工具强化能力:熟练使用安全卫士等工具,将其融入维护流程。实现自动化漏洞检测与修复建议输出,实时监控异常与潜在威胁并预警阻断,利用日志分析优化安全策略,构建闭环安全管理体系。