字节跳动高级系统工程师(监控方向)-Data(杭州)
任职要求
1、大学本科及以上学历,计算机相关专业,两年以上相关开发项目经验; 2、熟悉Linux环境开发,具备良好的编程能力,熟练Go/Python/Java中至少一门程序开发语言,掌握至少一个常见后端Web框架(如Django/Flask/Gin/Spring等)及其设计原理; 3、深入理解Linux操作系统,精通基础协议T…
工作职责
1、负责公司超大规模监控平台的架构设计与开发,打造全球领先的基础资源监控系统; 2、负责监控系统各核心组件的研发,调优,海量时序数据存储的研发,优化,运维; 3、负责监控系统的平台化建设,优化用户各类自定义监控告警需求; 4、构建基础运维的核心监控控制面,提升自动化运维平台诊断效率; 5、负责智能运维监控方向的演进,挖掘基础监控的数据,构建智能监控模型(AIops)。
1. 主导大模型系统架构设计: 负责RAG系统的整体架构设计,包括存储层、检索层、推理层与缓存层的技术选型与实现。 构建高可用、低延迟的分布式推理服务框架,支持向量数据库集成(如Milvus、Elastic)、知识库管理与多模态检索优化。 设计并实现Agent工作流编排框架,支持工具调用(MCP协议)、任务规划与自动化执行。 2.模型部署与性能优化: 负责大模型(LLM/VLM)的本地化部署、量化压缩、动态批处理与推理加速,优化GPU/CPU异构算力利用率。 3. AI服务平台开发: 基于Java/Go/Python构建高并发、可扩展的AI微服务,与现有业务系统深度集成,实现模型训练-部署-监控的全链路管理。 4.技术领导与跨团队协作: 指导中级工程师,制定技术方案,并主导技术攻关。与产品、算法、基础设施团队协作,定义需求并推动工程落地。
我们正在寻找一位兼具后端开发功底与系统级视野的优秀工程师,加入我们致力于构建高性能软件研发基础设施的技术团队。 在这里,你将深度参与企业级编译系统、构建流水线与自动化发布平台的建设,专注于提升大规模项目的构建效率、稳定性和可复现性。如果你热爱底层技术、关注编译性能与构建可靠性,并希望在复杂工程场景中打造高效的研发基座,这正是为你准备的舞台! 你将负责: 1. 设计与维护高性能 CI/CD 构建平台 基于 Jenkins、GitLab CI 或自研系统,搭建支持多语言(C/C++/Go/Python)的自动化构建流水线;优化构建缓存、依赖管理与并行编译策略,显著缩短构建时间。 2. 构建和优化编译环境与工具链 管理和维护基于 GCC、Clang/LLVM的标准化编译环境,支持不同版本共存与按需切换;定制编译参数、警告规则与静态分析流程,提升代码质量与一致性。 3. 推动构建可重复性与确定性编译(Reproducible Builds) 实现构建过程的环境隔离(Docker/Singularity)、依赖锁定与输出校验,确保“一次构建,处处一致”,满足安全审计与发布合规要求。 4. 性能分析与构建加速优化 使用 time, strace, perf, Bear, compile_commands.json 等工具分析编译瓶颈;集成分布式编译方案(如 Incredibuild、distcc、sccache)或增量构建机制,提升大型项目编译速度。 5. 构建全链路可观测性系统 搭建覆盖构建耗时、失败率、资源消耗的监控体系,集成 Prometheus + Grafana;实现构建日志聚合、错误自动归因与趋势预警。 6. 推进基础设施即代码(IaC)与平台化能力建设 使用 Terraform/Ansible 自动化部署构建节点与编译集群;通过 API 和 Web 控制台提供自助式构建服务,提升研发效率。
职位概述: 我们正在寻找一位对系统稳定性和高可用性有着极致追求的高级运维工程师。您将成为我们电商及资讯平台基础设施的“守护者”,核心职责是确保生产环境7x24小时高可用,并高效管理从故障发现到恢复的全生命周期。您需要具备深厚的技术功底、冷静的应急心态和强大的复盘能力,通过自动化、流程化和系统化的方法,不断提升我们系统的韧性与可观测性,为亿万用户的顺畅体验保驾护航。 核心职责: 1. 系统高可用性保障: o 负责公司核心业务(电商、资讯)生产环境及基础设施(服务器、网络、数据库、中间件等)的稳定运行,确保服务SLA达到或超过既定目标(如99.99%)。 o 设计、实施和维护高可用和容灾架构,包括同城双活、异地灾备等方案的落地与演练。 2. 监控与应急响应: o 主导建设和优化集中式监控、日志分析与告警系统(如Prometheus/Grafana, ELK, Zabbix, Datadog等),确保能提前预警、快速发现问题。 o 作为主要事故处理指挥官(Incident Commander),负责7x24小时应急响应,领导并协调相关团队对线上事故进行快速定位、止损和恢复,最大限度降低影响。 3. 事故全生命周期管理: o 严格遵循ITIL等最佳实践,管理事故(Incident)和处理工单(Ticket)。 o 主导重大事故复盘(Post-mortem),编写详尽的复盘报告,深入分析根因,并推动落实改进措施(如代码修复、流程优化、架构调整等),避免同类问题重复发生。 4. 运维自动化与效率提升: o 通过编写脚本(Shell/Python/Go等)和利用自动化工具(Ansible/Terraform等),自动化日常运维操作和故障处理流程,提升效率,减少人为失误。 o 践行SRE(Site Reliability Engineering)理念,通过代码管理基础设施(IaC)。 5. 容量规划与性能优化: o 定期进行系统容量评估和规划,确保系统有能力应对业务增长和突发流量(如大促活动)。 o 分析系统性能瓶颈,协同开发团队进行调优,提升系统效率和资源利用率。 6. 系统组件的安全升级及维护: o 常规维护能力:具备使用安全扫描工具进行安全漏洞扫描额能力。 能全程跟进系统组件安全管理,做好版本监控、漏洞扫描与风险评估,按计划升级部署补丁、更新配置,快速应对突发安全事件,降低业务受影响程度。 o 借助工具强化能力:熟练使用安全卫士等工具,将其融入维护流程。实现自动化漏洞检测与修复建议输出,实时监控异常与潜在威胁并预警阻断,利用日志分析优化安全策略,构建闭环安全管理体系。
1.负责微博主站搜索下点击模型的算法设计、训练与上线优化,通过用户点击行为提升搜索推荐精准度; 2.负责微博主站搜索引导方向的算法研究与实现,覆盖浏览页、搜索中间页等多场景的用户行为引导与转化模型; 3.主导推荐排序核心算法研发,包括多任务排序与序列建模、用户画像构建、内容语义理解与物料挖掘等模块的工程化落地 持续跟踪并应用 RAG、语义检索与生成式推荐等前沿技术,快速完成验证、迭代与性能调优; 4.对海量用户行为与内容数据进行深度挖掘与特征工程,发现优化机会并持续迭代改进; 5.协调跨团队协作,推动算法方案在大规模线上环境中的稳定部署、监控与持续优化。