字节跳动SRE实习生-国际化内容安全平台
任职要求
1、2026届本科及以上学历在读,计算机、通信等相关专业; 2、熟悉至少1门开发语言(Go、C/C++、Java、Python、JavaScript等); 3、扎实的计算机软件基础知识,熟悉Linux负载模型、资源模型、…
工作职责
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:国际化内容安全平台团队致力于为字节跳动国际化产品的用户维护安全可信赖环境,通过开发、迭代机器学习模型和信息系统以更早、更快发掘风险、监控风险、响应紧急事件,以人工智能技术支持业务发展,力求更高效、更敏捷、更全能地维护站内生态安全。 1、为应用、技术组件、基础设施等提供选型、设计、容量规划、调优、故障处理; 2、为业务系统提供基于可用性、可扩展性考虑决策,参与业务系统设计和实施; 3、定位、处理、管理故障,优化导致故障发生相关组件; 4、运营各组件资源利用率、提升服务SLA标准、优化成本; 6、参与团队基础架构治理、风险排查的横向推动工作。
1. 参与基于AI Agent的智能运维系统研发,通过多监控指标的时序预测与自适应阈值动态建模技术,构建高效、精准的故障发现与预警体系,支撑企业级运维场景的智能化升级。 2. 探索端到端的AI算法解决方案,提升故障预测的灵活性与准确性。 3. 探索开发基于AI Agent的多监控指标时序预测方案,融合文本、日志、指标等异构数据,实现跨模态特征提取与动态关联分析。 4. 构建自适应阈值动态建模框架,结合在线学习与强化学习技术,实现阈值随业务负载与环境变化的实时调整。
1. 探索基于强化学习的智能运维(SRE)Agent技术,通过模拟复杂故障场景训练决策策略,构建具备根因诊断、自主决策的智能系统,结合推理规划、多轮工具调用、因果推断与反事实推理等前沿技术,推动运维智能化的突破性进展。 2. 参与核心算法设计与系统开发,探索结合因果建模与反事实推理方法,解决动态环境下的根因诊断与决策优化问题。 3. 基于真实生产数据或开源数据集,搭建故障模拟环境并定义多维度奖励函数,实现多轮工具调用能力(如日志分析、指标监控、配置管理API),构建端到端的智能运维原型系统,设计对比实验评估Agent性能,撰写技术报告并参与论文或专利撰写。
1、参与SRE稳定性体系内的能力建设,涉及作业调度、变更防控、应急响应、风险治理和混沌工程等平台; 2、参与推动稳定性能力在基础架构团队和业务研发团队的落地; 3、关注SRE稳定性体系实践和行业的发展趋势,推动内部能力迭代升级;
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:字节跳动系统部,负责字节跳动从芯片到服务器、操作系统、网络、CDN 、数据中心等基础设施的研发、设计、采购、交付与运营管理,为包含抖音、头条、火山引擎等全球业务提供高效、稳定、具备可扩展性的基础设施。部门当前业务开展包括不限于:数据中心设计建设、芯片研发、服务器研发、网络工程研发、火山引擎边缘云业务、高性能智能硬件研发、IDC资源智能交付与运维、硬件基础设施智能监控与预警、操作系统与内核、虚拟化技术、编译工具链、供应链管理等众多基础设施相关方向。 1、负责超大规模的主机系统运维&监控中心,运维中心涵盖变更发布、服务托管、配置采集,监控中心涵盖采集、存储、告警等基础能力; 2、参与产品需求设计、研发方案设计及代码开发等,编写和维护相关平台的技术文档; 3、参与海量Agent、中心调度、数据存储等关键技术的研发和优化; 4、根据业界相关技术的发展做前瞻性调研、预研工作。