字节跳动服务器交付工程师(杭州)
任职要求
1、熟练使用Linux系统,具备Python等脚本语言,部署开发、测试环境; 2、精通X86服务器硬件组件/子系统CPU,Disk、Memory PSU等验证方案者优先; 3、具有较强的分析问题解决问题的能力,具有良好的团队沟通协作能力; 4、熟悉网络方面相关知识,懂得相关网络设备配置规划,如:交换机、防火墙等相关; 5、熟悉自动化运维技术,能充分利用自动化运维来提高工作效率; 6、学习能力强,技术兴趣广泛;责任心强,对工作充满热情。
工作职责
1、负责服务器运维的硬件/软件类日常运行维护,线上问题排查、故障处理及疑难问题诊断分析; 2、负责服务器类产品形态的运维评估、监控、调优,诊断、硬件性能优化及工具化开发; 3、负责运维服务过程中的问题处理及管控进度,并对项目实施及售后服务工作持续优化; 4、负责设备生命周期的过程优化和治理,完成产品的线上化推进过程的风险管控和保障; 5、负责资源交付、设备运维、供应商及IDC数据中心IT管理,持续完善标准流程规范制定; 6、负责服务生命周期的产品管理,运维可行性评估,和产品周期的运维质量风险管控。
1、负责服务器固件全生命周期质量管理,深入包括需求分析、方案设计、开发实现、测试验证、版本引入、线上维护等全生命周期活动,制定及完善固件质量标准及流程,推动在项目中导入应用,达成既定质量目标; 2、建立固件质量/效率度量指标体系,并推进相关平台/系统建设及应用,基于数据驱动推进固件质量/效率改善; 3、牵头固件领域线上重大批次质量问题处理,保障最优解决方案快速落地;并进一步主导拉通固件内外部各相关方,通过复盘活动,推进预防措施的制定并跟踪落地闭环; 4、主导供应商固件质量管理,推动建立供应商固件质量管理流程,通过季度审查、质量稽核等运作,确保质量目标、质量标准的落实和持续改进。
1. 网络运维与保障: - 负责网易IDC和办公网络设备(路由器、交换机、防火墙等)的日常监控、维护及故障处理,确保网络高可用性。 - 熟悉BGP、VxLAN、STP、等协议,能够快速定位并解决网络常见故障。 - 对服务器硬件及操作系统(Linux/Windows)有一定了解,协助处理服务器网卡异常、TCP/IP协议栈等关联问题。 2. 变更与流程管理: - 严格执行网络变更流程,遵守变更纪律,杜绝未经授权的操作。 - 负责割接、扩容等操作的执行与记录,确保变更操作零失误。 3. 应急响应与值班: - 7×24小时轮班值守,对突发的网络中断、DDoS攻击、紧急变更等事件进行快速响应。 - 编写故障分析报告,推动根因分析与改进措施落地。 4. 文档与自动化: - 维护网络拓扑图、设备配置文档及应急预案,推动运维脚本(Python/Ansible)开发,提升故障处理效率。 - 定期更新相关技术文档,以便于团队成员的参考和使用。
1、服务器软硬件一体系统设计与开发:基于产品需求分析,进行整体技术方案设计、开发和验证交付。 2、系统性能优化:对服务器进行软硬件一体性能优化和分析,实现软件系统稳定性/性能的提升。 3、系统测试与维护:对软硬件系统进行集成验证交付,对系统性问题进行分析定位,快速解决,保证满足系统性能、稳定性等要求。