字节跳动资深芯片软件系统分析师(稳定性和可管理性方向)
任职要求
1、5年以上面向数据中心的软硬件结合研发经验,熟悉主流服务器系统架构和软硬件技术栈,熟悉超大规模云计算场景下的关键业务链路特征,理解数据中心应用对芯片稳定性的需求; 2、具备扎实的底层软件开发基础,熟悉一种或多种SoC芯片的设计原理,如流水线、Cache、电源和时钟、RAS、DFT、安全设计等,在固件、内核、系统中间件、虚拟化基础设施等领域中有丰富的面向主流数据中心场景的研发经验,熟悉关键的芯片软硬件指标,…
工作职责
1、负责分析和设计芯片产品的规模化交付稳定性解决方案,通过实现和优化各类软硬件架构和接口提升产品在关键场景下的稳定性指标; 2、与上下游团队协作,建立和牵引芯片产品的线上服务质量目标,综合运用技术和流程方法保障目标达成; 3、组织和参与芯片产品重大线上技术问题的攻关,推动问题解决。
1、负责分析和设计芯片产品的规模化交付稳定性解决方案,通过实现和优化各类软硬件架构和接口提升产品在关键场景下的稳定性指标; 2、与上下游团队协作,建立和牵引芯片产品的线上服务质量目标,综合运用技术和流程方法保障目标达成; 3、组织和参与芯片产品重大线上技术问题的攻关,推动问题解决。
1、负责分析和设计芯片产品的规模化交付稳定性解决方案,通过实现和优化各类软硬件架构和接口提升产品在关键场景下的稳定性指标; 2、与上下游团队协作,建立和牵引芯片产品的线上服务质量目标,综合运用技术和流程方法保障目标达成; 3、组织和参与芯片产品重大线上技术问题的攻关,推动问题解决。
1、负责分析和设计芯片产品的规模化交付稳定性解决方案,通过实现和优化各类软硬件架构和接口提升产品在关键场景下的稳定性指标; 2、与上下游团队协作,建立和牵引芯片产品的线上服务质量目标,综合运用技术和流程方法保障目标达成; 3、组织和参与芯片产品重大线上技术问题的攻关,推动问题解决。
我们正在寻找具备深厚技术功底、前瞻性视野和丰富实战经验的DevOps平台工程专家,加入我们致力于构建智能化研发基础设施的核心团队。在这里,你将主导下一代AI驱动的Devops平台与智能运维系统的设计与落地,推动软件研发流程向自动化、可观测性、自愈能力和数据驱动决策全面进化。 作为团队的技术骨干,你将: 1. 设计打造企业级智能化运维(AIOps)体系 基于Python、Go等语言,构建自动化运维工具链与平台化能力,实现基础设施即代码(IaC);引入异常检测、根因分析、故障传播图谱等AI算法,提升系统可观测性与故障响应速度,推动运维从“被动响应”向“主动预防”转变。 2. 构建全链路智能监控与自愈系统 设计并落地覆盖应用、服务、资源的端到端监控体系,集成Prometheus、Grafana、ELK、OpenTelemetry等主流技术栈;结合时序预测(LSTM、Prophet)、无监督异常检测(Isolation Forest、One-Class SVM)等模型,实现性能瓶颈预警、自动诊断与部分场景的闭环自愈。 3. 推动MLOps与DevOps深度融合 主导机器学习模型训练流水线(ML Pipeline)与模型服务化(Model Serving)平台建设,设计模型版本管理、A/B测试、流量灰度、监控告警与快速回滚机制,支撑AI能力高效、稳定地规模化落地。