logo of aliyun

阿里云阿里云智能-服务器生产测试高级工程师-深圳/杭州

社招全职3年以上技术类-开发地点:深圳 | 杭州状态:招聘

任职要求


1、计算机相关专业,有3年以上的服务器生产测试设计和开发经验。
2、熟悉X86或ARM架构,熟悉服务器研发及生产导入流程。
3、熟悉CPU、GPU、内存/SSD测试原理和测试工具,精通至少其中一种部件生产测试技术。
4、精通Python,具备独立定位及解决问题的能力。

工作职责


1、负责服务器产品及部件生产测试平台架构设计,平台功能规划。
2、负责服务器产品及部件生产测试方案输出和开发,支持定制化需求测试方案落地,对生产测试拦截能力和测试效率负责。
3、跟进服务器生产测试技术发展趋势,负责生产测试新技术预研。
4、负责测试平台及代码维护,解决生产测试相关问题,同时关注产品端到端风险和问题,持续提升生产测试问题拦截能力。
包括英文材料
Python+
相关职位

logo of dji
社招5年以上工艺开发

1. 主导储能行业技术/供应趋势/竞品洞察/演进方向分析;输出竞争力的技术路标和方案并通过预研实现方案量产落地,提升产品的市场竞争力; 2. 负责储能产品开发方案可制造性的分析/评审/论证(系统拓扑图、原理图、layout、元器件选型),确保试产/量产快速通过; 3. 负责储能生产测试需求/方案/策略/计划制定与评审,测试规范/用例/环境的建设和优化以及技术平台维护(规范/经验案例/专利),保证系统方案最优; 4. 主导储能生产测试重大异常分析/定位/验证/闭环,含设计/工艺/装备/来料问题;协助搭建生产测试平台进行电气性能/元器件应力/EMC/环境/安规可靠性测试; 5. 主导关键生产测试装备体系化&集成化的开发和导入,确保生产测试装备软硬件竞争力指标落地; 6. 对产品量产交付负责,通过管理/协调团队达成产品从0→1以及从1→100的关键指标; 7. 承担电源制造专家培养和流程建设责任,支撑部门人才梯队建设和组织建设目标达成。

更新于 2025-05-19
logo of siemens
社招5-10年信息技术

职位概述: 我们正在寻找一位对系统稳定性和高可用性有着极致追求的高级运维工程师。您将成为我们电商及资讯平台基础设施的“守护者”,核心职责是确保生产环境7x24小时高可用,并高效管理从故障发现到恢复的全生命周期。您需要具备深厚的技术功底、冷静的应急心态和强大的复盘能力,通过自动化、流程化和系统化的方法,不断提升我们系统的韧性与可观测性,为亿万用户的顺畅体验保驾护航。 核心职责: 1. 系统高可用性保障: o 负责公司核心业务(电商、资讯)生产环境及基础设施(服务器、网络、数据库、中间件等)的稳定运行,确保服务SLA达到或超过既定目标(如99.99%)。 o 设计、实施和维护高可用和容灾架构,包括同城双活、异地灾备等方案的落地与演练。 2. 监控与应急响应: o 主导建设和优化集中式监控、日志分析与告警系统(如Prometheus/Grafana, ELK, Zabbix, Datadog等),确保能提前预警、快速发现问题。 o 作为主要事故处理指挥官(Incident Commander),负责7x24小时应急响应,领导并协调相关团队对线上事故进行快速定位、止损和恢复,最大限度降低影响。 3. 事故全生命周期管理: o 严格遵循ITIL等最佳实践,管理事故(Incident)和处理工单(Ticket)。 o 主导重大事故复盘(Post-mortem),编写详尽的复盘报告,深入分析根因,并推动落实改进措施(如代码修复、流程优化、架构调整等),避免同类问题重复发生。 4. 运维自动化与效率提升: o 通过编写脚本(Shell/Python/Go等)和利用自动化工具(Ansible/Terraform等),自动化日常运维操作和故障处理流程,提升效率,减少人为失误。 o 践行SRE(Site Reliability Engineering)理念,通过代码管理基础设施(IaC)。 5. 容量规划与性能优化: o 定期进行系统容量评估和规划,确保系统有能力应对业务增长和突发流量(如大促活动)。 o 分析系统性能瓶颈,协同开发团队进行调优,提升系统效率和资源利用率。 6. 系统组件的安全升级及维护: o 常规维护能力:具备使用安全扫描工具进行安全漏洞扫描额能力。 能全程跟进系统组件安全管理,做好版本监控、漏洞扫描与风险评估,按计划升级部署补丁、更新配置,快速应对突发安全事件,降低业务受影响程度。 o 借助工具强化能力:熟练使用安全卫士等工具,将其融入维护流程。实现自动化漏洞检测与修复建议输出,实时监控异常与潜在威胁并预警阻断,利用日志分析优化安全策略,构建闭环安全管理体系。

更新于 2025-09-30
logo of ctrip
社招3年以上技术团队系统安全

1、参与公司基础架构的安全建设,完善安全纵深防御体系,以及相关安全项目管理和推进; 2、应对传统生产环境、公有云、私有云、混合云等复杂网络环境,设计和推进合理的安全防护方案; 3、为软件、系统安全基线、供应链、边界风险、运维部署等基础设施安全; 4、负责服务器及核心系统等系统安全策略的制定、实施、安全审计、持续改进; 5、跟进业界安全能力的前沿趋势,调优公司相应的防御水位。

更新于 2025-02-10
logo of bytedance
社招5年以上A50117

1、领导可扩展、可靠的AI基础设施(AI加速器、计算集群、存储、网络)的端到端设计,用于Training和Inference大模型工作负载; 2、定义并实现面向服务的容器化架构(Kubernetes、VM框架、Unikernels),优化ML性能和安全性; 3、分析和优化ML堆栈的每一层ML编译器、GPU/TPU调度、NCCL/RDMA网络、数据预处理和训练/推理框架,开发低开销Metrics和基准测试框架,以识别和消除分布式训练和Inference中的瓶颈; 4、构建和运营跨多个数据中心(本地和云)自动扩展的大规模部署和编排调度系统,通过智能资源管理和工作负载放置来支持容错、高可用性和成本效益; 5、为PB级大模型数据集量身定制强大的ETL和数据摄取管道(Spark/Beam/Dask/Flume),集成实验管理和工作流编排工具(Airflow、Kubeflow、Metaflow)以简化研究到生产的过程; 6、与机器学习研究人员合作,将原型需求转化为生产级系统,指导工程师在性能调整、系统设计和可靠性工程方面的最佳实践。

更新于 2025-05-29