logo of aliyun

阿里云阿里云智能-服务器生产测试高级工程师-深圳/杭州

社招全职3年以上技术类-开发地点:深圳 | 杭州状态:招聘

任职要求


1、计算机相关专业,有3年以上的服务器生产测试设计和开发经验。
2、熟悉X86或ARM架构,熟悉服务器研发及生产导入流程。
3、熟悉C…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责服务器产品及部件生产测试平台架构设计,平台功能规划。
2、负责服务器产品及部件生产测试方案输出和开发,支持定制化需求测试方案落地,对生产测试拦截能力和测试效率负责。
3、跟进服务器生产测试技术发展趋势,负责生产测试新技术预研。
4、负责测试平台及代码维护,解决生产测试相关问题,同时关注产品端到端风险和问题,持续提升生产测试问题拦截能力。
包括英文材料
Python+
相关职位

logo of dji
社招5年以上工艺开发

1. 主导储能行业技术/供应趋势/竞品洞察/演进方向分析;输出竞争力的技术路标和方案并通过预研实现方案量产落地,提升产品的市场竞争力; 2. 负责储能产品开发方案可制造性的分析/评审/论证(系统拓扑图、原理图、layout、元器件选型),确保试产/量产快速通过; 3. 负责储能生产测试需求/方案/策略/计划制定与评审,测试规范/用例/环境的建设和优化以及技术平台维护(规范/经验案例/专利),保证系统方案最优; 4. 主导储能生产测试重大异常分析/定位/验证/闭环,含设计/工艺/装备/来料问题;协助搭建生产测试平台进行电气性能/元器件应力/EMC/环境/安规可靠性测试; 5. 主导关键生产测试装备体系化&集成化的开发和导入,确保生产测试装备软硬件竞争力指标落地; 6. 对产品量产交付负责,通过管理/协调团队达成产品从0→1以及从1→100的关键指标; 7. 承担电源制造专家培养和流程建设责任,支撑部门人才梯队建设和组织建设目标达成。

更新于 2025-05-19深圳
logo of xpeng
社招1年以上智能机器人板块

我们正在寻找一位热衷于自动化和机器人技术的DevOps工程师。您将核心负责设计、构建并优化一套高效、可靠的持续集成/持续交付(CI/CD)流水线,直接赋能我们的机器人软件研发、测试与部署全流程,确保我们的机器人产品能够快速、稳定地迭代。 关键职责: 1.CI/CD流水线建设与优化: 您将主导基于Jenkins、GitLab CI/CD等工具搭建和维护适用于机器人项目的自动化流水线,实现从代码提交、静态扫描、单元测试到制品归档和部署发布的端到端自动化; 2.机器人系统部署自动化: 开发自动化部署脚本和流程,支持机器人系统在各类环境(包括工控机、嵌入式设备等)上的快速部署、更新与回滚。结合Docker等容器化技术优化部署流程; 3.构建与环境管理: 维护和优化Linux构建服务器,管理本地依赖库(如jfrog仓库),确保构建环境的安全、稳定和高性能。支持多语言(如C++、Python)的自动化构建; 4.自动化测试集成: 与研发团队协作,将针对机器人特定功能(如感知、定位、导航决策)的自动化测试框架集成到CI/CD流程中,并定义关键性能指标以评估系统可靠性与准确性; 5.基础设施与监控: 参与维护基础设施,包括监控(如Prometheus/Grafana)、日志系统等,保证开发和生产环境的高可用性。协助团队排查和解决与环境相关的问题。 软技能与协作能力: 1.卓越的沟通与协作能力:具备出色的口头和书面沟通能力,能够主动推进跨部门(开发、算法、硬件、测试等)协作,有效整合资源,理解并化解协作中的瓶颈; 2.问题解决与主动性:拥有强烈的主人翁意识和快速解决问题的能力,乐于接受挑战,并能在一个快速变化的研发环境中高效工作; 3.持续学习与分享精神:对新技术保持好奇心,具备良好的文档习惯和乐于分享的精神。

更新于 2025-11-24深圳|上海|广州
logo of siemens
社招5-10年信息技术

职位概述: 我们正在寻找一位对系统稳定性和高可用性有着极致追求的高级运维工程师。您将成为我们电商及资讯平台基础设施的“守护者”,核心职责是确保生产环境7x24小时高可用,并高效管理从故障发现到恢复的全生命周期。您需要具备深厚的技术功底、冷静的应急心态和强大的复盘能力,通过自动化、流程化和系统化的方法,不断提升我们系统的韧性与可观测性,为亿万用户的顺畅体验保驾护航。 核心职责: 1. 系统高可用性保障: o 负责公司核心业务(电商、资讯)生产环境及基础设施(服务器、网络、数据库、中间件等)的稳定运行,确保服务SLA达到或超过既定目标(如99.99%)。 o 设计、实施和维护高可用和容灾架构,包括同城双活、异地灾备等方案的落地与演练。 2. 监控与应急响应: o 主导建设和优化集中式监控、日志分析与告警系统(如Prometheus/Grafana, ELK, Zabbix, Datadog等),确保能提前预警、快速发现问题。 o 作为主要事故处理指挥官(Incident Commander),负责7x24小时应急响应,领导并协调相关团队对线上事故进行快速定位、止损和恢复,最大限度降低影响。 3. 事故全生命周期管理: o 严格遵循ITIL等最佳实践,管理事故(Incident)和处理工单(Ticket)。 o 主导重大事故复盘(Post-mortem),编写详尽的复盘报告,深入分析根因,并推动落实改进措施(如代码修复、流程优化、架构调整等),避免同类问题重复发生。 4. 运维自动化与效率提升: o 通过编写脚本(Shell/Python/Go等)和利用自动化工具(Ansible/Terraform等),自动化日常运维操作和故障处理流程,提升效率,减少人为失误。 o 践行SRE(Site Reliability Engineering)理念,通过代码管理基础设施(IaC)。 5. 容量规划与性能优化: o 定期进行系统容量评估和规划,确保系统有能力应对业务增长和突发流量(如大促活动)。 o 分析系统性能瓶颈,协同开发团队进行调优,提升系统效率和资源利用率。 6. 系统组件的安全升级及维护: o 常规维护能力:具备使用安全扫描工具进行安全漏洞扫描额能力。 能全程跟进系统组件安全管理,做好版本监控、漏洞扫描与风险评估,按计划升级部署补丁、更新配置,快速应对突发安全事件,降低业务受影响程度。 o 借助工具强化能力:熟练使用安全卫士等工具,将其融入维护流程。实现自动化漏洞检测与修复建议输出,实时监控异常与潜在威胁并预警阻断,利用日志分析优化安全策略,构建闭环安全管理体系。

更新于 2025-09-30深圳
logo of ctrip
社招3年以上技术团队系统安全

1、参与公司基础架构的安全建设,完善安全纵深防御体系,以及相关安全项目管理和推进; 2、应对传统生产环境、公有云、私有云、混合云等复杂网络环境,设计和推进合理的安全防护方案; 3、为软件、系统安全基线、供应链、边界风险、运维部署等基础设施安全; 4、负责服务器及核心系统等系统安全策略的制定、实施、安全审计、持续改进; 5、跟进业界安全能力的前沿趋势,调优公司相应的防御水位。

更新于 2025-02-10上海