logo of thead

平头哥平头哥-服务器系统测试专家-芯片/稳定性/性能-上海

社招全职8年以上技术-芯片地点:上海状态:招聘

任职要求


1,计算机科学、电子工程或相关技术领域的硕士或博士学位。
2,8年以上在处理器、服务器平台、系统稳定性或性能测试领域的直接经验,有CPU/PCIe/DDR测试的相关经验
3,深入理解处理器架构(如x86、ARM等),熟悉CPU性能分析的方法,具备硬件与软件交互调试技能
4,精通至少一种高级编程语言(如C/C++)和一种脚本语言(如PythonShell等)。
5,强大的逻辑思维和分析能力,能够处理复杂系统中的技术挑战。
6,具有良好的跨部门沟通能力,以及能在快节奏环境中快速学习和适应新技术的能力。
7,拥有系统架构设计或系统集成项目的经验。

工作职责


1,负责处理器架构、服务器平台、系统稳定性和性能测试的策略规划和实施。
2,负责设计和执行自动化测试方案,包括系统稳定性、性能分析和压力测试等等。
3,对处理器微架构进行深入分析,优化测试案例,对处理器相关的指令集、并发执行、缓存一致性等关键功能予以验证。
4,设计和研发高效的测试工具和框架,以满足行业标准和自动化需求。
5,参与客户对接,梳理客户需求和场景,提升内部测试覆盖和能力。
6,在跨功能团队合作中,与硬件和软件工程师协同工作,解决处理器、稳定性和性能等技术问题。
7,评估新兴技术和测试方法在现有测试流程中的应用潜力,进行技术预研和推广应用。
8,推动产品质量和交付标准的制定,推动整体交付流程建设。
包括英文材料
学历+
C+
C+++
脚本+
Python+
Bash+
系统设计+
相关职位

logo of aliyun
社招5年以上云智能集团

1. 负责FPGA/芯片产品的架构和系统方案设计,定义软硬件接口和FPGA逻辑架构, 完成逻辑设计和开发、测试、上线、运维等全生命周期的研发工作; 2. 负责相关FPGA/芯片的性能优化和稳定性保障,持续提升网卡互连的性能和稳定性,确保系统安全、稳定、高效运行; 3. 参与网卡互连等新技术预研和规划,跟踪业务需求和行业技术变化,进行产品规划和FPGA架构演进;包括下一代虚拟网络,软硬结合技术,高性能传输协议,AI Scale UP和Scale Out网络等。

更新于 2025-09-03
logo of thead
社招7年以上技术类-开发

1. 负责分解服务器硬件测试需求,制定硬件测试策略与计划,主导完成相关测试用例的开发与准备。 2. 负责主导服务器的芯片与硬件的bringup,以及回片后的硬件单元测试、系统测试以及稳定性测试等工作,输出相应的测试报告。 3. 负责服务器硬件测试中遇到问题和bug的分析定位,并提供问题解决方案。 4. 负责服务器硬件测试流程与规范,测试用例库等体系建设。 5. 负责对客户及生产环节反馈的相关硬件和系统级测试问题提供技术支持。

更新于 2025-06-23
logo of thead
社招5年以上技术-芯片

我们正在寻找一位熟悉数据中心建设、服务器部署与高性能网络运维的优秀工程师,加入我们致力于构建*下一代AI算力基础设施的核心团队。 你将参与企业级GPU集群的规划、部署与持续优化,支撑大语言模型(LLM)千亿级参数训练任务的稳定运行。如果你热爱“硬核”系统工程,关注物理层到网络层的极致性能,并希望在AI时代打造真正的“算力底座”,欢迎加入! 你将负责: 1. AI数据中心规划与机房部署 参与新建或改造AI专用机房,完成服务器上架、电源配比、散热方案评估、PDU/UPS/BMC等基础设施配置,确保高密度GPU集群的可靠运行。 2. 大规模GPU集群部署与维护 主导NVIDIA A100/H100等高端GPU服务器的初始化、固件升级、驱动安装与健康监控;建立标准化部署流程(自动化装机、配置管理),提升交付效率。 3. 高性能网络架构支持(RDMA/InfiniBand/RoCE) 配合网络团队完成IB/RoCE网络部署,配置子网管理器(SM)、交换机(如 Mellanox/NVIDIA Quantum-2)、路由策略;保障低延迟、高带宽通信满足AllReduce需求。 4. NCCL通信性能调优与故障排查 协助算法团队分析分布式训练中的通信瓶颈,结合nccl-tests、ibstat、ethtool等工具进行链路诊断;优化GPU拓扑(NVLink/NVSwitch)、NUMA绑定、MTU设置等关键参数。 5. 基础设施监控与自动化运维 搭建硬件健康监控体系(温度、功耗、风扇、ECC错误等),集成Prometheus + Grafana + Alertmanager;编写脚本实现自动巡检、告警响应与故障定位。 6. 跨团队协作支持训练平台稳定运行 与开发、QA团队协同,为大模型训练提供稳定、高效的底层算力环境,快速响应宕机、链路中断、丢包等紧急问题。

更新于 2025-10-09
logo of thead
社招8年以上技术-芯片

职位描述 1. 负责Soc芯片端到端业务场景测试和验证,包括pre-silicon和post-silicon阶段的验证 2. 能根据端到端业务场景设计有效的测试用例和工具对芯片特性进行验证 3. 开源测试工具的适配和导入 4. 基于产品需求, 进行需求分析, 制定测试方案, 设计测试用例并完成自动化使能 5. 针对测试中出现的缺陷,能够与开发人员沟通,并持续跟踪推进 6. 推动产品高质量交付

更新于 2025-08-05