logo of thead

平头哥平头哥-ARM服务器固件(BIOS)工程师-上海

社招全职3年以上技术类-开发地点:上海状态:招聘

任职要求


1. 拥有计算机科学、电子工程或相关领域的本科或以上学历。
2. 3年以上x86/ARM/RISC-V服务器固件或Linux Kernel开发经验。
3. 具备出色的C语言和汇编语言编程、开发、调试技能,对底层软件开发有浓厚兴趣。
至少掌握以下能力中的2-3项:
1. 熟悉服务器启动流程,UEFI/…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责ARM架构服务器固件(BIOS)各种功能的设计与实现。
2. 参与芯片研发全流程,在架构设计,硅前验证,性能profiling等工作
3. 芯片产线支持,支撑业务落地
包括英文材料
学历+
RISC-V+
Linux+
还有更多 •••
相关职位

logo of aligenie
社招3年以上技术-芯片

我们正在寻找一位经验丰富的模块测试工程师,专注于服务器核心模块与子系统的深度测试与验证。您将负责从单元到系统级的测试策略设计、自动化实现与问题定位,确保服务器各关键模块(如内核/虚拟化、高速总线、编解码等)的功能、性能、可靠性及兼容性满足严苛的行业标准。您需要对服务器硬件架构与软件栈有深入理解,并能通过创新的测试方法发现潜在缺陷,为产品的高质量交付提供坚实保障。 岗位职责: 1. 服务器核心模块测试策略与执行:负责制定和执行服务器关键模块的测试计划,特别是在如下某一个或者某几个核心模块有扎实测试专长的候选人加入: a. 内核与虚拟化模块:测试虚拟化技术(如KVM, VMware ESXi)、容器运行时、内核关键子系统(调度、内存管理、网络栈)的功能、性能隔离与稳定性。 b. 高速互连总线模块:负责PCIe, CXL, NVLink等高速总线的功能验证、带宽/延迟性能基准测试、错误注入与容错测试。 c. 硬件加速与编解码模块:测试GPU、视频编解码器(如H.264/HEVC/AV1)、加解密引擎等硬件加速单元的功能正确性、性能提升及驱动兼容性。 d. 固件与BMC模块:参与服务器固件(BIOS/UEFI)、基板管理控制器(BMC)的接口、安全与可靠性测试。 2. 测试框架与自动化开发:针对特定模块,设计并开发高覆盖率的自动化测试套件、压力测试工具和性能基准测试框架。集成到CI/CD流水线,实现模块质量的持续监控。 3. 深度分析与问题定位:执行测试并分析结果,能深入日志、硬件寄存器、性能计数器等,对发现的缺陷进行根因分析,准确定位至硬件、固件、驱动或应用层,并与研发团队紧密协作推动问题解决。 4. 系统级集成与可靠性验证:将模块测试融入整机系统测试,验证多模块协同工作下的功能与性能,设计并执行长时压力、故障恢复、容错等可靠性测试场景。 5. 技术预研与能力建设:跟踪服务器技术演进(如新硬件架构、互联协议、虚拟化技术),预研新的测试方法、工具与标准,提升团队在特定模块领域的测试深度与效率。

更新于 2026-04-07上海
logo of bytedance
社招3年以上JJP3P

1、负责下一代服务器/板卡/SoC固件自主研发及产品交付和维护; 2、负责海量服务器硬件组件的各固件统一化定制, 与厂商协同研发并指导其开展工作; 3、负责服务器固件领域RAS、故障定位系统、硬件性能调优、安全、功耗等竞争力特性的策略制定、方案落地; 4、引领固件领域技术发展趋势,结合字节业务应用场景,开拓固件技术发展方向,并推动相关技术产品化落地。

更新于 2021-01-27上海
logo of thead
社招5年以上技术-芯片

我们正在寻找一位熟悉数据中心建设、服务器部署与高性能网络运维的优秀工程师,加入我们致力于构建*下一代AI算力基础设施的核心团队。 你将参与企业级GPU集群的规划、部署与持续优化,支撑大语言模型(LLM)千亿级参数训练任务的稳定运行。如果你热爱“硬核”系统工程,关注物理层到网络层的极致性能,并希望在AI时代打造真正的“算力底座”,欢迎加入! 你将负责: 1. AI数据中心规划与机房部署 参与新建或改造AI专用机房,完成服务器上架、电源配比、散热方案评估、PDU/UPS/BMC等基础设施配置,确保高密度GPU集群的可靠运行。 2. 大规模GPU集群部署与维护 主导NVIDIA A100/H100等高端GPU服务器的初始化、固件升级、驱动安装与健康监控;建立标准化部署流程(自动化装机、配置管理),提升交付效率。 3. 高性能网络架构支持(RDMA/InfiniBand/RoCE) 配合网络团队完成IB/RoCE网络部署,配置子网管理器(SM)、交换机(如 Mellanox/NVIDIA Quantum-2)、路由策略;保障低延迟、高带宽通信满足AllReduce需求。 4. NCCL通信性能调优与故障排查 协助算法团队分析分布式训练中的通信瓶颈,结合nccl-tests、ibstat、ethtool等工具进行链路诊断;优化GPU拓扑(NVLink/NVSwitch)、NUMA绑定、MTU设置等关键参数。 5. 基础设施监控与自动化运维 搭建硬件健康监控体系(温度、功耗、风扇、ECC错误等),集成Prometheus + Grafana + Alertmanager;编写脚本实现自动巡检、告警响应与故障定位。 6. 跨团队协作支持训练平台稳定运行 与开发、QA团队协同,为大模型训练提供稳定、高效的底层算力环境,快速响应宕机、链路中断、丢包等紧急问题。

更新于 2026-03-24上海
logo of baidu
社招3年以上IDG

-负责服务器固件(BIOS、BMC)的全流程设计、开发与调试工作,确保产品功能稳定可靠 -参与固件架构设计,优化固件性能,提升系统启动速度和稳定性 -同硬件团队紧密合作,完成固件与硬件的集成测试,解决兼容性问题 -编写固件开发文档,包括设计文档、测试报告及用户手册等 -跟踪固件行业动态,研究新技术,为产品升级提供技术支撑

更新于 2025-09-15北京