平头哥平头哥-BMC平台开发专家-上海

社招全职5年以上技术-芯片2026-01-19地点：上海状态：招聘

扫码手机上打开

任职要求

1. 计算机、软件、电子、自动化等相关专业本科及以上学历, 5年以上工作经验；
2. 熟练掌握C++/C/vue-js/yaml 语言编程,有良好的编程习惯&数据结构算法能力；
3. 有CPU/GPU 等智能设备等芯片相关大型软件项目/软硬件协同设计开发的交付经验；
4. 熟悉嵌入式Linux 平台下的驱动&应用程序开发；
5. 熟悉yocto/linux-kernel/u-boot/systemd/dbus/boost/asio;
6. 熟悉PMBUS/SMBUS/I2C/I3C/UART/eSPI/GPIO/SGPIO/SIO/MBOX/ADC/SPI/USB相关知识优先；
7. 熟悉PLDM/MCTP/FABRIC/Redfish/IPMI/IPv6/IPv4/SNMP/SMTP/NCSI/SMBIOS/ACPI相关知识优先；
8. 具备良好的团队精神，善于沟通，以及…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责下一代服务器/板卡/SoC固件自主研发及产品交付和维护；
2.负责OpenBMC 相关模块的功能开发和定制化需求；
3.负责解决项目中BMC领域相关的问题；
4.负责和芯片、硬件、BIOS等研发人员沟通相关接口验证及功能开发设计方案；
5.负责项目开发过程中相关文档的编写和输出；
6. 引领BMC领域技术发展趋势，结合平头哥业务应用场景，开拓芯片/OpenBMC技术发展方向，并推动相关技术产品化落地。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

C+++

C+

Vue+

JavaScript+

还有更多 •••

登录查看完整学习资料

相关职位

资深IaaS基础设施工程师/专家(MJ026963)

社招技术团队开发

1. 主导云计算基础设施全生命周期质量体系建设，制定覆盖虚拟化/网络/存储性能、稳定性及多平台兼容性测试策略； 2. 负责下一代数据中心架构的建设，了解业界动态，包括主流服务器（如CPU、内存、硬盘、RAID卡、网卡、GPU卡等）配置的测试选型推荐； 3. 协同架构团队完成服务性能调优（计算资源利用率/SDN网络吞吐量/存储IO性能/能耗比优化）

更新于 2025-03-28上海

平头哥-AI服务器系统软件测试专家-端到端业务场景

社招8年以上技术-芯片

职位描述 1. 负责Soc芯片端到端业务场景测试和验证，包括pre-silicon和post-silicon阶段的验证 2. 能根据端到端业务场景设计有效的测试用例和工具对芯片特性进行验证 3. 开源测试工具的适配和导入 4. 基于产品需求, 进行需求分析, 制定测试方案, 设计测试用例并完成自动化使能 5. 针对测试中出现的缺陷，能够与开发人员沟通，并持续跟踪推进 6. 推动产品高质量交付

更新于 2026-01-19上海

平头哥-AI集群运维专家（机房与网络方向）-上海

社招5年以上技术-芯片

我们正在寻找一位熟悉数据中心建设、服务器部署与高性能网络运维的优秀工程师，加入我们致力于构建*下一代AI算力基础设施的核心团队。你将参与企业级GPU集群的规划、部署与持续优化，支撑大语言模型（LLM）千亿级参数训练任务的稳定运行。如果你热爱“硬核”系统工程，关注物理层到网络层的极致性能，并希望在AI时代打造真正的“算力底座”，欢迎加入！你将负责： 1. AI数据中心规划与机房部署参与新建或改造AI专用机房，完成服务器上架、电源配比、散热方案评估、PDU/UPS/BMC等基础设施配置，确保高密度GPU集群的可靠运行。 2. 大规模GPU集群部署与维护主导NVIDIA A100/H100等高端GPU服务器的初始化、固件升级、驱动安装与健康监控；建立标准化部署流程（自动化装机、配置管理），提升交付效率。 3. 高性能网络架构支持（RDMA/InfiniBand/RoCE）配合网络团队完成IB/RoCE网络部署，配置子网管理器（SM）、交换机（如 Mellanox/NVIDIA Quantum-2）、路由策略；保障低延迟、高带宽通信满足AllReduce需求。 4. NCCL通信性能调优与故障排查协助算法团队分析分布式训练中的通信瓶颈，结合nccl-tests、ibstat、ethtool等工具进行链路诊断；优化GPU拓扑（NVLink/NVSwitch）、NUMA绑定、MTU设置等关键参数。 5. 基础设施监控与自动化运维搭建硬件健康监控体系（温度、功耗、风扇、ECC错误等），集成Prometheus + Grafana + Alertmanager；编写脚本实现自动巡检、告警响应与故障定位。 6. 跨团队协作支持训练平台稳定运行与开发、QA团队协同，为大模型训练提供稳定、高效的底层算力环境，快速响应宕机、链路中断、丢包等紧急问题。

更新于 2026-03-24上海

阿里云智能-服务器质量工程技术专家-质量工程

社招5年以上技术类-开发

1、负责产品的硬件设计交付，实现产品化，对产品端到端交付质量运维负责，辅助并督导上游ODM/OEM开展设计和质量运维保障工作； 2、对标业界标杆，引入先进质量运维管理方法，并制定相关产品的全流程质量运维管控方案并主导实施，开展供应商质量审核、质量体系评估、运维能力管理，确保改善措施的有效实施； 3、主导分析解决和预防重大产品质量运维问题，主导产品质量问题分析、定位及质量问题的处理与预防； 4、持续跟踪硬件相关领域的技术发展趋势，结合对阿里业务应用场景的深入分析，并推动相关技术的产品化实。

更新于 2025-06-07深圳|杭州