
智能互联平头哥-硬件技术支持专家/工程师-杭州
任职要求
1.本科及以上学历,计算机、电子等相关专业;
2.7年以上工作经验,其中3年以上硬件方面的技术支持经验,有CPU、GPU等产品技术支持经验者优先考虑;
3.优秀的沟通能力和逻辑思维能力,有良好的故障定位和排查能力,能够根据问题的严重性和优先级给予紧急问题更快的响应;
4.熟悉工单业务流程,熟悉工单工具和系…工作职责
1.负责平头哥产品在客户生产产线的硬件支持,跟踪批量的生产测试情况,制定合理的产线测试方案进行不良品分析; 2.负责将客户产线遇到的芯片与硬件问题有效传递研发团队,推动问题的快速分析和解决,达成SLA基线目标,提高客户满意度; 3.负责定期总结和汇报客户生产产线上的硬件问题情况,为研发团队提供相关的决策信息; 4.在工作中识别典型问题,总结提炼并进行资料整理和文档输出,为客户和其他团队成员提供培训和指导; 5.能够准确识别客户的需求,搜集相关建议,并将有效问题及时反馈,推动闭环; 6.负责推进硬件技术支持流程和体系建设,跨团队、跨部门沟通合作,解决产品生产和应用中的相关问题;
1.负责平头哥产品在客户生产产线的硬件支持,跟踪批量的生产测试情况,制定合理的产线测试方案进行不良品分析; 2.负责将客户产线遇到的芯片与硬件问题有效传递研发团队,推动问题的快速分析和解决,达成SLA基线目标,提高客户满意度; 3.负责定期总结和汇报客户生产产线上的硬件问题情况,为研发团队提供相关的决策信息; 4.在工作中识别典型问题,总结提炼并进行资料整理和文档输出,为客户和其他团队成员提供培训和指导; 5.能够准确识别客户的需求,搜集相关建议,并将有效问题及时反馈,推动闭环; 6.负责推进硬件技术支持流程和体系建设,跨团队、跨部门沟通合作,解决产品生产和应用中的相关问题;
我们正在寻找一位熟悉数据中心建设、服务器部署与高性能网络运维的优秀工程师,加入我们致力于构建*下一代AI算力基础设施的核心团队。 你将参与企业级GPU集群的规划、部署与持续优化,支撑大语言模型(LLM)千亿级参数训练任务的稳定运行。如果你热爱“硬核”系统工程,关注物理层到网络层的极致性能,并希望在AI时代打造真正的“算力底座”,欢迎加入! 你将负责: 1. AI数据中心规划与机房部署 参与新建或改造AI专用机房,完成服务器上架、电源配比、散热方案评估、PDU/UPS/BMC等基础设施配置,确保高密度GPU集群的可靠运行。 2. 大规模GPU集群部署与维护 主导NVIDIA A100/H100等高端GPU服务器的初始化、固件升级、驱动安装与健康监控;建立标准化部署流程(自动化装机、配置管理),提升交付效率。 3. 高性能网络架构支持(RDMA/InfiniBand/RoCE) 配合网络团队完成IB/RoCE网络部署,配置子网管理器(SM)、交换机(如 Mellanox/NVIDIA Quantum-2)、路由策略;保障低延迟、高带宽通信满足AllReduce需求。 4. NCCL通信性能调优与故障排查 协助算法团队分析分布式训练中的通信瓶颈,结合nccl-tests、ibstat、ethtool等工具进行链路诊断;优化GPU拓扑(NVLink/NVSwitch)、NUMA绑定、MTU设置等关键参数。 5. 基础设施监控与自动化运维 搭建硬件健康监控体系(温度、功耗、风扇、ECC错误等),集成Prometheus + Grafana + Alertmanager;编写脚本实现自动巡检、告警响应与故障定位。 6. 跨团队协作支持训练平台稳定运行 与开发、QA团队协同,为大模型训练提供稳定、高效的底层算力环境,快速响应宕机、链路中断、丢包等紧急问题。
职位概述: 作为平头哥数据中心产品线深度学习算法框架高级技术专家,将负责设计、开发和优化深度学习算法框架,提升算法模型在PTG AI芯片上的运行效率和性能。跨团队协作,确保高质量的代码和技术实现,同时为团队提供技术指导。 主要职责: 算法框架适配与开发: 对开源AI软件框架的内部实现有深入理解,能够快速将广大开源软件适配到 AI 芯片上,同时确保性能达到最优。同时根据公司AI芯片的差异化的功能,在框架层面实现软硬件结合的解决方案。 性能优化: 分析和优化深度学习模型的训练和推理性能,提升计算效率和资源利用率。 根据芯片硬件特点使用多种技术手段,包括分布式计算、模型压缩和量化,优化算法在实际应用中的表现。 跨团队协作: 与其他团队(如编译器、驱动、客户支持等)紧密合作,确保技术指标的达成,并实现符合用户需求和市场趋势的功能。 为团队成员提供技术指导和支持,推动团队技能的持续提升。 技术研究与创新: 跟踪深度学习和机器学习领域的最新研究动态,探索并实施新算法和技术。 参与编写技术文档和论文,促进技术的分享与传播。

职位概述: 作为平头哥数据中心产品线深度学习算法框架高级技术专家,将负责设计、开发和优化深度学习算法框架,提升算法模型在PTG AI芯片上的运行效率和性能。跨团队协作,确保高质量的代码和技术实现,同时为团队提供技术指导。 主要职责: 算法框架适配与开发: 对开源AI软件框架的内部实现有深入理解,能够快速将广大开源软件适配到 AI 芯片上,同时确保性能达到最优。同时根据公司AI芯片的差异化的功能,在框架层面实现软硬件结合的解决方案。 性能优化: 分析和优化深度学习模型的训练和推理性能,提升计算效率和资源利用率。 根据芯片硬件特点使用多种技术手段,包括分布式计算、模型压缩和量化,优化算法在实际应用中的表现。 跨团队协作: 与其他团队(如编译器、驱动、客户支持等)紧密合作,确保技术指标的达成,并实现符合用户需求和市场趋势的功能。 为团队成员提供技术指导和支持,推动团队技能的持续提升。 技术研究与创新: 跟踪深度学习和机器学习领域的最新研究动态,探索并实施新算法和技术。 参与编写技术文档和论文,促进技术的分享与传播。