快手【留用实习】服务器软硬结合工程师
任职要求
1、本科及以上学历,深入理解处理器体系结构(X86/ARM)或者常见GPGPU/NPU系统架构,了解CPU/GPU微架构、PMU等相关子领域; 2、深入理解操作系统架构和实现原理,熟练掌握问题定位手段(perf、SystemTap、eBPF),精通软硬件系统性能分析及优化; 3、对AI领域的基本理论与常见模型算法有深刻理解,熟练使用tensor flow或pytorch进行模型训练或推理优化,对使用GPU做AI算法加速有相关经历,熟悉GPU CUDA编程; 4、熟悉Linux kernel、虚拟化系统(KVM/QEMU/VirtIO)、内存管理、进程管理、I/O软件栈; 5、熟悉数据中心常见平台软件维护开发,例如:K8s,Hadoop/Spark,分布式存储(CephFS/HDFS)或存储引擎(InnoDB/RocksDB); 6、具备较强的逻辑思考能力、沟通能力、学习能力、合作精神,积极主动,有责任心,抗压性强。 加分项: 1、有GPU/NPU上的AI算子/加速库开发经验; 2、有CPU/GPU模拟器/C-module开发经验; 3、熟悉新型硬件,有智能板卡、控制器固件、驱动、Optane、Open Channel、SPDK、DPDK等研发和应用经验;
工作职责
1、负责依据不同业务场景的特点和新硬件特性,结合系统软硬件栈的整体调优,提出并实施性能优化方案; 2、负责持续跟踪业内软硬件相关领域的技术发展趋势,结合不同业务场景未来需求,开展方案预研以及推广应用工作; 具体包括以下三种场景或者三种之一: 1)以容器云、大数据计算平台为例的通用计算平台场景; 2)AI计算相关场景,例如:大模型训练场景,AIGC、NLP、推荐等常规推理场景; 3)结构化以及非结构化数据存储场景。
1、负责硬件性能测试,操作系统与硬件兼容性,稳定性测试; 2、负责大规模服务器硬件监控系统的开发与优化; 3、负责整体服务器计算系统、存储系统、高性能计算系统、高速互联系统的设计、开发、优化工作; 4、负责开发匹配超大规模分布式平台的计算硬件系统、存储硬件系统、高速互联架构及硬件产品; 5、负责开发性能分析方法与平台,软硬件一体化系统架构设计; 6、负责部件定制化研究,不限于CPU、SSD; 7、负责X86、AMD、ARM等不同芯片架构的跨平台应用移植与性能优化。
1、服务器硬件运维自动化研发,包括硬件监控系统设计开发,硬件故障诊断和处置自动化开发,整机及部件(CPU、Memory、SSD、HDD等)压测自动化开发; 2、服务器硬件运维智能化能力建设,通过数据分析和机器学习技术,构建预测模型,实现故障预测、性能画像和智能诊断; 3、硬件基础数据能力建设,包括硬件整机及各类部件(CPU、Memory、GPU、HDD、SSD等)的性能微架构指标、健康状态指标及各类配置指标的数据采集、传输和存储; 4、关注最新的技术发展趋势,探索和引入新技术、新工具,持续推动运维效率提升。
1. 负责计算、存储、AI等定制化服务器产品和自研芯片板级开发的设计(含硬件和固件),制定详细硬件/固件方案及规格,完成硬件原理图、固件版本设计实现 2. 根据产品设计规格,编写测试计划和设计测试方案,负责维护自动化测试用例以及代码开发,完成测试和调试,产品规模落地 3. 投入性能测试及调优,包括基准性能测试及协助业务进行硬件相关的性能分析与调优
1、业务协同,提高服务效率及满意度:定期与业务沟通交流、了解业务情况,发掘业务核心需求与痛点,并协同IT中后台团队,向业务提供IT整体解决方案,为业务创造价值、提升IT的客户满意度。 2、需求统筹,流程优化:在充分理解业务需求的基础上,通过对业务流程的信息化支撑,减少工作流程中的冗余环节,从而提高业务整体的运作效率。 3、建立项目,保障落地:协助推进IT与业务部门的项目,包括IT项目的调研、立项、选型、实施、运维、升级等全项目周期管理,确保高质量交付。 4、搭建IT服务套餐:深入了解企业IT运作模式,根据对IT自身能力的了解和对公司内部业务的全面了解,尝试搭建面向内部客户的IT服务标准和服务套餐。