快手【快Star-X实习】异构计算平台优化工程师
任职要求
1、本科及以上学历,深入理解处理器体系结构(X86/ARM)或者常见GPGPU/NPU系统架构,了解CPU/GPU微架构、PMU等相关子领域; 2、对AI领域的基本理论与常见模型算法有深刻理解,熟练使用tensorflow或pytorch进行模型训练或tensorrt/tvm做推理优化,对使用GPU做AI算法加速有相关经历,熟悉GPU CUDA编程; 3、深入理解操作系统架构和实现原理,熟练掌握问题定位手段(perf、SystemTap、eBPF),精通软硬件系统性能分析及优化; 4、熟悉Linux kernel、虚拟化系统(KVM/QEMU/VirtIO)、内存管理、进程管理、I/O软件栈; 5、熟悉数据中心常见平台软件维护开发,例如:K8s,Hadoop/Spark,分布式存储(CephFS/HDFS)或存储引擎(InnoDB/RocksDB); 6、具备较强的逻辑思考能力、沟通能力、学习能力、合作精神,积极主动,有责任心,抗压性强。 加分项: 1、有GPU/NPU上的AI编译器/算子加速库/集合通信库开发经验; 2、有CPU/GPU模拟器/C-module开发经验; 3、熟悉新型硬件,有智能板卡、控制器固件、驱动、Open Channel、SPDK、DPDK等研发和应用经验。
工作职责
1、负责依据不同业务场景的特点和新硬件特性,结合系统软硬件栈的整体调优,提出并实施性能优化方案; 2、负责持续跟踪业内软硬件相关领域的技术发展趋势,结合不同业务场景未来需求,开展方案预研以及推广应用工作。 具体包括以下两种场景或者两种之一: 1)AI计算相关场景,例如:大模型训练场景,AIGC、NLP、推荐等常规推理场景; 2)以容器云、大数据计算平台为例的通用计算平台场景。
1、负责容器云平台的一个或多个领域的设计与开发; 2、基于Kubernetes完善统一调度、多集群联邦能力,提升集群运维效率; 3、基于但不限于servicemesh技术栈,实现微服务架构业务&离线计算任务的流量管控、链路追踪等基础能力; 4、负责公司混合计算平台及相关技术的设计与开发,提升异构资源管理效率; 5、结合容器领域前沿技术,负责容器云全局技术优化与落地实践。
1、负责快手自研深度学习开发框架和推理引擎的设计、实现和优化,包括模型压缩量化、异构计算、AI模型与推理引擎的联合设计等; 2、负责AI算法的工程化落地,包括SDK架构、性能优化等工作;提升工程化流程的模块化、平台化、自动化水平,提高落地效率和工程质量。
1、负责容器云平台的一个或多个领域的设计与开发; 2、基于Kubernetes完善统一调度、多集群联邦能力,提升集群运维效率; 3、基于但不限于servicemesh技术栈,实现微服务架构业务&离线计算任务的流量管控、链路追踪等基础能力; 4、负责公司混合计算平台及相关技术的设计与开发,提升异构资源管理效率; 5、结合容器领域前沿技术,负责容器云全局技术优化与落地实践。
1、依托快手海量内容生产、消费、流量数据,基于短视频、直播等业务生态,挖掘用户画像属性,构建公司级用户画像数据体系和平台产品,深度参与创作者、直播、运营、增长等业务策略方案制定及实施,直接为业务提效赋能并达成新的增长点; 2、基于业务策略服务方案,面向全站用户、内容、社区沉淀数据标签资产至数据中台,为业务运营决策提供基础标签能力支撑,并不断挖掘、萃取数据价值; 3、基于海量、异构、高维的时空大数据,建设精准的全域空间实体数据体系,搭建全方位的地理位置服务(LBS); 4、建设业内一流的设备指纹引擎,整合快手海量多来源数据,建设全站统一的ID-Mapping服务框架。