腾讯技术研究-高性能计算方向(青云计划)
任职要求
1、扎实的计算机体系结构基础,熟悉并行计算、数据密集型系统设计; 2、良好的数学基础(线性代数、数值分析、算法复杂度优化)。 加分项 1、有TensorRT/Triton Inference Server等推理框架经验者优先; 2、深入理解TCP/IP、RDMA协议栈,熟悉DPDK/SPDK开发、有超算中心或云计算网络调优经验者优先; 3、熟悉Transformer架构及主流大模型训练流程。
工作职责
包含GPU、网络、大模型框架等细分方向。 1、针对业务需求,解决算力瓶颈、通信延迟、分布式系统扩展性等问题; 2、协同算法、硬件及运维团队,构建高效、稳定的计算基础设施。 1)GPU方向:研究GPU集群的调度策略,优化资源利用率。探索混合精度计算、模型量化等GPU加速技术; 2)网络方向:设计低延迟、高吞吐的分布式网络架构(如InfiniBand/RoCE/DPU)。优化MPI、NCCL等通信库性能,解决大规模集群中的网络拥塞问题; 3)大模型工程框架方向:开发或优化大模型训练框架(如PyTorch/TensorFlow/DeepSpeed/Megatron-LM),设计分布式训练策略(模型并行、流水线并行、混合并行),提升千亿级参数模型的训练效率。研究训练加速技术(梯度压缩、显存优化、动态计算图调度)。
包含GPU、网络、大模型框架等细分方向。 1、针对业务需求,解决算力瓶颈、通信延迟、分布式系统扩展性等问题; 2、协同算法、硬件及运维团队,构建高效、稳定的计算基础设施。 1)GPU方向:研究GPU集群的调度策略,优化资源利用率。探索混合精度计算、模型量化等GPU加速技术; 2)网络方向:设计低延迟、高吞吐的分布式网络架构(如InfiniBand/RoCE/DPU)。优化MPI、NCCL等通信库性能,解决大规模集群中的网络拥塞问题; 3)大模型工程框架方向:开发或优化大模型训练框架(如PyTorch/TensorFlow/DeepSpeed/Megatron-LM),设计分布式训练策略(模型并行、流水线并行、混合并行),提升千亿级参数模型的训练效率。研究训练加速技术(梯度压缩、显存优化、动态计算图调度)。
可以选择量子、数据库、云计算、计算机系统结构、存储、并行与分布式计算、网络信息安全多个方向,对以下方面进行研究: 1、 负责分布式数据库存储引擎、SQL引擎、查询优化器的设计开发工作; 2、 负责云存储、云数据库的前沿技术的预研和应用; 3、 负责大规模高性能虚拟网络的设计、开发与运维;云平台南北向网关功能的架构设计和性能优化; 4、 对网络流量进行深入分析,挖掘安全风险隐患;对网络攻防技术进行跟踪研究,应对现网及未来安全威胁。
可以选择量子、数据库、云计算、计算机系统结构、存储、并行与分布式计算、网络信息安全多个方向,对以下方面进行研究: 1、 负责分布式数据库存储引擎、SQL引擎、查询优化器的设计开发工作; 2、 负责云存储、云数据库的前沿技术的预研和应用; 3、 负责大规模高性能虚拟网络的设计、开发与运维;云平台南北向网关功能的架构设计和性能优化; 4、 对网络流量进行深入分析,挖掘安全风险隐患;对网络攻防技术进行跟踪研究,应对现网及未来安全威胁。
包含GPU、网络、大模型框架等细分方向。 1、针对业务需求,解决算力瓶颈、通信延迟、分布式系统扩展性等问题; 2、协同算法、硬件及运维团队,构建高效、稳定的计算基础设施。 1)GPU方向:研究GPU集群的调度策略,优化资源利用率。探索混合精度计算、模型量化等GPU加速技术; 2)网络方向:设计低延迟、高吞吐的分布式网络架构(如InfiniBand/RoCE/DPU)。优化MPI、NCCL等通信库性能,解决大规模集群中的网络拥塞问题; 3)大模型工程框架方向:开发或优化大模型训练框架(如PyTorch/TensorFlow/DeepSpeed/Megatron-LM),设计分布式训练策略(模型并行、流水线并行、混合并行),提升千亿级参数模型的训练效率。研究训练加速技术(梯度压缩、显存优化、动态计算图调度)。