腾讯技术研究-基础架构方向(青云计划)
任职要求
1、计算机科学、软件工程、电子信息等相关专业本科及以上学历; 2、熟练掌握数据结构、算法、操作系统、计算机网络等计算机基础知识; 3、熟练掌握至少一门编程语言,例如:C/C++、Java、Python、Go等; 4、具备强烈的学习意愿和能力,能够快速掌握新技术; 5、具备良好的沟通能力和团队合作精神,能够积极主动地解决问题。 加分项 1、有云计算相关项目经验或实习经历; 2、熟悉主流云计算平台的使用; 3、熟悉开源项目并有相关贡献。
工作职责
1、参与基础设施(网络、存储、数据库)的设计、开发和优化; 2、学习和运用相关技术,例如:虚拟化、容器、分布式系统、微服务架构等。参与解决大规模分布式系统中的技术难题,提升产品的性能、稳定性和可扩展性; 3、与团队成员紧密合作,共同完成产品迭代和项目交付。
1、参与基础设施(网络、存储、数据库)的设计、开发和优化; 2、学习和运用相关技术,例如:虚拟化、容器、分布式系统、微服务架构等。参与解决大规模分布式系统中的技术难题,提升产品的性能、稳定性和可扩展性; 3、与团队成员紧密合作,共同完成产品迭代和项目交付。
包含GPU、网络、大模型框架等细分方向。 1、针对业务需求,解决算力瓶颈、通信延迟、分布式系统扩展性等问题; 2、协同算法、硬件及运维团队,构建高效、稳定的计算基础设施。 1)GPU方向:研究GPU集群的调度策略,优化资源利用率。探索混合精度计算、模型量化等GPU加速技术; 2)网络方向:设计低延迟、高吞吐的分布式网络架构(如InfiniBand/RoCE/DPU)。优化MPI、NCCL等通信库性能,解决大规模集群中的网络拥塞问题; 3)大模型工程框架方向:开发或优化大模型训练框架(如PyTorch/TensorFlow/DeepSpeed/Megatron-LM),设计分布式训练策略(模型并行、流水线并行、混合并行),提升千亿级参数模型的训练效率。研究训练加速技术(梯度压缩、显存优化、动态计算图调度)。
包含GPU、网络、大模型框架等细分方向。 1、针对业务需求,解决算力瓶颈、通信延迟、分布式系统扩展性等问题; 2、协同算法、硬件及运维团队,构建高效、稳定的计算基础设施。 1)GPU方向:研究GPU集群的调度策略,优化资源利用率。探索混合精度计算、模型量化等GPU加速技术; 2)网络方向:设计低延迟、高吞吐的分布式网络架构(如InfiniBand/RoCE/DPU)。优化MPI、NCCL等通信库性能,解决大规模集群中的网络拥塞问题; 3)大模型工程框架方向:开发或优化大模型训练框架(如PyTorch/TensorFlow/DeepSpeed/Megatron-LM),设计分布式训练策略(模型并行、流水线并行、混合并行),提升千亿级参数模型的训练效率。研究训练加速技术(梯度压缩、显存优化、动态计算图调度)。