网易云计算研发工程师
任职要求
1. 本科及以上学历,3年以上相关工程实践经验; 2. 熟练并掌握以下至少一种语言Golang/ Python/ C, 掌握基本的数据结构和算法; 3. 至少熟悉以下任一开源项目kubernetes/Containerd/ETCD/Istio 并有实际工程经验; 4. 熟悉 Linux系统内核cgroups、namespa…
工作职责
1.负责网易游戏云计算平台的设计、研发、优化,针对网易游戏大规模容器集群进行高可用保障.。 2.负责网易游戏云计算平台的技术支撑,疑难问题的定位和分析, 解决网易游戏产品容器化落地中遇到的技术难题。 3.负责网易游戏云计算平台在多云、混合云上的构建统一交付和自动化运维能力的 Kubernetes 服务, 支撑业务出海。 4.亲身经历游戏与云和容器化对接的过程,为游戏产品对云和容器平台进行量身订造和优化升级。
1.负责高性能计算集群的平台开发和建设工作,构建业界领先的集群算力调度能力、集群网络管理监控能力、集群故障发现和迁移自愈等能力; 2.负责主流 AI 框架的云平台适配和性能调优工作,针对业界大模型训练,将主流加速框架(如DeepSpeed、Megatron-LM)结合云平台底层技术特点和优势,打造具备差异化竞争力的 AI 加速平台产品能力; 3.负责主流 AI 模型训练和推理性能优化调优工作,提升 AI 推理业务快速部署能力,提供平台算法优化加速能力,能够灵活使用 Triton,TensorRT 等业界主流推理服务和组件,深度结合云原生产品技术架构优势,输出面向不同场景的性能加速最佳实践解决方案; 4.负责跟踪 AI行业技术发展趋势,并进行深度探索分析,协同产品制订 AI 技术发展路线和产品规划; 5.探索自研AI芯片分布式训练与推理云化能力,打造自研 AI 芯片一体化解决方案能力。
我们致力于构建全球领先的AI异构计算加速引擎和加速平台。建立融合推理(Inference)、训练(Training)的软硬件一体的AI计算加速解决方案,并应用于行业最大的规模的AI数据中心,解决云计算、搜索、信息流、图像、视觉、语音、自然语言处理等的算法优化与计算加速问题。 -负责大规模AI前向计算引擎(Inference Engine)框架和底层算子开发与优化; -负责大规模AI计算通信库及通信算法开发与优化; -负责面向CPU/GPU/FPGA/ASIC等多元化计算架构的编译系统开发、编译优化和算法加速; -负责异构高性能计算平台的设计、研发,高性能计算库、通信库开发与优化。
1.负责超大规模弹性计算系统的架构设计及开发工作; 2.开发和维护腾讯云的后台管理/调度系统/监控系统(类似于OpenStack); 3.开发和维护运行在数十万宿主机上的虚拟化Agent; 4.打造业界领先的虚拟机热迁移能力; 5.负责云计算相关产品功能设计及实现。