网易云计算研发工程师
任职要求
1. 本科及以上学历,3年以上相关工程实践经验; 2. 熟练并掌握以下至少一种语言Golang/ Python/ C, 掌握基本的数据结构和算法; 3. 至少熟悉以下任一开源项目kubernetes/Containerd/ETCD/Istio 并有实际工程经验; 4. 熟悉 Linux系统内核cgroups、namespa…
工作职责
1.负责网易游戏云计算平台的设计、研发、优化,针对网易游戏大规模容器集群进行高可用保障.。 2.负责网易游戏云计算平台的技术支撑,疑难问题的定位和分析, 解决网易游戏产品容器化落地中遇到的技术难题。 3.负责网易游戏云计算平台在多云、混合云上的构建统一交付和自动化运维能力的 Kubernetes 服务, 支撑业务出海。 4.亲身经历游戏与云和容器化对接的过程,为游戏产品对云和容器平台进行量身订造和优化升级。
我们致力于构建全球领先的AI异构计算加速引擎和加速平台。建立融合推理(Inference)、训练(Training)的软硬件一体的AI计算加速解决方案,并应用于行业最大的规模的AI数据中心,解决云计算、搜索、信息流、图像、视觉、语音、自然语言处理等的算法优化与计算加速问题。 -负责大规模AI前向计算引擎(Inference Engine)框架和底层算子开发与优化; -负责大规模AI计算通信库及通信算法开发与优化; -负责面向CPU/GPU/FPGA/ASIC等多元化计算架构的编译系统开发、编译优化和算法加速; -负责异构高性能计算平台的设计、研发,高性能计算库、通信库开发与优化。
1.负责高性能计算集群的平台开发和建设工作,构建业界领先的集群算力调度能力、集群网络管理监控能力、集群故障发现和迁移自愈等能力; 2.负责主流 AI 框架的云平台适配和性能调优工作,针对业界大模型训练,将主流加速框架(如DeepSpeed、Megatron-LM)结合云平台底层技术特点和优势,打造具备差异化竞争力的 AI 加速平台产品能力; 3.负责主流 AI 模型训练和推理性能优化调优工作,提升 AI 推理业务快速部署能力,提供平台算法优化加速能力,能够灵活使用 Triton,TensorRT 等业界主流推理服务和组件,深度结合云原生产品技术架构优势,输出面向不同场景的性能加速最佳实践解决方案; 4.负责跟踪 AI行业技术发展趋势,并进行深度探索分析,协同产品制订 AI 技术发展路线和产品规划; 5.探索自研AI芯片分布式训练与推理云化能力,打造自研 AI 芯片一体化解决方案能力。
【业务介绍】 我们是小红书内稠密类模型(LLM/MLLM/SD/CV/NLP)统一的AI平台QuickSilver,负责调度公司内所有稠密类模型训练与推理资源,基于自建的训推引擎,为公司所有AI算法同学迭代业务模型提供端到端一站式AI服务;包括数据管理,模型管理,模型训练、压缩、推理、部署,服务管理,资源调度等一系列能力。 工作职责: 1、负责稠密类模型训练推理开发平台的架构设计和核心功能研发 2、设计和实现大模型训练部署流程,包括模型fine-tuning、推理服务化等 3、构建云原生架构,设计高可用、高性能的微服务体系 4、优化平台性能,提升系统稳定性和可扩展性