腾讯腾讯云-服务器性能调优专家
任职要求
1.本科及以上学历,5年以上服务器、数据中心或分布式系统性能优化经验,有大规模集群调优经验者优先; 2.深入理解服务器硬件架构(x86/ARM)、操作系统原理及内核机制(进程调度、内存管理、I/O栈)。熟悉云计算平台的服务器性能优化,或有超算中心调优经验; 3.熟练使用性能分析工具链(如FlameGrap…
工作职责
1.负责服务器整体性能(CPU、内存、存储、网络、I/O等)的深度分析与瓶颈定位,提出并实施优化方案; 2.针对高并发、低延迟、高吞吐量场景(如云计算、AI训练、大数据处理等),优化服务器硬件与软件的协同性能; 3.开发自动化性能监控与诊断工具,构建性能分析模型,实现问题预测与快速定位; 4.与硬件团队、软件架构师、内核开发人员及业务部门合作,推动性能优化方案落地(如NUMA调优、CPU调度策略、内存分级管理等); 5.支持客户或业务团队解决实际生产环境中的性能瓶颈问题,提供技术指导与优化报告; 6.跟踪服务器领域技术趋势(如DPU/IPU加速、CXL内存扩展、新型存储协议),探索性能提升的创新方向。
1、主导《三国志·战略版》服务端核心逻辑开发与迭代 2、负责线上服务器性能调优及分布式系统架构优化 3、参与游戏核心系统工具链开发及自动化运维体系搭建 4、编写高质量、可扩展的服务器代码,保障服务端稳定性
1. 依据公共云统一架构、OpenAPI规范、软件技术栈以及交付运维体系,负责专属云产品的研发与交付。深度参与灵骏裸金属服务器及EGS云计算服务器的研发流程,包括硬件架构预研、方案设计、软硬件结合的系统优化、线上服务质量保证以及提供专家技术支持等关键环节,确保产品从研发到运维的全生命周期高效管理。 2. 跟踪并把握GPU架构设计的发展趋势,探索前沿的GPU架构设计技术。联合高性能网络团队共同设计网络互联架构,针对分布式训练和推理业务场景,在软硬件协同及高性能网络方向上寻找性能优化的新途径,构建阿里云加速计算云服务器的核心竞争力。 3. 研发并持续改进系统的稳定性和安全性,确保平台的安全可靠运行,并不断提升对外服务质量标准。
1.负责服务器GPU超节点软件系统方案,主导互连软件的架构设计、研发交付、应用优化(训练及推理场景下SHMEM技术,KV Cache,共享内存,互连传输软件)等, 参与模块实现,问题攻关; 2.参与下一代数据中心服务器超节点定义、如数据面软硬件协同方案; 3. 参与行业领先的互连标准定义,以及行业生态的推动及落地; 4. 参与创新研究,发表相关技术论文,申请专利。
1、Kubernetes架构设计与开发: 深入理解Kubernetes原生架构的设计理念,参与并主导Kubernetes核心组件的开发和实现。 2、性能调优与优化: 通过监控工具(如Prometheus、Grafana)对Kubernetes集群进行全面性能分析,并优化关键节点、组件和流程,以提升整体系统的稳定性和响应速度。 3、集群部署与运维: 独立负责Kubernetes集群的稳定部署、监控与维护工作,确保集群在高负载环境下的可靠运行。 4、平台化能力建设: 研究并实施Kubernetes平台化的能力建设,提升平台的扩展性、可用性和可管理性。 5、跟踪云原生生态的最新发展趋势,研究并应用新技术以提升底座的稳定性、可扩展性、可维护性。