腾讯腾讯云-服务器性能调优专家
社招全职5年以上腾讯云技术地点:深圳状态:招聘
任职要求
1.本科及以上学历,5年以上服务器、数据中心或分布式系统性能优化经验,有大规模集群调优经验者优先; 2.深入理解服务器硬件架构(x86/ARM)、操作系统原理及内核机制(进程调度、内存管理、I/O栈)。熟悉云计算平台的服务器性能优化,或有超算中心调优经验; 3.熟练使用性能分析工具链(如FlameGrap…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1.负责服务器整体性能(CPU、内存、存储、网络、I/O等)的深度分析与瓶颈定位,提出并实施优化方案; 2.针对高并发、低延迟、高吞吐量场景(如云计算、AI训练、大数据处理等),优化服务器硬件与软件的协同性能; 3.开发自动化性能监控与诊断工具,构建性能分析模型,实现问题预测与快速定位; 4.与硬件团队、软件架构师、内核开发人员及业务部门合作,推动性能优化方案落地(如NUMA调优、CPU调度策略、内存分级管理等); 5.支持客户或业务团队解决实际生产环境中的性能瓶颈问题,提供技术指导与优化报告; 6.跟踪服务器领域技术趋势(如DPU/IPU加速、CXL内存扩展、新型存储协议),探索性能提升的创新方向。
包括英文材料
学历+
分布式系统+
https://www.distributedsystemscourse.com/
The home page of a free online class in distributed systems.
https://www.youtube.com/watch?v=7VbL89mKK3M&list=PLOE1GTZ5ouRPbpTnrZ3Wqjamfwn_Q5Y9A
内核+
https://www.youtube.com/watch?v=C43VxGZ_ugU
I rummage around the Linux kernel source and try to understand what makes computers do what they do.
https://www.youtube.com/watch?v=HNIg3TXfdX8&list=PLrGN1Qi7t67V-9uXzj4VSQCffntfvn42v
Learn how to develop your very own kernel from scratch in this programming series!
https://www.youtube.com/watch?v=JDfo2Lc7iLU
Denshi goes over a simple explanation of what computer kernels are and how they work, alonside what makes the Linux kernel any special.
eBPF+
https://ebpf.io/get-started/
eBPF is a revolutionary technology that can run sandboxed programs in the Linux kernel without changing kernel source code or loading a kernel module.
Perf+
https://perfwiki.github.io/main/
perf is powerful: it can instrument CPU performance counters, tracepoints, kprobes, and uprobes (dynamic tracing).
https://www.brendangregg.com/bpf-performance-tools-book.html
This book can help you get the most out of your systems and applications, helping you improve performance, reduce costs, and solve software issues.
[英文] perf Examples
https://www.brendangregg.com/perf.html
These are some examples of using the perf Linux profiler, which has also been called Performance Counters for Linux (PCL), Linux perf events (LPE), or perf_events.
https://www.youtube.com/watch?v=M6ldFtwWup0
Prometheus+
https://grafana.com/docs/grafana/latest/getting-started/get-started-grafana-prometheus/
Prometheus is an open source monitoring system for which Grafana provides out-of-the-box support.
https://prometheus.io/docs/tutorials/getting_started/
Prometheus is a system monitoring and alerting system.
还有更多 •••
相关职位
社招3年以上技术类-开发
1. 负责Accio AI产品的研发,包括需求分析,系统设计,用 AI IDE 写代码,编写单测,模块数据分析,监控运维等; 2. 能够进行技术攻坚,架构优化,性能优化,并能能够自驱定义问题,解决问题,追过程,拿结果; 3. 主观能动性好,能够持续学习,特别是 AI 技术的发展和落地应用,提升产品效果,工程效率,技术先进性。
更新于 2025-07-28杭州
社招5年以上云智能集团
1. 依据公共云统一架构、OpenAPI规范、软件技术栈以及交付运维体系,负责专属云产品的研发与交付。深度参与灵骏裸金属服务器及EGS云计算服务器的研发流程,包括硬件架构预研、方案设计、软硬件结合的系统优化、线上服务质量保证以及提供专家技术支持等关键环节,确保产品从研发到运维的全生命周期高效管理。 2. 跟踪并把握GPU架构设计的发展趋势,探索前沿的GPU架构设计技术。联合高性能网络团队共同设计网络互联架构,针对分布式训练和推理业务场景,在软硬件协同及高性能网络方向上寻找性能优化的新途径,构建阿里云加速计算云服务器的核心竞争力。 3. 研发并持续改进系统的稳定性和安全性,确保平台的安全可靠运行,并不断提升对外服务质量标准。
更新于 2025-11-09杭州|上海
社招7年以上云智能集团
1.负责服务器GPU超节点软件系统方案,主导互连软件的架构设计、研发交付、应用优化(训练及推理场景下SHMEM技术,KV Cache,共享内存,互连传输软件)等, 参与模块实现,问题攻关; 2.参与下一代数据中心服务器超节点定义、如数据面软硬件协同方案; 3. 参与行业领先的互连标准定义,以及行业生态的推动及落地; 4. 参与创新研究,发表相关技术论文,申请专利。
更新于 2025-08-01北京|上海|深圳