字节跳动Kubernetes 技术专家

社招全职A479562023-12-15地点：杭州状态：招聘

扫码手机上打开

任职要求

1、具备扎实的计算机理论基础，有扎实的操作系统，体系结构，数据结构和算法功底； 
2、精通Go，Python，Rust，C/C++ 等编程语言一个或多个；    …

登录查看完整任职要求

微信扫码，1秒登录

工作职责

团队负责数百万节点的云原生基础设施，支撑公司的所有产品线。目前在 kubernetes 集群管控技术，运行时资源优化，多云多集群，云原生基础设施稳定性保障方面都会比较深入的技术积累，并且开源有 kubebrain, katalyst 等云原生基础技术相关项目，团队持续围绕以资源并池，资源弹性为中心的基础技术研发和突破。

1、构建超大规模的 kubernetes 集群，推进系统架构演化和设计，持续优化管控系统在大数据/ML等场景下的性能和稳定性；
2、定义 kubernetes 集群的 SLO，持续优化端到端的延迟，分析性能瓶颈，输出解决方案，并推动上线和落地；
3、持续构建和完善 kubernetes 集群的可观测性，提升问题定位效率，并且建立可观测性数据仓库，通过数据驱动的方式优化集群性能。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

数据结构+

算法+

Go+

Python+

还有更多 •••

登录查看完整学习资料

相关职位

大规模GPU集群调度优化工程师/专家

社招引擎

大模型具备很强的泛化及理解世界能力，在小红书内的众多生产场景遍地开花，大模型的训练和部署已成为许多算法工程师的日常。在多团队、多业务频繁使用的大规模GPU集群上，如何能够通过高效的GPU调度策略，使大家不仅能丝滑地完成训练及部署任务，同时也能充分激发大规模GPU集群的效能，是行业公认的关键挑战。在这里，你可以聚焦LLM场景，接触到超大规模GPU集群，并使用真实负载数据进行深入分析及技术探索。欢迎加入我们，一起探索领先技术改变世界！工作职责： 1、负责万卡规模GPU集群效能分析及优化，通过调度策略优化、在离线混部、集群调度、GPU虚拟化、故障快速恢复、存储&网络加速等手段，提升大规模GPU集群的整体使用效率。 2、负责构建面向大模型训练、微调、推理、部署全流程LLMOps，与下游云原生平台深度融合，支撑大模型在公司内各业务生产链路稳定高效地落地。 3、持续关注业界最新的GPU资源调度相关技术动态，探索建设业界领先的资源调度策略及方法，构建下一代大规模AI资源调度系统。

北京|上海

spark组件专家

社招6年以上信息技术类

1.大数据新技术规划、调研、选型及推广落地。 2.负责大数据组件内核开发优化，推进组件容器化，进行组件二次开发与适配等工作。 3.日常负责大数据框架组件的性能优化，稳定性保障，异常监控及线上问题对接解决。 4.参与平台功能研发，提供业务系统化的解决方案。

更新于 2025-04-03南京|上海|深圳

资深后台开发/技术专家（广告投放）

社招信息技术类

- 主导电商场景下推荐系统的整体架构设计和核心模块开发，构建高效、智能的推荐体系，助力业务目标达成。 - 负责电商场景下流量分发体系的搭建与优化，基于大数据处理技术，提升推荐算法的准确性和实时性。

更新于 2025-04-16深圳

阿里云智能-技术服务专家-政务云-杭州/西安

社招5年以上云智能集团

1、负责阿里云专有云IAAS/大模型/PAAS/大数据/中间件等产品的运维专家支持、整体解决方案服务及优化建议，使客户的IT架构、性能等层面得到更好的优化与提升，制定相关的技术方案并予以支持落地。 2、负责对事件、故障的跟踪、剖析、总结与知识库沉淀，出具技术方案并推动相关产品团队解决落地，同时赋能一线运维团队自运维能力； 3、负责产品巡检工具与问题诊断分析工具开发，提升客户云平台的预警与异常自发现能力，提升用户的满意度。 4、直面AI智能运维、云原生Serverless架构、全业务容灾、系统自治等巅峰挑战，提供技术底盘及业务能力支持。 5、完成核心技术攻关，识别和解决潜在的技术风险

更新于 2025-08-27杭州|西安