字节跳动Kubernetes 技术专家
任职要求
1、具备扎实的计算机理论基础,有扎实的操作系统,体系结构,数据结构和算法功底; 2、精通Go,Python,Rust,C/C++ 等编程语言一个或多个; …
工作职责
团队负责数百万节点的云原生基础设施,支撑公司的所有产品线。目前在 kubernetes 集群管控技术,运行时资源优化,多云多集群,云原生基础设施稳定性保障方面都会比较深入的技术积累,并且开源有 kubebrain, katalyst 等云原生基础技术相关项目,团队持续围绕以资源并池,资源弹性为中心的基础技术研发和突破。 1、构建超大规模的 kubernetes 集群,推进系统架构演化和设计,持续优化管控系统在大数据/ML等场景下的性能和稳定性; 2、定义 kubernetes 集群的 SLO,持续优化端到端的延迟,分析性能瓶颈,输出解决方案,并推动上线和落地; 3、持续构建和完善 kubernetes 集群的可观测性,提升问题定位效率,并且建立可观测性数据仓库,通过数据驱动的方式优化集群性能。
大模型具备很强的泛化及理解世界能力,在小红书内的众多生产场景遍地开花,大模型的训练和部署已成为许多算法工程师的日常。在多团队、多业务频繁使用的大规模GPU集群上,如何能够通过高效的GPU调度策略,使大家不仅能丝滑地完成训练及部署任务,同时也能充分激发大规模GPU集群的效能,是行业公认的关键挑战。在这里,你可以聚焦LLM场景,接触到超大规模GPU集群,并使用真实负载数据进行深入分析及技术探索。欢迎加入我们,一起探索领先技术改变世界! 工作职责: 1、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、集群调度、GPU虚拟化、故障快速恢复、存储&网络加速等手段,提升大规模GPU集群的整体使用效率。 2、负责构建面向大模型训练、微调、推理、部署全流程LLMOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地。 3、持续关注业界最新的GPU资源调度相关技术动态,探索建设业界领先的资源调度策略及方法,构建下一代大规模AI资源调度系统。
1.大数据新技术规划、调研、选型及推广落地。 2.负责大数据组件内核开发优化,推进组件容器化,进行组件二次开发与适配等工作。 3.日常负责大数据框架组件的性能优化,稳定性保障,异常监控及线上问题对接解决。 4.参与平台功能研发,提供业务系统化的解决方案。
- 主导电商场景下推荐系统的整体架构设计和核心模块开发,构建高效、智能的推荐体系,助力业务目标达成。 - 负责电商场景下流量分发体系的搭建与优化,基于大数据处理技术,提升推荐算法的准确性和实时性。
1、负责阿里云专有云IAAS/大模型/PAAS/大数据/中间件等产品的运维专家支持、整体解决方案服务及优化建议,使客户的IT架构、性能等层面得到更好的优化与提升,制定相关的技术方案并予以支持落地。 2、负责对事件、故障的跟踪、剖析、总结与知识库沉淀,出具技术方案并推动相关产品团队解决落地,同时赋能一线运维团队自运维能力; 3、负责产品巡检工具与问题诊断分析工具开发,提升客户云平台的预警与异常自发现能力,提升用户的满意度。 4、直面AI智能运维、云原生Serverless架构、全业务容灾、系统自治等巅峰挑战,提供技术底盘及业务能力支持。 5、完成核心技术攻关,识别和解决潜在的技术风险