字节跳动云原生高级研发工程师 - 调度系统方向
任职要求
1、具备扎实的数据结构和算法基本功,熟悉常见的调度算法; 2、深入理解 Kubernetes、Mesos、Yarn 等一个或多个系统的调度实现; 3、熟悉云原生、机器学习等相关技术; 4、具备较强的数据分析和建模能力; 5…
工作职责
字节跳动从2015年开始构建云原生体系,拥抱Go语言社区,采用Kubernetes和容器作为在离线应用运行环境的统一标准。团队负责构建字节跳动内部容器云平台,以超大规模的容器集群支撑了字节内部和火山的所有产品线,涵盖今日头条、抖音、西瓜视频等业务;覆盖了在线服务、离线大数据、机器学习大模型训练等多种应用场景;建设了全球多个地区的基础设施;保障了万卡异构资源训练集群、亿级别离线容器集群的稳定运行。在持续多年的快速增长中,积累了丰富的Kubernetes和容器大规模应用管理经验。我们旨在打造覆盖多业务、多场景和多地域的百万节点级的容器平台。 1、负责字节跳动云计算底层在离线统一调度系统的构建和维护; 2、负责字节跳动云计算底层智能策略系统的构建和维护; 3、负责优化系统的可用性和稳定性,提升资源利用率。
工作职责: 1、负责大模型平台的架构设计和核心功能研发,构建云原生架构,设计高可用、高性能的微服务体系; 2、负责构建面向大模型全流程的DevOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地; 3、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、GPU虚拟化、存储&网络加速等手段,提升GPU集群使用效率; 4、将平台和框架结合,通过任务调度、弹性容灾、性能优化等措施端到端提升AI生产效率,涉及k8s/kubeflow、网络通信、分布式训练等; 5、优化各AI平台性能,提升系统稳定性和可扩展性,保障大规模并发场景下的服务质量与用户体验; 6、持续研究分析业内创新AI平台产品,优化技术方案,改进产品功能,提升创新能力与产品体验。
1、负责模型训练平台核心功能开发和架构设计,包括传统CN/NLP/SD/LLM等多场景支持 2、负责大模型后训练工具平台化建设,包括后预训练、微调、对齐等技术落地 3、设计和实现高性能分布式训练系统,打造端到端训练解决方案 4、优化训练调度和资源管理,提升集群利用率和训练效率 5、开发模型训练监控诊断工具,建设可观测性体系
作为具身智能开放平台团队的核心成员,参与具身智能的核心组件、服务框架和生态平台的研发工作,帮助开发者高效地利用具身大模型能力,实现机器人应用的快速落地,您将参与如下工作: 1.平台核心架构研发: 参与具身智能开放平台 后端服务 的设计、开发和维护,包括高并发、低延迟的 API 网关、任务调度系统和云边协同架构。 2.AI与具身集成: 设计和实现 大模型(LLM/VLM)与机器人控制系统 之间的通信接口和数据转换服务,确保高级语义指令(如自然语言)能稳定、高效地转化为机器人可执行的动作序列。 3.开发者生态工具: 负责开发和优化平台 SDK、API 接口和后台管理系统,为全球机器人开发者提供友好、强大的工具和服务。 4.数据与存储服务: 构建和维护机器人感知数据、行为数据和模型训练数据的存储、索引及检索服务,确保数据的高可靠性和高吞吐量。 5.性能优化与稳定性: 负责解决系统瓶颈,进行代码重构和性能调优,确保平台在数千台甚至数万台机器人并发连接下的高可用性和稳定性。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、负责大模型平台的架构设计和核心功能研发,构建云原生架构,设计高可用、高性能的微服务体系; 2、负责构建面向大模型全流程的DevOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地; 3、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、GPU虚拟化、存储&网络加速等手段,提升GPU集群使用效率; 4、将平台和框架结合,通过任务调度、弹性容灾、性能优化等措施端到端提升AI生产效率,涉及k8s/kubeflow、网络通信、分布式训练等; 5、优化各AI平台性能,提升系统稳定性和可扩展性,保障大规模并发场景下的服务质量与用户体验; 6、持续研究分析业内创新AI平台产品,优化技术方案,改进产品功能,提升创新能力与产品体验。