字节跳动高级研发工程师/架构师-DevOps AI方向
任职要求
1、本科及以上学历,计算机相关专业,3年及研发以上工作经验; 2、具备扎实的软件开发基本功,熟练掌握C,C++,Golang,Java,Python中至少一种编程语言; 3、具备优秀的学习能力、能够快速探索并实践全新的领域技能; 4、具…
工作职责
1、Devops Agent:建设智能Agent能力,打通Devops工具链,AI驱动CICD流程,实现集成编译、测试、发布无人值守; 2、通用排障:对日志、服务、平台异常进行归因分析,智能调用和执行工具,对异常问题进行自动修复,提供平台自动化程度; 3、探索并打造企业级LLM应用研发基础设施,建设LLM应用开发的接入平台及基础框架能力。
1、参与投入DevOps AI方向,积极探索大型语言模型(LLM)在Devops应用,通过LLM重构DevOps工具链,打造智能化研发效能平台,实现代码全生命周期管理的自动化、预测性与自愈能力,推动软件交付效率指数级提升; 2、具体场景包括但不限于: 1)Devops Agent:建设智能Agent能力,打通Devops工具链,AI驱动CICD流程,实现集成编译、测试、发布无人值守; 2)通用排障:对日志、服务、平台异常进行归因分析,智能调用和执行工具,对异常问题进行自动修复,提供平台自动化程度; 3)探索并打造企业级LLM应用研发基础设施,建设LLM应用开发的接入平台及基础框架能力。
工作职责: 1、负责大模型平台的架构设计和核心功能研发,构建云原生架构,设计高可用、高性能的微服务体系; 2、负责构建面向大模型全流程的DevOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地; 3、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、GPU虚拟化、存储&网络加速等手段,提升GPU集群使用效率; 4、将平台和框架结合,通过任务调度、弹性容灾、性能优化等措施端到端提升AI生产效率,涉及k8s/kubeflow、网络通信、分布式训练等; 5、优化各AI平台性能,提升系统稳定性和可扩展性,保障大规模并发场景下的服务质量与用户体验; 6、持续研究分析业内创新AI平台产品,优化技术方案,改进产品功能,提升创新能力与产品体验。
1、负责AI平台推理部署核心功能开发,包括服务管理、部署、发布等模块 2、设计并实现推理服务的自动化运维体系,包括监控、告警和运维工具 3、开发服务编排和调度系统,实现资源的高效分配和负载均衡 4、构建平台运维API和SDK,提供完整的服务生命周期管理能力 5、优化平台整体架构,提升系统可用性、扩展性和性能