字节跳动云计算IaaS研发工程师
任职要求
1、熟练使用Golang/Python/Java进行后端开发工作,两年以上相关工作经验; 2、熟悉Linux编程环境,能熟练使用Linux各种 troubleshooting工具; 3、熟悉Linux下,网络、存储,多进程和多线程编程; 具…
工作职责
1、负责字节跳动IaaS产品的设计与研发工作; 2、结合业界先进技术,对IaaS现有产品进行改进优化,保障稳定性和用户体验。
1.负责稳定性治理工具体系的研发, 包括但不限于拨测、风险扫描等; 2.协助IaaS/PaaS产品研发效能提升,提升整体研发效率和交付质量,包括但不限于研发支撑、工具开发、流程和方法的优化与改进,提升研发和工程生产力和效率; 3.协助业务发现和解决实际的技术问题,提供技术支持和工程赋能,确保团队的技术能力和知识水平的提升,改善研发环境和体验。

1、负责容器云平台后端系统的架构设计、功能开发; 2、负责云原生产品及K8S周边生态技术架构演进,实现多集群管理、Serverless化、service mesh、container runtime等; 3、负责容器云平台的安全和稳定运营,关注安全风险、平台高可用、性能等非功能性需求。 4、负责解决容器云平台线上问题。
1、结合字节跳动的产品,技术,生态优势,为客户定制云化解决方案,和产品和服务团队一起进行技术,业务验证等技术工作; 2、为客户提供业务和技术层面的架构咨询服务,理解合作伙伴及客户的业务和功能性需求,非功能性需求,性能和可靠性需求,提供基于字节跳动技术体系的架构设计方案,支持客户或合作伙伴成功地在字节跳动云产品上构建上层应用系统和服务; 3、与行业解决方案和产品研发团队合作,传递市场需求,共同研发或完善满足特定行业,特定应用场景的产品和解决方案; 4、基于业务行业方向,基于云计算,大数据,人工智能,孵化创新性解决方案。
-参与 AI Infra 核心平台建设,支撑大模型训练与推理业务的稳定、高效运行,覆盖 GPU、RDMA、高速网络等算力资源在云原生体系中的统一管理与调度 -负责 GPU、RDMA 等 IaaS 资源的自动化准入、能力识别、基准测试与性能评测,建设标准化算力验收与持续评测体系,保障不同硬件规格在大规模集群下的可用性与一致性 -负责 Kubernetes 容器平台的架构设计、能力演进与稳定性治理,重点关注平台的高可用、稳定性、安全性、性能、可扩展性等非功能性指标,参与或主导调度、资源隔离、设备插件(GPU/RDMA)、网络或存储相关模块的设计与二次开发 -支撑大模型推理与训练业务在平台侧的工程化落地,关注推理与训练场景下的资源利用率、调度效率、显存管理与多租户隔离,与算法、引擎团队协作,推动性能优化能力在平台层的规模化复用 -参与多卡、多机、大规模 GPU 集群的资源调度与稳定性建设,支撑 TP/DP/PP/PD 等并行模式在平台侧的运行与管理,解决实际生产环境中的性能抖动、资源碎片化与容量规划问题 -参与运维与运营平台后端研发,支撑算力运营、性能监控、容量管理与成本治理,建设可观测体系(监控、日志、Tracing),推动问题发现与定位的自动化,通过工程化手段持续降低人工运维成本