logo of bilibili

哔哩哔哩基础设施平台高级研发工程师

社招全职3年以上技术类地点:上海状态:招聘

任职要求


1.计算机、通信及相关专业;
2.3年及以上大规模基础设施平台开发相关工作经验,了解技术细节及实现方式者优先;
3.熟练掌握Go(必须)C/C++/Python/Shell等语言;熟悉DPVS、XDP等相关基础服务软件代码或自动化运维平台开发者优先;
4.具备一定的网络知识,熟悉TCP/UDP/IP通信原理,了解BGP/IS-IS等路由协议;熟悉SNMP/Telemetry/PingMesh等网络监控方案,了解网络设备硬件与配置,有网络故障定位、网络设备运维经验者优先;

工作职责


1.负责B站大规模基础设施网络自动化管理平台设计与研发,提升网络设备资产管理、交付和变更管理等网络运维工作效率和质量;
2.负责B站大规模基础设施网络监控告警、故障定位和故障自愈平台设计与研发,保障基础设施网络的稳定性;
3.负责B站基础设施核心网络服务(网络负载均衡、NAT网关等)架构设计与研发,持续优化迭代功能、提升性能和稳定性;
包括英文材料
Go+
C+
C+++
Python+
Bash+
相关职位

logo of xiaohongshu
社招3-5年大模型

我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、负责大模型平台的架构设计和核心功能研发,构建云原生架构,设计高可用、高性能的微服务体系; 2、负责构建面向大模型全流程的DevOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地; 3、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、GPU虚拟化、存储&网络加速等手段,提升GPU集群使用效率; 4、将平台和框架结合,通过任务调度、弹性容灾、性能优化等措施端到端提升AI生产效率,涉及k8s/kubeflow、网络通信、分布式训练等; 5、优化各AI平台性能,提升系统稳定性和可扩展性,保障大规模并发场景下的服务质量与用户体验; 6、持续研究分析业内创新AI平台产品,优化技术方案,改进产品功能,提升创新能力与产品体验。

更新于 2025-10-18
logo of xiaohongshu
社招3年以上机器学习平台

1、负责模型训练平台核心功能开发和架构设计,包括传统CN/NLP/SD/LLM等多场景支持 2、负责大模型后训练工具平台化建设,包括后预训练、微调、对齐等技术落地 3、设计和实现高性能分布式训练系统,打造端到端训练解决方案 4、优化训练调度和资源管理,提升集群利用率和训练效率 5、开发模型训练监控诊断工具,建设可观测性体系

logo of xiaohongshu
社招3年以上机器学习平台

1、负责AI平台推理部署核心功能开发,包括服务管理、部署、发布等模块 2、设计并实现推理服务的自动化运维体系,包括监控、告警和运维工具 3、开发服务编排和调度系统,实现资源的高效分配和负载均衡 4、构建平台运维API和SDK,提供完整的服务生命周期管理能力 5、优化平台整体架构,提升系统可用性、扩展性和性能

logo of bytedance
社招RA161

1、负责字节跳动 TOD( To Developer )、TOB 技术产品前端研发工作( web、Node.js、小程序、ide插件、chrome 扩展 ),采用优秀技术方案保证平台稳定性、性能和体验; 2、参与公司开发者服务和云基础设施平台研发工作,如 DevOps 平台、代码仓库、发布平台、低代码、IDE 体系、质量平台、监控平台、服务治理平台等; 3、参与前端研发流程各阶段平台的方案设计、全栈开发和推广布道工作,为公司前端打造优秀研发体验; 4、积极参与业务讨论,通过技术手段提升研发效能和研发质量,并开发公共 SDK 输出到其他业务线(JS、Node.js)。

更新于 2021-08-11