logo of bytedance

字节跳动数据库基础平台研发工程师(容器方向)

社招全职3年以上A230249地点:北京状态:招聘

任职要求


1、计算机相关专业本科及以上,熟悉Go/Java/Python语言中的一种,熟悉常用编程语言框架,3年以上工程实践经验,对代码质量有追求;
2、有大规模高并发、高可用应用的架构设计和开发运维经验,对可靠性、性…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责对基础平台k8s部署升级,并进行性能优化,参与k8s定制和改造工作,支撑业务混部、超卖和调度优化等需求;
2、负责构建监控告警等可观测平台,实时监控各业务运行状态,提供秒级的响应报警以及安全审计保障;
3、负责运营平台、应用变更运维平台、故障诊断、Devops等各类系统开发。
包括英文材料
Go+
Java+
Python+
高并发+
还有更多 •••
相关职位

logo of bytedance
社招3年以上A73594A

1、负责为数据库公有云、混合云打造统一底座,为 ToB 云产品提供统一的基础设施支持,支撑云产品对外输出; 2、负责提供通用的基础服务,包括集群管理、服务发现、云配置中心、资源调度、全链路监控、故障诊断、容量管理、灰度发布等重要能力,目标是构建无人值守的管控系统; 3、研究并提供数据库云上最佳实践,协同拉齐各个云产品的规范并推动落地,提升云产品的稳定性,减少开发和试错成本; 4、研究数据库多云管理、Serverless 等新型产品形态的基础架构,赋能数据库云产品。

更新于 2023-12-12北京
logo of aliyun
实习阿里云2026届

阿里云持续推进AI技术深化战略布局,围绕AI 和云计算的基础设施建设、AI基础模型平台、企业级AI应用方向构建核心场景。为此,我们正积极招募优秀人才: 负责云计算和大数据基础技术研发,包括不限于以下方向: 1、云基础设施技术,包括研发面向百万级服务器的网络(如RDMA、可编程芯片)、服务器(如异构计算)、数据中心,以及构建超大规模的基础设施智能化运维体系(如AIOps); 2、虚拟化技术,包括XEN、KVM等开源技术的改进,以及也包括我们自研的SDN、VPC等网络虚拟化、存储虚拟化技术,还包括Docker等轻量级的容器方案; 3、MySQL、PostgreSQL、MongoDB、Redis、HBase等开源数据库内核的改进; 4、包含单集群上万个节点,多地多集群的超大规模分布式存储系统(文件系统,KVstore,BigTable等等)、分布式计算系(MapReduce,DAG,MPI并行计算、Batch、类Hive/spark的计算系统包括离线,分布式开发语言,分布式开发IDE,查询优化,流式实时计算,图计算,MPP等等)、弹性分布式资源管理和调度(海量多维度的多目标的调度系统,多个资源维度资源隔离技术等等)、机器学习平台(包括Paratemter Server,深度学习,逻辑回归等等)、异构等新型硬件上计算(包括CPU,GPU,FPGA,RDMA等等); 5、大数据在线引擎体系的目标是集广告、搜索、推荐的投放三位于一体,在近百毫秒周期内,从服务端跨越至移动端上智能,支撑总体近TB级的模型,完成知识推理向量匹配等各种召回,以及其它深度学习的排序和预测算法,参与计算的数十亿商品保持实时更新,支持数百位算法工程师面向众多场景展开测试,在算子流图化的抽象之下,引擎内的模型和数据可随时调整布局满足迭代所需; 6、参与大规模高并发场景下的开发者工具如IDE、SDK、CLI的开发工作,toB相关认证、权限、审计平台合规等相关工具平台的研发工作。

更新于 2025-04-29北京|成都|杭州
logo of aliyun
社招5年以上云智能集团

阿里云PAI团队致力于打造业界一流的一站式AI工程化平台,拥有万卡级训练能力与超大规模异构资源调度技术,为复杂模型训练与推理任务构建坚实基座。PAI平台不仅是通义大模型研发与落地的核心基础设施,也作为公共云服务的关键载体,支撑众多行企业构建大模型核心业务。平台提供从数据标注、预处理、模型训练、推理服务到开发环境与工作流调度的全链路工程支持,全面覆盖AI项目从实验探索到规模化落地的完整价值链。作为平台研发工程师,您将深度参与以下工作: 1. 负责大规模异构资源管理与模型训练服务的全流程开发,包括需求分析、架构设计、软件开发、质量保障与部署上线。 2. 持续开展系统模块的深度剖析与迭代优化,提升资源利用效率、任务成功率与启动速度,降低使用门槛,增强产品满意度与客户粘性。 3. 负责平台线上环境的实时监控、故障定位与性能调优,为客户提供及时的专业技术支持,保障平台服务的高可用与高稳定运行。 4. 紧密追踪大模型、AIGC等前沿技术趋势,洞察并提炼高价值用户需求,推动平台功能持续演进与技术架构升级。

更新于 2025-12-03北京
logo of xiaohongshu
社招3年以上机器学习平台

1、负责AI平台推理部署核心功能开发,包括服务管理、部署、发布等模块 2、设计并实现推理服务的自动化运维体系,包括监控、告警和运维工具 3、开发服务编排和调度系统,实现资源的高效分配和负载均衡 4、构建平台运维API和SDK,提供完整的服务生命周期管理能力 5、优化平台整体架构,提升系统可用性、扩展性和性能

北京|上海|深圳