logo of bytedance

字节跳动SRE工程师-AI平台(上海/北京/深圳)

社招全职A194327C地点:上海状态:招聘

任职要求


1、本科及以上学历,计算机、软件工程等相关专业优先;
2、熟悉Linux,熟练掌握Mysql/Redis/PostgreSQL/MongoDB等数据库技术原理之一,具备生产问题的快速定位与解决能力;
3、熟悉Python/Golang等开发语言之一;
4、有向量数据库领域工作经验,了解主流向量数据库系统,如Milvus、Faiss、Vector等;
5、熟悉Kubern…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、承担AI私有化产品数据库及中间件的运维支持、性能优化、监控与故障诊断等任务;
2、负责AI私有化产品的容量规划、自动化部署、容灾演练,以及故障处理所需工具和系统的开发;
3、推进AI私有化产品的持续集成与交付,实现高效且自动化的运维优化,增强服务的稳定性并提升研发效率。
包括英文材料
学历+
Linux+
MySQL+
Redis+
PostgreSQL+
MongoDB+
还有更多 •••
相关职位

logo of bytedance
社招1-3年A182815A

1、深入理解国际化短视频创作和社交等业务场景在生成式AI应用过程中的资源利用和管理; 2、负责设计和落地成本和资源管理解决方案,包括但不限于资源利用率监控和管理、基础设施资源和业务容量规划、需求和预算管理、保障国际化短视频业务的重大活动资源管理; 3、负责搭建完善的资源监控系统,监控和管理GPU/CPU、存储等资源的利用率和成本,提出资源和成本优化建议; 4、负责服务售卖相关商品定价、规划内容; 5、主导并推进上述资源管理解决方案落地到产品工具中,实现自动化的平台化能力。

更新于 2025-01-07上海
logo of bytedance
社招A253750A

团队介绍:TikTok是一个覆盖150个国家和地区的国际短视频平台,我们希望通过TikTok发现真实、有趣的瞬间,让生活更美好。TikTok 在全球各地设有办公室,全球总部位于洛杉矶和新加坡,办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。 TikTok直播研发团队,旨在实现TikTok直播业务的研发工作,搭建及维护业界领先的产品。 加入我们,你能接触到包括:社交互动、营收活动、主播生态、消费订阅、游戏直播、公会&运营平台等核心业务场景,支持产品在全球赛道上高速发展; 也能接触到包括服务架构、大模型算法、基础技术等方向上的技术挑战,保障业务持续高质量、高效率、且安全地为用户服务;同时还能为不同业务场景提供全面的技术解决方案,优化各项产品指标及用户体验。 在这里, 有大牛带队与大家一同不断探索前沿, 突破想象空间。 在这里,你的每一行代码都将服务亿万用户。 在这里,团队专业且纯粹,合作氛围平等且轻松。 目前在北京,上海,杭州、广州、深圳分别开放多个岗位机会。 1、负责TikTok直播稳定性建设,保障和优化直播业务SLA; 2、海外多机房容灾建设,重大风险发现和治理,资源规划与重点活动保障; 3、系统性设计并实施容灾、容错、限流、降级、故障自愈等稳定性方案; 4、AI工具探索,提升故障发现、定位、止损效率。

更新于 2025-04-02北京
logo of xiaohongshu
社招3年以上运维开发

负责AI平台基础设施的可靠性设计、监控告警、容量规划和性能优化 设计并实施平台的高可用性方案,制定灾备预案和故障响应机制 建立和完善AI平台的可观测性体系,包括日志、metrics、链路追踪等 负责自动化运维工具开发,提升平台运维效率和服务质量 分析和解决系统性能瓶颈,优化资源利用率 参与重大故障定位分析,制定改进方案并跟进落地 持续优化SLO指标,确保平台的稳定性和可靠性

更新于 2025-07-05北京|上海|杭州
logo of aliyun
社招5年以上云智能集团

1. 负责AI交易平台业务的云原生基础设施建设与运维,保障Kubernetes(K8s)平台及容器化应用的高可用、高性能; 2. 负责基础设施全生命周期管理,包括但不限于阿里云资源、Flink实时计算集群,以及AI应用所需的MCP服务、Runtime调度、模型服务等组件的部署、监控、优化与故障排查; 3. 参与SRE体系的架构设计与技术演进,通过IaC(基础设施即代码)、CI/CD等理念,主导或参与自动化运维平台/工具的开发,提升研发与交付效率; 4. 关注云原生及AI基础设施领域的技术发展趋势,并将其应用于稳定性保障、成本优化和效率提升的实践中。

更新于 2025-11-05上海