logo of bytedance

字节跳动SRE工程师-AI平台(上海/北京/深圳)

社招全职A194327C地点:上海状态:招聘

任职要求


1、本科及以上学历,计算机、软件工程等相关专业优先;
2、熟悉Linux,熟练掌握Mysql/Redis/PostgreSQL/MongoDB等数据库技术原理之一,具备生产问题的快速定位与解决能力;
3、熟悉Python/Golang等开发语言之一;
4、有向量数据库领域工作经验,了解主流向量数据库系统,如Milvus、Faiss、Vector等;
5、熟悉KubernetesDocker、Operator等云原生/容器相关技术;
6、逻辑思维能力强,责任心强,学习能力和钻研精神突出,对技术充满热情,具备快速定位和独立解决问题的能力,以及良好的逻辑表达、沟通和技术文档撰写能力。

加分项:
1、具有公有云或企业私有云平台相关实践经验者优先,有大规模数据库运维经验者优先;
2、有大模型应用平台使用经验者优先,例如:扣子、百炼和千帆等。

工作职责


1、承担AI私有化产品数据库及中间件的运维支持、性能优化、监控与故障诊断等任务;
2、负责AI私有化产品的容量规划、自动化部署、容灾演练,以及故障处理所需工具和系统的开发;
3、推进AI私有化产品的持续集成与交付,实现高效且自动化的运维优化,增强服务的稳定性并提升研发效率。
包括英文材料
学历+
Linux+
MySQL+
Redis+
PostgreSQL+
MongoDB+
Python+
Go+
Faiss+
Kubernetes+
Docker+
大模型+
相关职位

logo of bytedance
社招1-3年A182815A

1、深入理解国际化短视频创作和社交等业务场景在生成式AI应用过程中的资源利用和管理; 2、负责设计和落地成本和资源管理解决方案,包括但不限于资源利用率监控和管理、基础设施资源和业务容量规划、需求和预算管理、保障国际化短视频业务的重大活动资源管理; 3、负责搭建完善的资源监控系统,监控和管理GPU/CPU、存储等资源的利用率和成本,提出资源和成本优化建议; 4、负责服务售卖相关商品定价、规划内容; 5、主导并推进上述资源管理解决方案落地到产品工具中,实现自动化的平台化能力。

更新于 2025-01-07
logo of bytedance
社招A253750A

团队介绍:TikTok是一个覆盖150个国家和地区的国际短视频平台,我们希望通过TikTok发现真实、有趣的瞬间,让生活更美好。TikTok 在全球各地设有办公室,全球总部位于洛杉矶和新加坡,办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。 TikTok直播研发团队,旨在实现TikTok直播业务的研发工作,搭建及维护业界领先的产品。 加入我们,你能接触到包括:社交互动、营收活动、主播生态、消费订阅、游戏直播、公会&运营平台等核心业务场景,支持产品在全球赛道上高速发展; 也能接触到包括服务架构、大模型算法、基础技术等方向上的技术挑战,保障业务持续高质量、高效率、且安全地为用户服务;同时还能为不同业务场景提供全面的技术解决方案,优化各项产品指标及用户体验。 在这里, 有大牛带队与大家一同不断探索前沿, 突破想象空间。 在这里,你的每一行代码都将服务亿万用户。 在这里,团队专业且纯粹,合作氛围平等且轻松。 目前在北京,上海,杭州、广州、深圳分别开放多个岗位机会。 1、负责TikTok直播稳定性建设,保障和优化直播业务SLA; 2、海外多机房容灾建设,重大风险发现和治理,资源规划与重点活动保障; 3、系统性设计并实施容灾、容错、限流、降级、故障自愈等稳定性方案; 4、AI工具探索,提升故障发现、定位、止损效率。

更新于 2025-04-02
logo of xiaohongshu
社招3年以上运维开发

负责AI平台基础设施的可靠性设计、监控告警、容量规划和性能优化 设计并实施平台的高可用性方案,制定灾备预案和故障响应机制 建立和完善AI平台的可观测性体系,包括日志、metrics、链路追踪等 负责自动化运维工具开发,提升平台运维效率和服务质量 分析和解决系统性能瓶颈,优化资源利用率 参与重大故障定位分析,制定改进方案并跟进落地 持续优化SLO指标,确保平台的稳定性和可靠性

更新于 2025-07-05
logo of bytedance
社招1年以上A185243

团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责维护机器学习系统的稳定运转,支持大模型的开发、训练与部署的多个环节; 2、负责集团GPU资源的管理与规划,成本与预算,包括: GPU/CPU机器资源,存储等资源,为管理层提供资源决策数据; 3、负责集群、业务服务的稳定性治理,资源利用率提升和运维人效提升,通过平台化系统化的手段提升资源使用的效率; 4、负责多地域、多机房的系统容灾、服务部署管理和集群机器治理,提供稳定高效的GPU系统运行环境; 5、负责系统和业务的运维支持,参与业务和系统的Troubleshooting工作。

更新于 2024-11-22