logo of bytedance

字节跳动公共服务管理研发专家/架构师

社招全职3年以上A168337A地点:杭州状态:招聘

任职要求


1、本科及以上学历,计算机相关专业,并有三年及以上相关领域工作经验;
2、具备大型分布式系统或云计算领域的运维架构或开发经验,熟悉安全/网络架构设计,具备扎实的网络、计算机体系结构、中间件应用的知识;
3、熟悉 Linux 环境开发,具备扎实的编程能力,熟练掌握 Go/Python/C++/Java 中至少一门程序开发语言;
4、具备较强的问题分析与解决能力,能够解决复杂的系统问题;具备较好的产品和服务意识,愿意将产品效果作…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责火山引擎超大规模公共服务区与开发测试环境高效经营的平台工程建设,打造业界领先的云基础设施管理平台;
2、负责火山引擎的工程质量规范设计与优化,持续提升云服务版本的交付质量与升级效率,支撑业务高速迭代与稳定性建设;
3、负责火山引擎公共服务区技术架构的设计与演进,持续推进云基础设施的安全合规、稳定可靠、成本合理;
4、负责推进火山引擎基础设施管理工作朝着自动化、平台化、智能化方向演进,提升整体经营管理效率。
包括英文材料
学历+
分布式系统+
系统设计+
中间件+
Linux+
还有更多 •••
相关职位

logo of bytedance
社招3年以上A69768

1、负责火山引擎超大规模公共服务区与开发测试环境高效经营的平台工程建设,打造业界领先的云基础设施管理平台; 2、负责火山引擎的工程质量规范设计与优化,持续提升云服务版本的交付质量与升级效率,支撑业务高速迭代与稳定性建设; 3、负责火山引擎公共服务区技术架构的设计与演进,持续推进云基础设施的安全合规、稳定可靠、成本合理; 4、负责推进火山引擎基础设施管理工作朝着自动化、平台化、智能化方向演进,提升整体经营管理效率。

更新于 2023-12-18北京
logo of tencent
社招5年以上CSIG技术

1.负责腾讯云效能提升专项的制定和推进工作,能站在全局视野的高度,对DevOps一体化研发体系、公共研发平台以及一体化运营平台进行整体规划和设计,提升整体研发效率和交付质量;包括但不限于研发支撑、工具开发、流程和方法的优化与改进,提升研发和工程生产力和效率; 2.赋能产研团队,帮助业务识别和分析研发过程中的瓶颈和问题,并提出解决方案,设计、构建并推进各产品的需求、代码、测试、运维、发布等自动化和智能化落地; 3.协助业务发现和解决实际的技术问题,提供技术支持和工程赋能,确保团队的技术能力和知识水平的提升,改善研发环境和体验; 4.协调研发各个团队,对研发过程进行持续改进,提炼、总结、发掘优秀实践并在组织内传播,推动落地,保持研发管理体系和基础技术体系的先进性,并提升腾讯云在业界的技术影响力。

更新于 2025-06-13深圳
logo of aliyun
社招5年以上云智能集团

阿里云PAI团队致力于打造业界一流的一站式AI工程化平台,拥有万卡级训练能力与超大规模异构资源调度技术,为复杂模型训练与推理任务构建坚实基座。PAI平台不仅是通义大模型研发与落地的核心基础设施,也作为公共云服务的关键载体,支撑众多行企业构建大模型核心业务。平台提供从数据标注、预处理、模型训练、推理服务到开发环境与工作流调度的全链路工程支持,全面覆盖AI项目从实验探索到规模化落地的完整价值链。作为平台研发工程师,您将深度参与以下工作: 1. 负责大规模异构资源管理与模型训练服务的全流程开发,包括需求分析、架构设计、软件开发、质量保障与部署上线。 2. 持续开展系统模块的深度剖析与迭代优化,提升资源利用效率、任务成功率与启动速度,降低使用门槛,增强产品满意度与客户粘性。 3. 负责平台线上环境的实时监控、故障定位与性能调优,为客户提供及时的专业技术支持,保障平台服务的高可用与高稳定运行。 4. 紧密追踪大模型、AIGC等前沿技术趋势,洞察并提炼高价值用户需求,推动平台功能持续演进与技术架构升级。

更新于 2025-12-03北京
logo of aliyun
社招5年以上云智能集团

1. 建设灵骏在专属云场景监管控系统核心能力,不断提升专属云客户在云上使用灵骏智算集群产品的自动化、智能化程度。 2. 建设满足专属云业务场景和数据合规要求的智算集群库存管理体系,结合节点调度、性能分析、故障自动化处理、租户运维功能等核心体系能力,持续提升灵骏智算集群产品在专属云市场的产品竞争力。 3. 结合专属云特殊基础设施情况,建设智算集群和管控系统自身高可用体系,如智算集群健康检测、节点与集群异常快速处置体系、管控组件故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用、保障线上系统稳定性。 4. 建设异构算力统一管理及资源调度系统,持续智算集群资源利用率、降低计算成本。 5. 持续跟踪AI智算、云原生及智能运维领域新技术,结合业务场景进行创新。 6. 该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验。

更新于 2025-10-31北京|杭州