logo of tencent

腾讯腾讯云-计算Iaas产品SRE工程师

社招全职3年以上CSIG技术地点:深圳状态:招聘

任职要求


1.本科以上学历,具备3年以上开发经验; 至少精通1门开发语言(Python/Go/C/C++);
2.熟悉Linux开发环境,熟悉MYSQL或其他大型数据库,熟悉Web开发框架优先;
3.有运维自动化、监控系统、发布系统、运营支撑系统等开发经验者优先;
…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.负责腾讯云基础设施运营平台系统的架构设计和开发,包括监控告警、自动化平台、运营分析和大数据处理集群等系统的开发与维护;
2.通过运维自动化、智能化的建设,提升腾讯云运维效率与质量;
3.通过机器学习、海量数据处理等相关技术,支持腾讯云智能化运维及精细化运营。
包括英文材料
学历+
Python+
Go+
C+
C+++
Linux+
还有更多 •••
相关职位

logo of tencent
社招5年以上CSIG产品

1.负责腾讯云公有云客户云上售后SRE专家支持工作,为客户提供容灾高可用,业务部署优化,架构优化,成本优化,容量管理,业务连续性治理等方面的专家服务; 2.帮助客户进行应用部署架构的梳理与优化,通过云产品自身提供的高可用能力或者业界主流的容灾方案,为客户提供容灾高可用优化方案的设计与实施; 3.通过混沌工程等演习手段,设计并实施客户应用业务层面的容灾方案与验证; 4.对常见的互联网IT故障,设计应急预案并工具化落地,帮助客户实现容灾自动化逃生能力,达到客户业务对 RTO/RPO 要求; 5.通过产品化,工具化的思路,提升客户在云上SRE管理与治理方面的体验与效率。

更新于 2025-04-14北京
logo of aliyun
社招5年以上云智能集团

1. 技术方案设计 • 与PD紧密合作,收集、识别、分析客户需求,结合自身行业经验分析并论证需求合理性;在需求明确后,确定技术方案的目标、范围和交付成果; • 完成客户需求的技术方案设计,结合需求场景选择合理的技术架构,满足性能与稳定性要求,并保持足够的可扩展性,同时确保ROI(投入产出比)合理。 2. 技术实现 • 基于DDD(领域驱动设计)开发方法,按时完成弹性网卡(ENI)、安全组(Security Group)业务需求的开发,高质量交付; • 对编码进行阶段性讨论和Code Review,并通过调试优化,推动代码成功部署; • 在Code Review过程中,能够保持热情,及时给予年轻工程师经验指导,帮助其快速成长; • 对开发中和部署后的程序进行维护和迭代,包括值班on-call、升级工单处理、缺陷排查、问题诊断、产品体验改善、性能和成本优化等。 3. 稳定性和性能优化 • 与架构和SRE团队紧密合作,针对负责的功能制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,处理线上疑难杂症问题,确保系统的安全可靠; • 使用DDD(领域驱动设计)开发方法对存量代码进行重构,持续改善系统设计、提升系统性能并消除稳定性隐患。 4. 技术预研 • 定期调研业界对标产品的产品形态并结合客户反馈的业务诉求,分析并转化为ECS弹性网卡、ECS安全组等平台产品的需求;协同PD保持上述产品能力的先进性。 5. 技术规划 • 定期跟踪系统在性能和稳定性相关指标方面的变化趋势,及时分析原因,发现弹性能力演进的机会点,并提前设定技术架构演进的前瞻性目标,开展POC验证; • 对分布式技术、高性能通信技术、数据库技术等保持好奇心和敏锐性,结合业务实际做好技术预研、分享和应用。

更新于 2025-11-26北京|杭州
logo of aligenie
社招5年以上

1. 作为产品与客户的桥梁,深入理解云电脑所采用技术原理、产品架构和应用场景,结合阿里云整体产品能力,针对不同场景需求提供专业解决方案建议,助力客户端侧算力需求上云; 2. 洞察行业应用和技术趋势以及结合客户日常使用反馈,以场景竞争力需求,推动产品改进及用户体验提升,持续挖掘新的市场机会; 3. 与前线BTE/SA协作,深耕行业头部客户,对客户需求分析、技术方案设计、POC验证和成功交付全流程负责,实现产品商业化目标; 4. 结合客户场景,对云电脑、端侧AI以及Agent infra需求,结合产品能力以及案例实践进行解决方案开发和验收,完善解决方案竞争力和可交付性,与PD、研发、运营合作,推动产品GTM活动。

更新于 2026-04-07北京|深圳|杭州
logo of xiaohongshu
社招5-10年引擎

我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 工作职责: 1、参与/负责研发面向大语言模型(LLM)/多模态大模型(MLLM)等类型模型的推理服务框架; 2、参与/负责KV Router、PD分离/EPD分离、KVCache管理、动态PD调整等分布式推理能力建设; 3、通过并行计算优化、分布式架构优化、异构调度等多种框架技术,打造高效、易用、领先的AI推理框架; 4、参与/负责构建推理框架的系统容错能力,包括但不限于请求迁移、优雅退出、故障检测、自愈等能力建设; 5、深度参与周边深度学习系统多个子方向的工作,包括但不限于模型管理、推理部署、日志/监控、工作流编排等; 6、与全公司各业务算法部门深度合作,为重点项目进行算法与系统的联合优化,支撑业务目标达成。

更新于 2026-03-28北京|上海