腾讯腾讯云-专有云高级测试工程师(深圳)(成都)
任职要求
1.计算机本科及以上学历,3年以上软件或软硬件一体化产品系统测试经验,主导过产品或模块级测试用例的设计; 2.精通一种或多种语言(python,shell/c++等),熟悉CICD; 3.熟悉IaaS/PaaS平台,有相关的开发或测试经验 -熟悉云计算和网络架构整体技术体系或者传统企业级IT解决方案的总体体系(包含服务器、存储、网络、数据库、中间件、安全等); 4.具备良好的团队合作精神,善于协调沟通,具备较强的问题定位和推动解决能力; 5.具备较强的抗压能力,能面对专有云项目的机遇与挑战,在较大压力下保持工作激情。 加分项 1.在同等条件下,通过腾讯云认证或取得同等资格认证的候选人,我们会优先考虑。
工作职责
1.负责腾讯专有云产品的需求和架构分析,测试设计和测试开发工作,包括IaaS,PaaS,SaaS,存储,网络等,包括但不限于功能,性能,可靠性,鲁棒性,升级部署验证,用户体验等系统测试; 2.对测试方案进行有效的落地和执行,以确保项目进度和软件质量,形成自动化测试用例并进一步形成服务化提升效率; 3.架构并实现IaaS,PaaS等产品自动化测试平台,提升产品测试和交付能力; 4.不断提升测试过程,方法和技术,构建质量评估标准,优化改进措施,提升产品质量和效率。
阿里云持续推进AI与云计算深度融合的战略布局,聚焦AI基础设施、大模型平台及企业级AI应用等核心场景。为加速专有云网络产品的技术演进,现诚邀优秀人才加入: ● 负责专有云云计算网络产品的设计与研发,围绕虚拟化、负载均衡(四层/七层)、容器网络、服务网格及软硬件协同等云网络与云原生关键技术,开展技术分析、方案选型与功能设计工作。 ● 承担云网络核心模块的编码实现,包括网元、网关等产品的功能开发、单元测试(UT)、端到端测试(E2E)用例编写、代码调试与评审,以及版本发布等全流程研发任务。 ● 参与专有云网络运维体系建设,负责线上问题的定位、分析与解决,为一线技术支持团队提供技术支撑,保障产品稳定高效运行。 ● 具备大模型应用开发能力,结合实际运维场景,推动运维系统的智能化升级,提升运维体系的可靠性、自动化水平与用户体验。
业务主要方向 • 交付履约平台研发,主要面向:阿里云的对客混合云履约,国际项目履约,专有云项目履约。 • 专有云技术服务平台研发,主要:为阿里云专有云驻场运维服务提供业务平台,保障客户驻场安全。提供专有云工单服务平台,帮助专有云的专家对客进行工单服务。 • 平台智能化方向,主要:结合大模型,对平台进行智能化改造,提高平台的效率,并帮助平台客户提供更智能化的服务。同时将成功经验对外商业化输出。 技术方案设计&技术实现 • 能够针对业务和产品的需求,在技术阶段:进行技术架构设计。在编码阶段:进行代码开发。部署阶段:推动代码CR,成功部署,并保证系统稳定性。 项目管理 • 自己能够把控节奏,确定项目的开发节奏和上线节奏。明确合作的岗位职责并进行任务分配。 • 总结项目经验和教训,反馈项目成果和绩效,为之后的项目管理沉淀经验总结
1、运维可观测链路建设 • 负责全链路稳定性解决方案的制定与执行,包括交付、变更、应急及稳定性专项建设; • 事前:建立并持续优化产品运维的监控机制,研发并维护相应的运维监控平台/工具; • 事中:建立并持续优化产品运维的预警机制,确保故障能够被快速发现、通报、定位及处理; • 事后:快速分析、诊断、定位问题,并能够协同开发人员解决问题;建立健全快速恢复服务机制,降低业务受损程度,确保产品、业务稳定运行;牵头问题复盘工作,通过架构优化等根治引起不可用的问题。 2、运维平台产品化与智能化建设 • 设计、研发并维护智能化的运维平台、工具、系统,帮助解决生产系统遇到的容量、性能、稳定性等问题,提升性能与效率; • 负责运营质量数据化分析工作,通过对日常运维指标、问题、风险、稳定性结果进行分析和研究,建立模型、计算ROI/TCO来解决、优化和落地给出运营优化建议; • 负责高可用体系建设,如巡检、故障自动定位、自动恢复、自适应容灾、云原生技术实施及落地等,保障业务持续可用。 • 负责运维能力的抽象与设计,通过平台实现运维能力产品化,建立配套的标准运维手册,提升运维的易用性/完整性和降低误操作风险(专有云); • 将运维服务产品化能力传达给客户,建设客户心智,提升运维服务效率(反馈增加) 3、运维服务体系建设 • 建设本领域相关的运维体系(如变更标准,重保体系,客情预警等),确保本领域产品运维&稳定性能力提升; • 牵头制定本领域内的相关新产品\新功能的的SLA协议承诺; • 基于SLA要求,评审新产品\新功能的架构是否可用、安全; • 通过日常运维活动优化产品稳定性,达成SLA目标; 4、容量规划与调优 • 基于年度的产品线规划,进行预算编制、容量规划与置备,协调各方持续滚动进行存储、计算等资源消耗的预测与估算; • 通过技术手段提升线上资源利用效率,降低物理资源成本(如结合对于业务波峰/波谷等的预测,进行混合部署)。 • 通过云平台与云产品的容量模型设计与调优以及配套的工具建设,降低云平台因为资源问题带来的稳定性风险并提升资源利用率(专有云) 5、安全保障建设 • 日常on call值班,及时响应告警及技术支持升级的疑难问题,并解决; • 负责集团级重大活动(如双11等)的运维保障工作; • 配合安全团队,梳理安全漏洞,优化相关技术架构,提升产品与系统的安全性。 • 负责云平台风险管理能力建设,通过风险策略库建设提前识别风险,建立风险预警和治理机制,推动云平台风险治理提升客户稳定性(专有云) 6、平台架构升级 • 负责系统架构升级,如内核升级、网络架构升级、存算分离、服务跨机房迁移、服务上云 • 负责容灾架构设计并实施,如同城容灾、异地多活等 • 负责云平台软硬件生命周期设计,制定升级方案,通过商务法务产品与服务策略制定,推动客户云平台持续演进(专有云) • 负责云平台的分层设计,并通过依赖与兼容性治理与优化,实现云平台分层解耦,提升交付、升级的灵活性与稳定性(专有云)
1、深入理解客户业务需求,帮助客户选择适合其业务场景的技术路径和产品组合,利用AI技术知识、架构方法、咨询技能来影响客户技术决策 2、熟悉大模型算法工程化,与客户合作进行模型训练、推理和模型应用等POC,含展示功能、调整模型、优化模型性能、测试分析、Agent搭建、模型调用等内容 3、依据客户需求和技术研判,推动产研部门持续优化产品,助力提升产品竞争力,同时沉淀最佳实践,以及脚本、模板、参考架构等可复用的技术资产 4、持续跟踪行业动态和技术趋势,并与产品团队协作,打造创新的人工智能(大模型、智算、一体机等)解决方案 5、支持市场活动,作为领域专家参与市场洞察、行业标准、市场排名报告、白皮书撰写等活动,并在行业峰会、技术沙龙等市场活动中进行技术传播和分享