知物由学 | 一文了解内容检测性能测试自动化建设
迪丽瓦拉
2025-05-29 22:11:29
0

网易易盾内容检测服务经常在线上做性能测试,在性能测试过程中遇到了哪些痛点?对于这些痛点,怎样通过自动化的手段来尝试改进?

01 性能测试简介

1.1 什么是性能测试

性能测试是通过特定的方式对被测系统按照一定策略施加压力,获取该系统的响应时间、吞吐量等性能指标,来检测系统上线后能否满足用户需求的过程。基于性能测试的定义不难看出,性能的核心指标就是经常挂在嘴边的QPS和RT。
在这里插入图片描述

1.2 为什么要做性能测试

简单了解性能测试之后,有些小伙伴肯定会问为什么要做性能测试。对于这个问题,打算举两个生活中的例子来说明下。

(1)12306——每年春运都是一次大考

在这里插入图片描述

临近春节,打工人要抢回乡的火车票,2019年12月23日,有大量网友反映,12306网站突然崩了,在购买车票的时候出现无法登录、无法购票、车次加载失败、页面卡住等情况,疑似因访问流量过大而出现服务器崩溃。

(2)微博——顶流明星的瓜不好吃

在这里插入图片描述

知名明星的离婚消息突然公布,消息迅速登上微博热搜。此类消息公布后,有网友反映微博客户端出现了短暂宕机、网络出错的现象。

02 性能测试的痛点

2.1 压测执行过程繁琐

压测执行在易盾性能测试的整个流程中比重最大,易盾线上压测一般采用梯度压测。什么是梯度压测,简单而言,就是把压测的大目标拆分成多个小目标。从小的目标做起,直到最后完成最终目标。假设易盾内容检测压测的目标值是QPS达到200,那通常从压力值20开始,然后40、60逐渐加大压力,直到最后完成200的目标值。

在这里插入图片描述

具体的执行步骤怎么样呢?我们先用压力值20,在NPT压测平台创建一个压测任务并执行,一般一轮压测执行10分钟。如果达不到20的目标值,压测中止定位性能问题;如果达到20的目标值,创建下一个目标值40的压测任务,继续执行。重复之前的判断逻辑,直到压测中止或者完成压测目标。

在这里插入图片描述

可能有人会问,这不是自找麻烦,直接用200去压测看看行不行不就完事了。线上压测,保证线上安全始终是第一位的,要慎之又慎,如果因为压测把线上压挂了会严重影响客户体验,甚至产生资金损失。

2.2 监控依赖人

在性能测试过程中,监控&分析属于一个难点,到底难在哪里?这里需要人的经验,要对“被测系统”比较熟悉。只有在熟悉的前提下,你才知道需要看哪些监控指标,这些指标是不是正常,进而给出判断的结论。

目前,线上压测会安排值班同学观察监控,这种依赖人的监控很难做到实时,因为人的精力有限,根本没法兼顾所有监控。还有就是很少有同学从头到尾盯着监控的,大家都是有报警的时候去关注下。这样存在一些风险,可能有些报警没有配置、或者配置修改了没有及时还原,导致线上有问题了,没有报警发出来。

在压测过程中,我们经常会遇到加大并发QPS上不去的情况,这时候一般就出现性能瓶颈了,但是这个瓶颈在哪里就需要根据监控数据去定位和分析了。我们在定位的时候无非也是使用经验的三板斧,CPU/内存/磁盘/网卡等系统资源是否正常,请求量和RT是否合理,有没有出现超时等异常错误。
在这里插入图片描述

2.3 压测数据未隔离

在这里插入图片描述

由于压测流量和真实流量没有做数据隔离,导致线上无法进行全链路压测,有些业务场景覆盖不到。比如易盾存储场景,一旦数据落库存在性能问题,kafka的数据就会积压。此时kafka的topic中既有真实流量又有压测流量的数据,就算立马停止压测,也会影响线上真实流量数据的消费速度,影响用户体验。因此,平常线上压测都会关闭数据存储。

2.4压测资损

易盾有一些外部供应商,之前压测过程中,由于方案评估不到位遗漏了供应商这个环节,导致线上压测产生了一些额外的费用,这种压测资损也是不能容忍的。

03 性能测试自动化实践

3.1 压测一键执行

创建压测任务的时候,自动创建多个梯度压测子任务。还是用易盾内容检测来举例,我们创建一个QPS目标值200的压测任务,这个压测任务被拆分成了5个梯度,每个梯度的压测目标值从小到大分别是40,80,120,160和200。这5个梯度对应NPT平台上5个压测目标值分别是40,80,120,160和200压测子任务。

在这里插入图片描述

点击启动压测任务后,系统会顺序执行NPT平台上QPS目标值40,80,120,160和200的压测子任务。压测子任务达到目标值,会自动执行下一个子任务,如果达不到目标值,就会自动中止压测任务。

在这里插入图片描述

3.2 监控&分析量化

对于监控与分析,明确的思路就是量化。

先是监控,我们事先定义好哪些应用需要纳入监控,这些应用各自需要监控哪些指标。这两个要素搞清楚之后,剩下就是通过哨兵提供的API获取监控数据,写入数据库。

在这里插入图片描述

对于外部供应商特殊业务场景的监控,我们在监控大盘纳入供应商请求量的指标。当供应商请求量同比或者环比出现异常时,要及时停止压测。

在这里插入图片描述

3.3全链路压测组件接入

存储场景压测覆盖不到的问题如何解决?首先“被测系统”接入了全链路压测组件,实现了真实流量和压测流量的数据隔离。

在这里插入图片描述

其次,影子队列消费提供开关,kafka数据积压时,关闭开关,保证只有真实流量数据的消费。

04 性能测试自动化平台

对于上述性能测试中的改进点,我们构建了自有的性能测试自动化平台来承载。

4.1 整体架构

在这里插入图片描述

4.2 落地情况

易盾SaaS服务压测已经完成小流量的试跑,和之前的常规压测比,具有明显的优势。

在这里插入图片描述

相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
A.机器学习入门算法(三):基... 机器学习算法(三):K近邻(k-nearest neigh...
数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库,支持多种数据结构。以下是...
win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...
MySQL基础-多表查询 文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...
keil调试专题篇 调试的前提是需要连接调试器比如STLINK。 然后点击菜单或者快捷图标均可进入调试模式。 如果前面...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
IHome主页 - 让你的浏览... 随着互联网的发展,人们越来越离不开浏览器了。每天上班、学习、娱乐,浏览器...
TCP 协议 一、TCP 协议概念 TCP即传输控制协议(Transmission Control ...
营业执照的经营范围有哪些 营业执照的经营范围有哪些 经营范围是指企业可以从事的生产经营与服务项目,是进行公司注册...
C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题: 无法知道当前使用的类型是什...
血压计语音芯片,电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计,测量前至测量结果全程语音播报࿰...
MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...
【2023-Pytorch-检... (肆十二想说的一些话)Yolo这个系列我们已经更新了大概一年的时间,现在基本的流程也走走通了,包含数...
实战项目:保险行业用户分类 这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...
记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前段时间接触了Th...
43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...