描述性统计 | 定义、类型与示例

更新于 2026-02-06

Pritha Bhandari 2023-06-21

描述性统计用于汇总和整理数据集的特征。数据集是从样本或整个总体中收集到的一组响应或观测值。

在定量研究中,收集完数据后,统计分析的第一步是描述这些响应的特征,例如一个变量(如年龄)的平均值,或两个变量(如年龄与创造力)之间的关系。

下一步是推断性统计,它帮助你判断数据是否支持或反驳你的假设,以及该结果是否可以推广到更大的总体。

描述性统计的类型

描述性统计主要有以下3种类型:

  • 分布:关注每个数值出现的频率。
  • 集中趋势:关注数值的平均情况。
  • 变异性(离散程度):关注数值的分散程度。

img

你可以将这些方法应用于单个变量(单变量分析),也可以用于比较两个或多个变量(双变量或多变量分析)。

研究示例

你想研究不同休闲活动按性别划分的受欢迎程度。你发放了一份调查问卷,询问参与者在过去一年中每项活动进行了多少次:

  • 去图书馆
  • 在电影院看电影
  • 参观国家公园

你的数据集就是这份调查的所有回答。现在,你可以使用描述性统计来了解每项活动的总体频率(分布)、每项活动的平均次数(集中趋势)以及每项活动回答的离散程度(变异性)。

频数分布

一个数据集由一系列数值(或分数)的分布组成。你可以通过表格或图表,以数字或百分比的形式,汇总某个变量所有可能取值的出现频次。这称为频数分布

简单频数分布表 vs. 分组频数分布表

对于“性别”这一变量,你在左列列出所有可能的回答,然后在右列统计每种回答的数量或百分比。

性别 人数
男性 182
女性 235
其他 27

从这张表可以看出,参与本研究的女性人数多于男性或其他性别身份者。

集中趋势的度量

集中趋势的度量用于估计数据集的中心(或平均值)。均值、中位数和众数是三种常用的求平均的方法。

下面我们将用调查前6个回答为例,演示如何计算均值、中位数与众数。

均值(Mean)

均值(通常记为 M)是最常用的平均值计算方法。

要计算均值,只需将所有回答值相加,再除以回答总数。回答或观测的总数称为 N。

过去一年去图书馆的次数(均值)

  • 数据集:15, 3, 12, 0, 24, 3
  • 所有值之和:15 + 3 + 12 + 0 + 24 + 3 = 57
  • 回答总数:N = 6
  • 均值:57 ÷ 6 = 9.5

中位数(Median)

中位数是将数据从小到大排列后位于中间位置的数值。如果数据个数为偶数,则中位数是中间两个数的平均值。

过去一年去图书馆的次数(中位数)

  • 排序后的数据集:0, 3, 3, 12, 15, 24
  • 中间两个数:3 和 12
  • 中位数:(3 + 12) ÷ 2 = 7.5

众数(Mode)

众数是数据集中出现频率最高的数值。

过去一年去图书馆的次数(众数)

  • 数据集:0, 3, 3, 12, 15, 24
  • 出现最多的数值:3(出现2次)

变异性的度量

变异性的度量让你了解回答值的分散程度。极差、标准差和方差分别反映了数据离散的不同方面。

极差(Range)

极差表示最极端的两个回答值之间的差距。计算方法是:最大值减去最小值。

过去一年去图书馆次数的极差

  • 排序后的数据集:0, 3, 3, 12, 15, 24
  • 极差:24 – 0 = 24

标准差(Standard Deviation)

标准差(记为 s 或 SD)表示数据集中各数值相对于均值的平均偏离程度。标准差越大,数据越分散。

计算标准差的六个步骤如下:

  1. 列出每个分数并计算其均值。
  2. 用每个分数减去均值得到偏差。
  3. 将每个偏差平方。
  4. 将所有平方偏差相加。
  5. 将平方偏差总和除以 N – 1。
  6. 对所得结果开平方根。

过去一年去图书馆次数的标准差

下表完成步骤1至4:

原始数据 与均值的偏差 偏差的平方
15 15 – 9.5 = 5.5 30.25
3 3 – 9.5 = -6.5 42.25
12 12 – 9.5 = 2.5 6.25
0 0 – 9.5 = -9.5 90.25
24 24 – 9.5 = 14.5 210.25
3 3 – 9.5 = -6.5 42.25
均值 M = 9.5 偏差总和 = 0 平方和 = 421.5
  • 步骤5:421.5 ÷ 5 = 84.3
  • 步骤6:√84.3 ≈ 9.18

由此可知,s = 9.18,即每个分数平均偏离均值约9.18次。

方差(Variance)

方差是偏差平方的平均值,反映数据集的离散程度。数据越分散,方差相对于均值就越大。

要计算方差,只需将标准差平方即可。方差的符号为 s²。

过去一年去图书馆次数的方差

  • 数据集:15, 3, 12, 0, 24, 3
  • s = 9.18
  • s² = 84.3

单变量描述性统计

单变量描述性统计一次只关注一个变量。重要的是,应分别使用多种分布、集中趋势和离散程度的指标来检查每个变量的数据。SPSS 和 Excel 等软件可轻松计算这些指标。

去图书馆次数的单变量描述统计

指标 数值
N(样本量) 6
均值 9.5
中位数 7.5
众数 3
标准差 9.18
方差 84.3
极差 24

如果你仅考虑均值作为集中趋势的度量,异常值可能会扭曲你对数据“中心”的理解,而中位数或众数则不受此影响。

同样,虽然极差对异常值敏感,但你也应结合标准差和方差来获得更易比较的离散程度指标。

双变量描述性统计

如果你收集了多个变量的数据,可以使用双变量或多变量描述性统计来探索它们之间是否存在关系。

在双变量分析中,你同时研究两个变量的频数和变异性,以观察它们是否共同变化。你还可以在进行进一步统计检验之前,比较这两个变量的集中趋势。

多变量分析与双变量分析相同,只是涉及两个以上的变量。

列联表(Contingency Table)

在列联表中,每个单元格代表两个变量的交叉点。通常,自变量(如性别)放在纵轴,因变量(如活动)放在横轴。你可以“横向”阅读表格,以了解自变量与因变量之间的关系。

过去一年去图书馆的次数(原始数据)

群体 0–4 5–8 9–12 13–16 17+
儿童 32 68 37 23 22
成人 36 48 43 83 25

将原始数据转换为百分比后,列联表更易于解读。百分比使每一行具有可比性,仿佛每个群体都只有100名观察对象或参与者。创建基于百分比的列联表时,通常在每行末尾加上该自变量类别的总样本量(N)。

过去一年去图书馆的次数(百分比形式)

群体 0–4 5–8 9–12 13–16 17+ N
儿童 18% 37% 20% 13% 12% 182
成人 15% 20% 18% 35% 11% 235

从该表可以更清楚地看出:儿童和成人每年去图书馆超过17次的比例相近。此外,儿童最常去图书馆的次数区间是5–8次,而成人则是13–16次。

散点图(Scatter Plot)

散点图是一种展示两个或三个变量之间关系的图表,是变量间关系强度的可视化表示。

在散点图中,一个变量沿x轴绘制,另一个变量沿y轴绘制。每个数据点在图中以一个点表示。

散点图示例:图书馆访问次数与电影院观影次数

你调查是否经常去图书馆的人较少去电影院看电影。你将参与者去电影院的次数绘制在x轴,去图书馆的次数绘制在y轴。

从散点图可以看出,随着去电影院次数的增加,去图书馆的次数减少。基于你对可能存在线性关系的视觉判断,你可以进一步进行相关性和回归分析。

描述性统计:散点图