推断统计学 | 简明入门与示例

更新于 2026-02-06

Pritha Bhandari 2023-06-22

描述性统计用于总结数据集的特征,而推断统计则帮助你根据数据得出结论并做出预测。

当你从一个样本中收集了数据后,可以使用推断统计来了解该样本所来自的更大总体。

推断统计主要有两个用途:

  • 对总体进行估计(例如,全美所有11年级学生的平均SAT分数)。
  • 通过假设检验对总体得出结论(例如,SAT分数与家庭收入之间的关系)。

描述性统计 vs. 推断统计

描述性统计用于描述一个数据集,而推断统计则允许你基于一个数据集进行推断。

描述性统计

使用描述性统计,你可以报告自己数据的特征:

  • 分布:关注每个数值出现的频率。
  • 集中趋势:关注数值的平均值。
  • 变异性:关注数值的离散程度。

在描述性统计中不存在不确定性——这些统计量精确地描述了你所收集的数据。如果你从整个总体中收集了数据,就可以直接将这些描述性统计量与其他总体的统计量进行比较。

示例:描述性统计

你收集了一所学校连续三年所有11年级学生的SAT分数数据。
你可以使用描述性统计快速了解该校这些年份的分数概况,并可直接将该校的平均SAT分数与其他学校的平均分进行比较。

推断统计

大多数情况下,你只能从样本中获取数据,因为从你感兴趣的整个总体中收集数据往往过于困难或昂贵。

虽然描述性统计只能总结样本的特征,但推断统计则利用你的样本来对更大的总体做出合理的推测。

在推断统计中,使用随机且无偏的抽样方法非常重要。如果你的样本不能代表总体,那么你就无法做出有效的统计推断或进行推广。

示例:推断统计

你在本州随机选取一部分11年级学生,并收集他们的SAT分数及其他特征数据。
你可以利用推断统计,基于样本数据对该州全体11年级学生的总体情况进行估计和假设检验。

推断统计中的抽样误差

由于样本的规模总是小于总体的规模,因此总体中总有一部分未被样本数据所涵盖。这就产生了抽样误差,即真实总体值(称为参数)与所测得的样本值(称为统计量)之间的差异。

只要你使用样本,就会产生抽样误差,即使你的样本是随机且无偏的。因此,推断统计中始终存在一定的不确定性。不过,使用概率抽样方法可以减少这种不确定性。

从样本统计量估计总体参数

样本和总体的特征由被称为统计量参数的数值来描述:

  • 统计量:描述样本的度量(例如,样本均值)。
  • 参数:描述整个总体的度量(例如,总体均值)。

抽样误差就是参数与相应统计量之间的差异。由于在大多数情况下你并不知道真实的总体参数,因此可以使用推断统计来估计这些参数,并将抽样误差考虑在内。

你可以对总体做出两种重要的估计:点估计区间估计

  • 点估计:用单个数值来估计参数。例如,样本均值是总体均值的点估计。
  • 区间估计:给出一个参数可能落在其中的数值范围。置信区间是最常见的区间估计类型。

这两种估计对于全面了解参数可能的位置都很重要。

置信区间

置信区间利用围绕统计量的变异性来为参数提供一个区间估计。置信区间在估计参数时非常有用,因为它们考虑了抽样误差。

点估计为你提供了所关注参数的精确值,而置信区间则告诉你该点估计的不确定性。两者结合使用效果最佳。

每个置信区间都对应一个置信水平。置信水平以百分比形式告诉你:如果重复研究,该区间包含参数估计值的概率有多大。

例如,95%的置信区间意味着:如果你以完全相同的方式重复研究100次(每次都使用新的样本),那么大约有95次你的估计值会落在指定的数值范围内。

虽然你可以说你的估计值在一定比例的情况下会落在该区间内,但你不能确定真实的总体参数就一定在其中。这是因为如果不从整个总体收集数据,你就无法知道总体参数的真实值。

然而,只要采用随机抽样并拥有合适的样本量,你就有理由相信你的置信区间在一定比例的情况下会包含真实参数。

示例:点估计与置信区间

你想了解一家国际公司员工平均享有的带薪假期天数。在从随机样本收集调查回复后,你计算出一个点估计和一个置信区间。

  • 你对总体平均带薪假期天数的点估计是样本均值:19天。
  • 在随机抽样的前提下,95%置信区间为[16, 22],这意味着你可以合理确信,员工平均带薪假期天数在16到22天之间。

假设检验

假设检验是一种使用推断统计进行正式统计分析的过程。其目标是使用样本来比较总体或评估变量之间的关系。

假设(或预测)通过统计检验进行检验。统计检验还会估计抽样误差,从而可以做出有效的推断。

统计检验可分为参数检验非参数检验。参数检验被认为具有更强的统计功效,因为如果效应确实存在,它们更有可能检测到。

参数检验包含以下假设:

  • 样本所来自的总体服从正态分布;
  • 样本量足够大,能够代表总体;
  • 所比较的各组的方差(一种变异性度量)相似。

当你的数据违反上述任何一项假设时,非参数检验更为合适。非参数检验被称为“无分布检验”,因为它们不对总体数据的分布做任何假设。

统计检验有三种形式:比较检验相关检验回归检验

比较检验

比较检验用于评估两个或多个组的均值、中位数或排序是否存在差异。

要选择适合你研究目的的检验方法,需考虑你的数据是否满足参数检验的条件、样本数量以及变量的测量水平。

均值仅适用于等距比率数据,而中位数和排序更适合有序数据。

比较检验 是否为参数检验? 比较内容 样本数量
t检验 均值 2个样本
方差分析(ANOVA) 均值 3个及以上样本
Mood中位数检验 中位数 2个及以上样本
Wilcoxon符号秩检验 分布 2个样本
Wilcoxon秩和检验(Mann-Whitney U检验) 排名总和 2个样本
Kruskal-Wallis H检验 平均排名 3个及以上样本

相关检验

相关检验用于确定两个变量之间的关联程度。

尽管Pearson相关系数(Pearson’s r)具有最强的统计功效,但当数据不服从正态分布时,Spearman相关系数(Spearman’s r)更适合用于等距或比率变量。

卡方独立性检验(Chi square test of independence)是唯一可用于名义变量的检验。

相关检验 是否为参数检验? 变量类型
Pearson相关系数(r) 等距/比率变量
Spearman相关系数(r) 有序/等距/比率变量
卡方独立性检验 名义/有序变量

回归检验

回归检验用于说明预测变量的变化是否会导致结果变量的变化。你可以根据预测变量和结果变量的数量及类型,决定使用哪种回归检验。

大多数常用的回归检验都是参数检验。如果你的数据不服从正态分布,可以进行数据转换

数据转换通过数学运算(如对每个值取平方根)使你的数据更接近正态分布。

回归检验 预测变量 结果变量
简单线性回归 1个等距/比率变量 1个等距/比率变量
多元线性回归 2个及以上等距/比率变量 1个等距/比率变量
逻辑回归(Logistic回归) 1个及以上任意类型变量 1个二分类变量
名义回归 1个及以上任意类型变量 1个名义变量
有序回归 1个及以上任意类型变量 1个有序变量