适用于医疗保健专业人员

教育和辩论

统计注:回归均值

BMJ1994308doi:https://doi.org/10.1136/bmj.308.6942.1499(1994年6月4日出版)引用如下:BMJ308:1499 1994;
  1. J M Bland
  2. 阿尔特曼
  1. 圣乔治医院医学院公共卫生科学系,伦敦SW17 0RE
  2. 帝国癌症研究基金会医学统计实验室,伦敦WC2A 3PX。

    统计学术语“回归”(regression)最初由弗朗西斯·高尔顿(Francis Galton)在他的论文《在遗传身高上向平庸的回归》(regression towards平庸)中使用,它的拉丁语词根是“倒退”。1高尔顿将孩子的身高与父母的平均身高联系起来,他称之为中间父母身高(图)。孩子和父母的平均身高都是68.2英寸。然而,由于中亲本高度是两次观测值的平均值,因此其范围有所缩小,因此范围有所不同。现在,想想那些中等身高的父母,他们的身高在70到71英寸之间。他们孩子的平均身高为69.5英寸,比他们父母的平均身高更接近所有孩子的平均身高。高尔顿称这种现象为“向平庸的倒退”;我们现在称之为“均值回归”。如果我们从孩子开始,同样的事情也会发生。对于身高在70到71英寸之间的孩子,他们父母的平均身高是69英寸。这是一个统计现象,而不是遗传现象。

    如果我们把每组中间父母按身高计算,并计算他们孩子的平均身高,这些平均值将接近一条直线。这条线后来被称为回归线,因此拟合这条线的过程被称为“回归”。

    用数学术语来说,如果变量X和Y有标准差sX和sY,且相关系数r,那么我们熟悉的最小二乘回归线的斜率可以写成rsy/ sX。因此,X的一个标准差的变化与Y的r个标准差的变化相关,除非X和Y完全线性相关,以至于所有的点都在一条直线上,否则r小于1。对于给定的X值,Y的预测值与它的均值之间的标准差总是小于X与它的均值之间的标准差。除非r=1,否则会发生向均值的回归,完全相关,所以在实践中总是会发生。我们将在后面的说明中给出一些例子。

    参考文献

    视图抽象