教育和辩论
统计注:回归均值
BMJ1994;308doi:https://doi.org/10.1136/bmj.308.6942.1499(1994年6月4日出版)引用如下:BMJ308:1499 1994;统计学术语“回归”(regression)最初由弗朗西斯·高尔顿(Francis Galton)在他的论文《在遗传身高上向平庸的回归》(regression towards平庸)中使用,它的拉丁语词根是“倒退”。1高尔顿将孩子的身高与父母的平均身高联系起来,他称之为中间父母身高(图)。孩子和父母的平均身高都是68.2英寸。然而,由于中亲本高度是两次观测值的平均值,因此其范围有所缩小,因此范围有所不同。现在,想想那些中等身高的父母,他们的身高在70到71英寸之间。他们孩子的平均身高为69.5英寸,比他们父母的平均身高更接近所有孩子的平均身高。高尔顿称这种现象为“向平庸的倒退”;我们现在称之为“均值回归”。如果我们从孩子开始,同样的事情也会发生。对于身高在70到71英寸之间的孩子,他们父母的平均身高是69英寸。这是一个统计现象,而不是遗传现象。
如果我们把每组中间父母按身高计算,并计算他们孩子的平均身高,这些平均值将接近一条直线。这条线后来被称为回归线,因此拟合这条线的过程被称为“回归”。
用数学术语来说,如果变量X和Y有标准差sX和sY,且相关系数r,那么我们熟悉的最小二乘回归线的斜率可以写成rsy/ sX。因此,X的一个标准差的变化与Y的r个标准差的变化相关,除非X和Y完全线性相关,以至于所有的点都在一条直线上,否则r小于1。对于给定的X值,Y的预测值与它的均值之间的标准差总是小于X与它的均值之间的标准差。除非r=1,否则会发生向均值的回归,完全相关,所以在实践中总是会发生。我们将在后面的说明中给出一些例子。
高尔顿的原始数据显示了儿童身高与父母身高之间的关系,并带有回归线