回归问题?“回归”这个词,有没有听起来感觉很奇怪?这篇文章就叨叨下:为什么线性回归称之为“回归”。
这个问题我是在一本叫《女士品茶》的书里偶然看到的。书里讲到英国有个科学家叫高尔顿,简单起见,我们叫他老高。老高是个很厉害的科学家,现在的指纹能解锁自己的手机也得得益于他的研究。但是今天不讲这个故事,主要讲“回归”跟老高的关系。
话说老高在一项研究中,想研究天才遗传的问题。所以根据这个问题他收集了一些父亲与孩子的数据,听说这些人呢,智商都很高。但是当时能准确测量智商没有什么好的方法,所以老高觉得这个问题太难了。所以,老高就放弃了,因为他想还是干点相对容易的事儿吧。所以他就开始研究身高之类的遗传特性。
于是他就成立了一个实验室,打广告召集志愿者家庭来做测量,然后就又收集了一堆数据。这堆数据中有父母的身高,孩子的身高。所以,老高就想,是否存在一个数学公式,输入父母的身高数据,能推断出子女的身高呢??(是不是有点回归的味道了?)
于是,老高进行了很多统计。他发现一个现象:非常高的父亲,其儿子通常要比父亲矮;而非常矮的父亲,其儿子的身高一般比父亲的身高要高。所以,好像存在某种神秘的力量,使得人类的身高从极高或者极矮移向平均值的水平。即,人类的身高存在着向平均数回归现象。老高把这种现象并称之为“向平均回归(regression to the mean)”。
在“向平均数回归”现象中,老高试图找到一个数学公式,将随机事件彼此联系起来。后来费歇尔继续使用老高提出的“回归(regression)”这个词,建立了某地给定地块小麦收成与年份之间的一般数学关系。再后来,“回归”就描述从“输入”到“输出”之间的关系啦。
以上,就是“回归”的历史起源啦。