本文作者：一起剥坚果

校对: 汤涛，香港浸会大学数学讲座教授

【正态分布曲线】

正态分布又通常被称为高斯分布，在科学领域，冠名权那是一个很高的荣誉。早年去过德国的兄弟们还会发现，德国的钢镚和10马克的纸币上都留有高斯的头像和正态密度曲线。正态分布被冠名高斯分布，我们也容易认为是高斯发现了正态分布，其实不然，不过高斯对于正态分布的历史地位的确立是起到了决定性的作用。

【德国马克上的高斯头像和正态分布曲线】

正态曲线虽然看上去很美，却不是一拍脑袋就能想到的。我们在本科学习数理统计的时候，课本一上来介绍正态分布就给出密度分布函数，却从来不说明这个分布函数是通过什么原理推导出来的。所以我一直搞不明白数学家当年是怎么找到这个概率分布曲线的，又是怎么发现随机误差服从这个奇妙的分布的。我们在实践中大量的使用正态分布，却对这个分布的来龙去脉知之甚少，正态分布真是让人感觉既熟悉又陌生。直到我读研究生的时候，我的导师给我介绍了陈希儒院士的《数理统计学简史》这本书，看了之后才了解了正态分布曲线从发现到被人们重视进而广泛应用，也是经过了几百年的历史。

正态分布的这段历史是很精彩的，我们通过讲一系列的故事来揭开她的神秘面纱。

二、邂逅，正态曲线的首次发现

第一个故事和概率论的发展密切相关，主角是棣莫弗(De Moivre)和拉普拉斯(Laplace)。拉普拉斯是个大科学家，被称为法国的牛顿；棣莫弗名气可能不算很大，不过大家应该都熟悉这个名字，因为我们在高中数学学复数的时候我们都学过棣莫弗定理

.古典概率论发源于赌博，惠更斯、帕斯卡、费马、贝努利都是古典概率的奠基人，他们那会研究的概率问题大都来自赌桌上，最早的概率论问题是赌徒梅累在1654年向帕斯卡提出的如何分赌金的问题。统计学中的总体均值之所以被称为期望(Epectation)，就是源自惠更斯、帕斯卡这些人研究平均情况下一个赌徒在赌桌上可以期望自己赢得多少钱。

其中

1733年，棣莫弗很快利用斯特林公式进行计算并取得了重要的进展。考虑是偶数的情形，令二项概率

于是有

我们在大学学习数理统计的时候，学习的过程都是先学习正态分布，然后才学习中心极限定理。而学习到正态分布的时候，直接就描述了其概率密度的数学形式，虽然数学上很漂亮，但是容易困惑数学家们是如何凭空就找到这个分布的。读了陈希孺的《数理统计学简史》之后，我才明白正态分布的密度形式首次发现是在棣莫弗-拉普拉斯的中心极限定理中。数学家研究数学问题的进程很少是按照我们数学课本的安排顺序推进的，现代的数学课本都是按照数学内在的逻辑进行组织编排的，虽然逻辑结构上严谨优美，却把数学问题研究的历史痕迹抹得一干二净。DNA双螺旋结构的发现者之一James Waston在他的名著《DNA双螺旋》序言中说：“科学的发现很少会像门外汉所想象的一样，按照直接了当合乎逻辑的方式进行的。”

棣莫弗给出他的发现后40年（大约是1770），拉普拉斯建立了中心极限定理较一般的形式，中心极限定理随后又被其它数学家们推广到了其它任意分布的情形，而不限于二项分布。后续的统计学家发现，一系列的重要统计量，在样本量N趋于无穷的时候，其极限分布都有正态的形式，这构成了数理统计学中大样本理论的基础。

棣莫弗在二项分布的计算中瞥见了正态曲线的模样，不过他并没有能展现这个曲线的美妙之处。棣莫弗的这个工作当时并没有引起人们足够的重视，原因在于棣莫弗不是个统计学家，从未从统计学的角度去考虑其工作的意义。正态分布(当时也没有被命名为正态分布)在当时也只是以极限分布的形式出现，并没有在统计学，尤其是误差分析中发挥作用。这也就是正态分布最终没有被冠名棣莫弗分布的重要原因。那高斯做了啥了不起的工作导致统计学家把正态分布的这顶桂冠戴在了他的头上呢？这先得从最小二乘法的发展说起。

三、最小二乘法，数据分析的瑞士军刀

第二个故事的主角是欧拉(Euler)，拉普拉斯(Lapalace)，勒让德(Legendre)和高斯(Gauss)，故事发生的时间是十八世纪中到十九世纪初。十七、十八世纪是科学发展的黄金年代，微积分的发展和牛顿万有引力定律的建立，直接的推动了天文学和测地学的迅猛发展。当时的大科学家们都在考虑许多天文学上的问题。几个典型的问题如下：

土星和木星是太阳系中的大行星，由于相互吸引对各自的运动轨道产生了影响，许多大数学家，包括欧拉和拉普拉斯都在基于长期积累的天文观测数据计算土星和木星的运行轨道。
勒让德承担了一个政府给的重要任务，测量通过巴黎的子午线的长度。
海上航行经纬度的定位。主要是通过对恒星和月面上的一些定点的观测来确定经纬度。

这些天文学和测地学的问题，无不涉及到数据的多次测量、分析与计算；十七、十八世纪的天文观测，也积累了大量的数据需要进行分析和计算。很多年以前，学者们就已经经验性的认为，对于有误差的测量数据，多次测量取平均是比较好的处理方法。虽然缺乏理论上的论证，也不断的受到一些人的质疑，取平均作为一种异常直观的方式，已经被使用了千百年，在多年积累的数据的处理经验中也得到相当程度的验证，被认为是一种良好的数据处理方法。

如何通过多组观测数据求解出参数呢？欧拉和拉普拉斯采用的都是求解线性方程组的方法。

y_n = beta_0 + beta_1_{1n} + beta_2_{2n} + cdots + beta_p_{pn} end{array} right. end{eqnarray}/>但是面临的一个问题是，有组观测数据，个变量，如果 p + 1/>，则得到的线性矛盾方程组，无法直接求解。所以欧拉和拉普拉斯采用的方法都是通过一定的对数据的观察，把个线性方程分为组，然后把每个组内的方程线性求和后归并为一个方程，从而就把个方程的方程组化为个方程的方程组，进一步解方程求解参数。这些方法初看有一些道理，但是都过于经验化，无法形成统一处理这一类问题的一个通用解决框架。

以上求解线性矛盾方程的问题在现在的本科生看来都不困难，就是统计学中的线性回归问题，直接用最小二乘法就解决了，可是即便如欧拉、拉普拉斯这些数学大牛，当时也未能对这些问题提出有效的解决方案。可见在科学研究中，要想在观念上有所突破并不容易。有效的最小二乘法是勒让德在1805年发表的，基本思想就是认为测量中有误差，所以所有方程的累积误差为

累积误差 =( 观测值 - 理论值 )我们求解出导致累积误差最小的参数即可。

勒让德在论文中对最小二乘法的优良性做了几点说明：

最小二乘使得误差平方和最小，并在各个方程的误差之间建立了一种平衡，从而防止某一个极端误差取得支配地位
计算中只要求偏导后求解线性方程组，计算过程明确便捷
最小二乘可以导出算术平均值作为估计值

对于最后一点，推理如下：假设真值为为n次测量值，每次测量的误差为，按最小二乘法，误差累积为

求解使得达到最小，正好是算术平均

.由于算术平均是一个历经考验的方法，而以上的推理说明，算术平均是最小二乘的一个特例，所以从另一个角度说明了最小二乘方法的优良性，使我们对最小二乘法更加有信心。

最小二乘法发表之后很快得到了大家的认可接受，并迅速的在数据分析实践中被广泛使用。不过历史上又有人把最小二乘法的发明归功于高斯，这又是怎么一回事呢。高斯在1809年也发表了最小二乘法，并且声称自己已经使用这个方法多年。高斯发明了小行星定位的数学方法，并在数据分析中使用最小二乘方法进行计算，准确地预测了谷神星的位置。

扯了半天最小二乘法，没看出和正态分布有任何关系啊，离题了吧？单就最小二乘法本身，虽然很实用，不过看上去更多的算是一个代数方法，虽然可以推导出最优解，对于解的误差有多大，无法给出有效的分析，而这个就是正态分布粉墨登场发挥作用的地方。勒让德提出的最小二乘法，确实是一把在数据分析领域披荆斩棘的好刀，但是刀刃还是不够锋利；而这把刀的打造后来至少一半功劳被归到高斯，是因为高斯不但独自地给出了造刀的方法，而且把最小二乘这把刀的刀刃造得无比锋利，把最小二乘打造为了一把瑞士军刀。

高斯拓展了最小二乘法，把正态分布和最小二乘法联系在一起，并使得正态分布在统计误差分析中确立了自己的定位，否则正态分布就不会被称为高斯分布了。那高斯这位神人是如何把正态分布引入到误差分析之中，打造最小二乘这把瑞士军刀的呢？

四、众里寻她千百度，误差分布曲线的确立

为次测量值，每次测量的误差为 e_i = _i - theta/>，若用算术平均<img src='http://pic.caixin.com/blog/Mon_1301/1357716601_shSFxe.png' style=

【Simpson的误差态分布曲线】

有下面的估计：

< ) ge P(|| < )/>相比于取小值的机会更大。辛普森的这个工作很粗糙，但是这是第一次在一个特定情况下，从概率论的角度严格证明了算术平均的优良性。

在1772-1774年间，拉普拉斯也加入到了寻找误差分布函数的队伍中。拉普拉斯假定误差分布函数满足如下性质

-f'() = mf()/></span>.</center><center></center>由此最终求得的分布函数为<p></p><center><span ><img src='http://pic.caixin.com/blog/Mon_1301/1357716601_mNuxRt.gif' style=

【Laplace的误差态分布曲线】

以这个函数作为误差分布，拉普拉斯开始考虑如何基于测量的结果去估计未知参数的值。拉普拉斯可以算是一个贝叶斯主义者，他的参数估计的原则和现代贝叶斯方法非常相似：假设先验分布是均匀的，计算出参数的后验分布后，取后验分布的中值点，即为次独立测量值，每次测量的误差为 e_i = _i - theta/>，假设误差<img title= 误差分布导出的极大似然估计 = 算术平均值.

然后高斯去找误差密度函数 f/>以迎合这一点。即寻找这样的概率分布函数<img title=

误差分布导出的极大似然估计 = 算术平均值

设真值为，而 _1, cdots, _n/>为<img/>次独立测量值，每次测量的误差为<img src='http://pic.caixin.com/blog/Mon_1301/1357716601_JbGBeP.gif' style= ，且 $_{m+1} = m/>，则有<img src='http://pic.caixin.com/blog/Mon_1301/1357716601_UlnteM.gif' style=$ 的数学公式的时候，就会问：圆在哪里？这个推导中使用到了 ^2+y^2/>，也就是告诉我们正态分布密度公式中有个<img src='http://pic.caixin.com/blog/Mon_1301/1357716601_ZRmvtT.png' style='vertical-align: middle; border: none; padding-bottom:2p;' alt= ，其根源来在于二维正态分布中的等高线恰好是个圆。

3. Landon的推导(1941)

第三条道是一位电气工程师，Vernon D. Landon 给出的。1941年，Landon 研究通信电路中的噪声电压，通过分析经验数据他发现噪声电压的分布模式很相似，不同的是分布的层级，而这个层级可以使用方差 sigma^2/>来刻画。因此他推理认为噪声电压的分布函数形式是<img src='http://pic.caixin.com/blog/Mon_1301/1357716601_qKYbQl.gif' style= 而言很微小的误差扰动 e/>，且<img title= 增加为 $sigma^2 + var(e) = sigma^2 + bar{e^2}/>,所以按照Landon的分布函数模式不变的假设，新的噪声电压的分布函数应该为<img src='http://pic.caixin.com/blog/Mon_1301/1357716601_iwOFqV.gif' style=$ 处做泰勒级数展开，得到

$begin{equation} label{landon-sigma} displaystyle f() = p + frac{partial p}{partial sigma^2}bar{e^2} + o(bar{e^2}). ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(9)end{equation}/></center>比较(8)和(9)这两个式子，可以得到如下偏微分方程<center><img src='http://pic.caixin.com/blog/Mon_1301/1357716601_oQSbwg.png' style=$ 和方差 sigma^2/>(给定均值和方差这个条件，也可以描述为给定一阶原点矩和二阶原点矩，这两个条件是等价的)则在所有满足这两个限制的概率分布中，熵最大的概率分布<img title=

和方差

sigma^2/></span>下，我们取<span ><img src='http://pic.caixin.com/blog/Mon_1301/1357716601_SzptJd.png' style=

—Henri Poincaré

关于本文

本文为作者授权转载于善科文库：http://www.mysanco.com/inde.php? src="http://www1.feedsky.com/t1/707388612/songshuhui/feedsky/s.gif?r=http://songshuhui.net/archives/76501" border="0" height="0" width="0" style="position:absolute" /<