
1.5 经验分布函数
设(X1,X2,…,Xn)是总体X的一个样本。如果是关于样本(X1,X2,…,Xn)的函数并满足如下条件:它总是取样本观察值(x1,x2,…,xn)按从小到大排序后第i个值为自己的观测值。那么就称
,
,…
为顺序统计量。顺序统计量可以简记为

特别地

称和
分别为样本的最小值和最大值。并称
为样本的极差。
此外,还可以定义

为样本的中位数。
基于顺序统计量,我们就可以来讨论经验分布函数(Empirical Distribution Functions,EDF)当概念了。设x1,x2,…,xn是总体X的一组容量为n的样本观测值,将它们按从小到大的顺序重新排列为,
,…
,对于任意实数x,定义函数

则称Fn(x)为总体X的经验分布函数。它还可以简记为,其中∗{x1,x2,…,xn}表示x1,x2,…,xn中不大于x的个数。
另外一种常见的表示形式为

其中,I是指示函数(indicator function),即

因此,求经验分布函数Fn(x)在一点x处的值,只要求出随机变量X的n个观测值x1,x2,…,xn中小于或等于x的个数,再除以观测次数n即可。由此可见,Fn(x)就是在n次重复独立实验中事件{X≤x}出现的频率。

图1-9 经验分布函数的图形
经验分布函数Fn(x)的图形(如图1-9所示)是一条呈跳跃上升的阶梯形曲线。如果样本观测值x1,x2,…,xn中没有重复的数值,则每一跳跃为1/n,若有重复l次的值,则按1/n的l倍跳跃上升。图中圆滑曲线是总体X的理论分布函数F(x)的图形。若把经验分布函数的图形连成折线,那么它实际就是累积频率直方图的上边。这和概率分布函数的性质是一致的。
根据大数定理可知,当试验次数增大时,事件的频率稳定于概率。那么,当试验次数增大时,表示事件{X≤x}出现频率的经验分布函数是否接近于事件{X≤x}出现概率的总体分布函数呢?这个问题可由格利文科定理(Glivenko Theorem)来回答。
格利文科定理:设总体X的分布函数为F(x),经验分布函数为Fn(x),则有

该定理揭示了总体X的理论分布函数与经验分布函数之间的内在联系。它指出当样本容量足够大时,从样本算得的经验分布函数Fn(x)与总体分布函数F(x)相差的最大值也可以足够小,这就是用样本来推断总体的数学依据。