上接物理实验引发的思考:总体标准偏差和样本标准偏差的区别是什么?标准偏差和标准误的区别是什么?,现在系统地学了概率论与数理统计,有了新的理解。
首先我们再回顾一些概念。设总体为XXX,样本为X1,X2,⋯,XnX_1,X_2,\cdots,X_nX1,X2,⋯,Xn,这些样本相互独立且与XXX同分布。定义样本均值Xˉ=∑i=1nXin\bar{X}=\frac{\sum\limits_{i=1}^n X_i}{n}Xˉ=ni=1∑nXi,样本方差S2=1n−1∑i=1n(Xi−Xˉ)2=1n−1(∑i=1nXi2−nXˉ2)S^2=\frac{1}{n-1}\sum\limits_{i=1}^n(X_i-\bar{X})^2=\frac{1}{n-1}\left(\sum\limits_{i=1}^nX_i^2-n\bar{X}^2\right)S2=n−11i=1∑n(Xi−Xˉ)2=n−11(i=1∑nXi2−nXˉ2),样本标准差S=S2S=\sqrt{S^2}S=S2。为什么要除以n−1n-1n−1呢?我有两种思考方式。
第一种,想一个极端一点的情况。假如n=1n=1n=1,即只有一个样本的时候会发生什么呢?如果分母是n−1n-1n−1,那么因为1n−1\frac{1}{n-1}n−11不存在,所以样本方差也不存在,这与我们的认识是相符的——只有一个点不能反映样本分布的离散程度。但如果分母是nnn会怎么样呢?此时样本方差应该为11(X1−Xˉ)2=(X1−X1)2=0\frac{1}{1}(X_1-\bar{X})^2=(X_1-X_1)^2=011(X1−Xˉ)2=(X1−X1)2=0。这显然是不对的,方差为000说明这个随机变量只能取一个值,而只有一个样本并不能证明这一点。显然,当n=1n=1n=1的时候,我们希望方差不存在,所以分母取n−1n-1n−1是合情合理的。
第二种,我们考虑一下无偏性的定义。我们算样本方差S2S^2S2,最终目的是要估计总体方差σ2\sigma^2σ2,根据无偏性的定义,应该要求E(S2)=σ2E(S^2)=\sigma^2E(S2)=σ2,即要求S2S^2S2的期望是σ2\sigma^2σ2。假设S2=1C∑i=1n(Xi−Xˉ)2=1C(∑i=1nXi2−nXˉ2)S^2=\frac{1}{C}\sum\limits_{i=1}^n(X_i-\bar{X})^2=\frac{1}{C}\left(\sum\limits_{i=1}^nX_i^2-n\bar{X}^2\right)S2=C1i=1∑n(Xi−Xˉ)2=C1(i=1∑nXi2−nXˉ2),我们将证明:当E(S2)=σ2E(S^2)=\sigma^2E(S2)=σ2时,有C=n−1C=n-1C=n−1。
E(S2)=E[1C∑i=1n(Xi−Xˉ)2]=1CE[∑i=1n(Xi−Xˉ)2]=nCE[(Xi−Xˉ)2]\begin{aligned} E(S^2)&=E\left[\frac{1}{C}\sum\limits_{i=1}^n(X_i-\bar{X})^2\right]\\ &=\frac{1}{C}E\left[\sum\limits_{i=1}^n(X_i-\bar{X})^2\right]\\ &=\frac{n}{C}E\left[(X_i-\bar{X})^2\right] \end{aligned} E(S2)=E[C1i=1∑n(Xi−Xˉ)2]=C1E[i=1∑n(Xi−Xˉ)2]=CnE[(Xi−Xˉ)2]
其中iii可以是1,2,⋯,n1,2,\cdots,n1,2,⋯,n中的任意一个数(反正都一样)。
那么E[(Xi−X)2]E\left[(X_i-X)^2\right]E[(Xi−X)2]等于多少呢?我们知道,随机变量ZZZ的方差D(Z)=E(Z2)−[E(Z)]2D(Z)=E(Z^2)-[E(Z)]^2D(Z)=E(Z2)−[E(Z)]2,因此E[(Xi−Xˉ)2]=D(Xi−Xˉ)+[E(Xi−Xˉ)]2E\left[(X_i-\bar{X})^2\right]=D(X_i-\bar{X})+[E(X_i-\bar{X})]^2E[(Xi−Xˉ)2]=D(Xi−Xˉ)+[E(Xi−Xˉ)]2。其中E(Xi−Xˉ)=0E(X_i-\bar{X})=0E(Xi−Xˉ)=0,所以就变成了E[(Xi−Xˉ)2]=D(Xi−Xˉ)E\left[(X_i-\bar{X})^2\right]=D(X_i-\bar{X})E[(Xi−Xˉ)2]=D(Xi−Xˉ)。
而我们又知道D(A−B)=D(A)+D(B)−2Cov(A,B)D(A-B)=D(A)+D(B)-2\text{Cov}(A,B)D(A−B)=D(A)+D(B)−2Cov(A,B),其中Cov(A,B)\text{Cov}(A,B)Cov(A,B)表示AAA和BBB的协方差。那么D(Xi−Xˉ)=D(Xi)+D(Xˉ)−2Cov(Xi,Xˉ)D(X_i-\bar{X})=D(X_i)+D(\bar{X})-2\text{Cov}(X_i,\bar{X}) D(Xi−Xˉ)=D(Xi)+D(Xˉ)−2Cov(Xi,Xˉ)而D(Xi)=σ2D(X_i)=\sigma^2D(Xi)=σ2,D(Xˉ)=D[1n∑i=1nXi]=1n2nD(Xi)=σ2nD(\bar{X})=D\left[\frac{1}{n}\sum\limits_{i=1}^nX_i\right]=\frac{1}{n^2}nD(X_i)=\frac{\sigma^2}{n}D(Xˉ)=D[n1i=1∑nXi]=n21nD(Xi)=nσ2,现在就是要求Cov(Xi,Xˉ)\text{Cov}(X_i,\bar{X})Cov(Xi,Xˉ)。
设总体的均值为E(X)=μE(X)=\muE(X)=μ,则Cov(Xi,Xˉ)=E(XiXˉ)−E(Xi)E(Xˉ)=E[1n∑j=1nXjXi]−μ2=1n[∑j=1j≠inE(XjXi)+E(Xi2)]−μ2\begin{aligned} \text{Cov}(X_i,\bar{X})&=E(X_i\bar{X})-E(X_i)E(\bar{X})\\ &=E\left[\frac{1}{n}\sum\limits_{j=1}^nX_jX_i\right]-\mu^2\\ &=\frac{1}{n}\left[\sum\limits_{\underset{j\ne i}{j=1}}^nE(X_jX_i)+E(X_i^2)\right]-\mu^2 \end{aligned} Cov(Xi,Xˉ)=E(XiXˉ)−E(Xi)E(Xˉ)=E[n1j=1∑nXjXi]−μ2=n1⎣⎢⎡j=ij=1∑nE(XjXi)+E(Xi2)⎦⎥⎤−μ2当j≠ij\ne ij=i时,E(XjXi)=E(Xj)E(Xi)=μ2E(X_jX_i)=E(X_j)E(X_i)=\mu^2E(XjXi)=E(Xj)E(Xi)=μ2,而E(Xi2)=D(Xi)+[E(Xi)]2=σ2+μ2E(X_i^2)=D(X_i)+[E(X_i)]^2=\sigma^2+\mu^2E(Xi2)=D(Xi)+[E(Xi)]2=σ2+μ2,故Cov(Xi,Xˉ)=E(XiXˉ)−E(Xi)E(Xˉ)=E[1n∑j=1nXjXi]−μ2=1n[(n−1)μ2+σ2+μ2]−μ2=σ2n\begin{aligned} \text{Cov}(X_i,\bar{X})&=E(X_i\bar{X})-E(X_i)E(\bar{X})\\ &=E\left[\frac{1}{n}\sum\limits_{j=1}^nX_jX_i\right]-\mu^2\\ &=\frac{1}{n}\left[(n-1)\mu^2+\sigma^2+\mu^2\right]-\mu^2\\ &=\frac{\sigma^2}{n} \end{aligned}Cov(Xi,Xˉ)=E(XiXˉ)−E(Xi)E(Xˉ)=E[n1j=1∑nXjXi]−μ2=n1[(n−1)μ2+σ2+μ2]−μ2=nσ2因此D(Xi−Xˉ)=D(Xi)+D(Xˉ)−2Cov(Xi,Xˉ)=n−1nσ2D(X_i-\bar{X})=D(X_i)+D(\bar{X})-2\text{Cov}(X_i,\bar{X})=\frac{n-1}{n}\sigma^2 D(Xi−Xˉ)=D(Xi)+D(Xˉ)−2Cov(Xi,Xˉ)=nn−1σ2令E(S2)=σ2E(S^2)=\sigma^2E(S2)=σ2,即nCD(Xi−Xˉ)=σ2\frac{n}{C}D(X_i-\bar{X})=\sigma^2CnD(Xi−Xˉ)=σ2,得C=n−1C=n-1C=n−1。
从上面的推导中,我们观察出:导致n−1n-1n−1出现的原因是Cov(Xi,Xˉ)\text{Cov}(X_i,\bar{X})Cov(Xi,Xˉ)不为000。这很好理解:Xˉ\bar{X}Xˉ的一部分就是XiX_iXi,二者是有相关性的。试想一下,如果XiX_iXi减的不是Xˉ\bar{X}Xˉ,而是μ\muμ,那么就不用减去协方差了,最后就得到C=nC=nC=n。
综上,分母是n−1n-1n−1而不是nnn的原因是:我们无法获知总体均值μ\muμ,只能使用样本均值Xˉ\bar{X}Xˉ代替,而样本均值本身就是由各个XiX_iXi组成的,XiX_iXi围绕Xˉ\bar{X}Xˉ的离散程度会比围绕μ\muμ小一些,所以如果分母是nnn就低估了方差值,应该变成n−1n-1n−1从而使方差大一些。
其实在算E(S2)E(S^2)E(S2)有更简单的方法——利用S2=1C(∑i=1nXi2−nXˉ2)S^2=\frac{1}{C}\left(\sum\limits_{i=1}^nX_i^2-n\bar{X}^2\right)S2=C1(i=1∑nXi2−nXˉ2)计算,但不直观,所以我们采用了更能反映问题本质的方法。