【概率论】关于为什么样本标准偏差分母是n-1的进一步理解
admin
2024-02-26 22:11:35
0

上接物理实验引发的思考:总体标准偏差和样本标准偏差的区别是什么?标准偏差和标准误的区别是什么?,现在系统地学了概率论与数理统计,有了新的理解。


首先我们再回顾一些概念。设总体为XXX,样本为X1,X2,⋯,XnX_1,X_2,\cdots,X_nX1​,X2​,⋯,Xn​,这些样本相互独立且与XXX同分布。定义样本均值Xˉ=∑i=1nXin\bar{X}=\frac{\sum\limits_{i=1}^n X_i}{n}Xˉ=ni=1∑n​Xi​​,样本方差S2=1n−1∑i=1n(Xi−Xˉ)2=1n−1(∑i=1nXi2−nXˉ2)S^2=\frac{1}{n-1}\sum\limits_{i=1}^n(X_i-\bar{X})^2=\frac{1}{n-1}\left(\sum\limits_{i=1}^nX_i^2-n\bar{X}^2\right)S2=n−11​i=1∑n​(Xi​−Xˉ)2=n−11​(i=1∑n​Xi2​−nXˉ2),样本标准差S=S2S=\sqrt{S^2}S=S2​。为什么要除以n−1n-1n−1呢?我有两种思考方式。

第一种,想一个极端一点的情况。假如n=1n=1n=1,即只有一个样本的时候会发生什么呢?如果分母是n−1n-1n−1,那么因为1n−1\frac{1}{n-1}n−11​不存在,所以样本方差也不存在,这与我们的认识是相符的——只有一个点不能反映样本分布的离散程度。但如果分母是nnn会怎么样呢?此时样本方差应该为11(X1−Xˉ)2=(X1−X1)2=0\frac{1}{1}(X_1-\bar{X})^2=(X_1-X_1)^2=011​(X1​−Xˉ)2=(X1​−X1​)2=0。这显然是不对的,方差为000说明这个随机变量只能取一个值,而只有一个样本并不能证明这一点。显然,当n=1n=1n=1的时候,我们希望方差不存在,所以分母取n−1n-1n−1是合情合理的。

第二种,我们考虑一下无偏性的定义。我们算样本方差S2S^2S2,最终目的是要估计总体方差σ2\sigma^2σ2,根据无偏性的定义,应该要求E(S2)=σ2E(S^2)=\sigma^2E(S2)=σ2,即要求S2S^2S2的期望是σ2\sigma^2σ2。假设S2=1C∑i=1n(Xi−Xˉ)2=1C(∑i=1nXi2−nXˉ2)S^2=\frac{1}{C}\sum\limits_{i=1}^n(X_i-\bar{X})^2=\frac{1}{C}\left(\sum\limits_{i=1}^nX_i^2-n\bar{X}^2\right)S2=C1​i=1∑n​(Xi​−Xˉ)2=C1​(i=1∑n​Xi2​−nXˉ2),我们将证明:当E(S2)=σ2E(S^2)=\sigma^2E(S2)=σ2时,有C=n−1C=n-1C=n−1。
E(S2)=E[1C∑i=1n(Xi−Xˉ)2]=1CE[∑i=1n(Xi−Xˉ)2]=nCE[(Xi−Xˉ)2]\begin{aligned} E(S^2)&=E\left[\frac{1}{C}\sum\limits_{i=1}^n(X_i-\bar{X})^2\right]\\ &=\frac{1}{C}E\left[\sum\limits_{i=1}^n(X_i-\bar{X})^2\right]\\ &=\frac{n}{C}E\left[(X_i-\bar{X})^2\right] \end{aligned} E(S2)​=E[C1​i=1∑n​(Xi​−Xˉ)2]=C1​E[i=1∑n​(Xi​−Xˉ)2]=Cn​E[(Xi​−Xˉ)2]​
其中iii可以是1,2,⋯,n1,2,\cdots,n1,2,⋯,n中的任意一个数(反正都一样)。
那么E[(Xi−X)2]E\left[(X_i-X)^2\right]E[(Xi​−X)2]等于多少呢?我们知道,随机变量ZZZ的方差D(Z)=E(Z2)−[E(Z)]2D(Z)=E(Z^2)-[E(Z)]^2D(Z)=E(Z2)−[E(Z)]2,因此E[(Xi−Xˉ)2]=D(Xi−Xˉ)+[E(Xi−Xˉ)]2E\left[(X_i-\bar{X})^2\right]=D(X_i-\bar{X})+[E(X_i-\bar{X})]^2E[(Xi​−Xˉ)2]=D(Xi​−Xˉ)+[E(Xi​−Xˉ)]2。其中E(Xi−Xˉ)=0E(X_i-\bar{X})=0E(Xi​−Xˉ)=0,所以就变成了E[(Xi−Xˉ)2]=D(Xi−Xˉ)E\left[(X_i-\bar{X})^2\right]=D(X_i-\bar{X})E[(Xi​−Xˉ)2]=D(Xi​−Xˉ)。
而我们又知道D(A−B)=D(A)+D(B)−2Cov(A,B)D(A-B)=D(A)+D(B)-2\text{Cov}(A,B)D(A−B)=D(A)+D(B)−2Cov(A,B),其中Cov(A,B)\text{Cov}(A,B)Cov(A,B)表示AAA和BBB的协方差。那么D(Xi−Xˉ)=D(Xi)+D(Xˉ)−2Cov(Xi,Xˉ)D(X_i-\bar{X})=D(X_i)+D(\bar{X})-2\text{Cov}(X_i,\bar{X}) D(Xi​−Xˉ)=D(Xi​)+D(Xˉ)−2Cov(Xi​,Xˉ)而D(Xi)=σ2D(X_i)=\sigma^2D(Xi​)=σ2,D(Xˉ)=D[1n∑i=1nXi]=1n2nD(Xi)=σ2nD(\bar{X})=D\left[\frac{1}{n}\sum\limits_{i=1}^nX_i\right]=\frac{1}{n^2}nD(X_i)=\frac{\sigma^2}{n}D(Xˉ)=D[n1​i=1∑n​Xi​]=n21​nD(Xi​)=nσ2​,现在就是要求Cov(Xi,Xˉ)\text{Cov}(X_i,\bar{X})Cov(Xi​,Xˉ)。
设总体的均值为E(X)=μE(X)=\muE(X)=μ,则Cov(Xi,Xˉ)=E(XiXˉ)−E(Xi)E(Xˉ)=E[1n∑j=1nXjXi]−μ2=1n[∑j=1j≠inE(XjXi)+E(Xi2)]−μ2\begin{aligned} \text{Cov}(X_i,\bar{X})&=E(X_i\bar{X})-E(X_i)E(\bar{X})\\ &=E\left[\frac{1}{n}\sum\limits_{j=1}^nX_jX_i\right]-\mu^2\\ &=\frac{1}{n}\left[\sum\limits_{\underset{j\ne i}{j=1}}^nE(X_jX_i)+E(X_i^2)\right]-\mu^2 \end{aligned} Cov(Xi​,Xˉ)​=E(Xi​Xˉ)−E(Xi​)E(Xˉ)=E[n1​j=1∑n​Xj​Xi​]−μ2=n1​⎣⎢⎡​j​=ij=1​∑n​E(Xj​Xi​)+E(Xi2​)⎦⎥⎤​−μ2​当j≠ij\ne ij​=i时,E(XjXi)=E(Xj)E(Xi)=μ2E(X_jX_i)=E(X_j)E(X_i)=\mu^2E(Xj​Xi​)=E(Xj​)E(Xi​)=μ2,而E(Xi2)=D(Xi)+[E(Xi)]2=σ2+μ2E(X_i^2)=D(X_i)+[E(X_i)]^2=\sigma^2+\mu^2E(Xi2​)=D(Xi​)+[E(Xi​)]2=σ2+μ2,故Cov(Xi,Xˉ)=E(XiXˉ)−E(Xi)E(Xˉ)=E[1n∑j=1nXjXi]−μ2=1n[(n−1)μ2+σ2+μ2]−μ2=σ2n\begin{aligned} \text{Cov}(X_i,\bar{X})&=E(X_i\bar{X})-E(X_i)E(\bar{X})\\ &=E\left[\frac{1}{n}\sum\limits_{j=1}^nX_jX_i\right]-\mu^2\\ &=\frac{1}{n}\left[(n-1)\mu^2+\sigma^2+\mu^2\right]-\mu^2\\ &=\frac{\sigma^2}{n} \end{aligned}Cov(Xi​,Xˉ)​=E(Xi​Xˉ)−E(Xi​)E(Xˉ)=E[n1​j=1∑n​Xj​Xi​]−μ2=n1​[(n−1)μ2+σ2+μ2]−μ2=nσ2​​因此D(Xi−Xˉ)=D(Xi)+D(Xˉ)−2Cov(Xi,Xˉ)=n−1nσ2D(X_i-\bar{X})=D(X_i)+D(\bar{X})-2\text{Cov}(X_i,\bar{X})=\frac{n-1}{n}\sigma^2 D(Xi​−Xˉ)=D(Xi​)+D(Xˉ)−2Cov(Xi​,Xˉ)=nn−1​σ2令E(S2)=σ2E(S^2)=\sigma^2E(S2)=σ2,即nCD(Xi−Xˉ)=σ2\frac{n}{C}D(X_i-\bar{X})=\sigma^2Cn​D(Xi​−Xˉ)=σ2,得C=n−1C=n-1C=n−1。
从上面的推导中,我们观察出:导致n−1n-1n−1出现的原因是Cov(Xi,Xˉ)\text{Cov}(X_i,\bar{X})Cov(Xi​,Xˉ)不为000。这很好理解:Xˉ\bar{X}Xˉ的一部分就是XiX_iXi​,二者是有相关性的。试想一下,如果XiX_iXi​减的不是Xˉ\bar{X}Xˉ,而是μ\muμ,那么就不用减去协方差了,最后就得到C=nC=nC=n。
综上,分母是n−1n-1n−1而不是nnn的原因是:我们无法获知总体均值μ\muμ,只能使用样本均值Xˉ\bar{X}Xˉ代替,而样本均值本身就是由各个XiX_iXi​组成的,XiX_iXi​围绕Xˉ\bar{X}Xˉ的离散程度会比围绕μ\muμ小一些,所以如果分母是nnn就低估了方差值,应该变成n−1n-1n−1从而使方差大一些。


其实在算E(S2)E(S^2)E(S2)有更简单的方法——利用S2=1C(∑i=1nXi2−nXˉ2)S^2=\frac{1}{C}\left(\sum\limits_{i=1}^nX_i^2-n\bar{X}^2\right)S2=C1​(i=1∑n​Xi2​−nXˉ2)计算,但不直观,所以我们采用了更能反映问题本质的方法。

相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
A.机器学习入门算法(三):基... 机器学习算法(三):K近邻(k-nearest neigh...
数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库,支持多种数据结构。以下是...
win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...
MySQL基础-多表查询 文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...
keil调试专题篇 调试的前提是需要连接调试器比如STLINK。 然后点击菜单或者快捷图标均可进入调试模式。 如果前面...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
IHome主页 - 让你的浏览... 随着互联网的发展,人们越来越离不开浏览器了。每天上班、学习、娱乐,浏览器...
TCP 协议 一、TCP 协议概念 TCP即传输控制协议(Transmission Control ...
营业执照的经营范围有哪些 营业执照的经营范围有哪些 经营范围是指企业可以从事的生产经营与服务项目,是进行公司注册...
C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题: 无法知道当前使用的类型是什...
血压计语音芯片,电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计,测量前至测量结果全程语音播报࿰...
MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...
【2023-Pytorch-检... (肆十二想说的一些话)Yolo这个系列我们已经更新了大概一年的时间,现在基本的流程也走走通了,包含数...
实战项目:保险行业用户分类 这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...
记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前段时间接触了Th...
43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...