回归模型中的多重共线性 + 危害 + 原因 + 判断标准 + 解决办法,回归系数
迪丽瓦拉
2025-05-29 14:56:37
0

1. 多重共线性       

        多重共线性是指线性回归模型中的解释变量之间由于存在精确或高度相关关系

        例如:某个回归模型包含2个变量,年龄工作经验年数,常识可知年龄越大,工作经验年数越大,两个变量可能存在高度关联,因此模型中可能存在多重共线性

2. 多重共线性的危害

        a. 模型估计失真难以估计准确 稳定性降低,意味着回归方程的标准误差可能会增大;

        b. 模型参数估计不准确,方差大,这也是模型估计不准的原进一步原因,至于为什么看3

        c. 无法判断单独变量的影响,计算特征贡献度;

        d. 因此自变量显著性可能会失去意义,本应该显著的自变量不显著,本不显著的自变量却是显著

3. 共线性的存在导致模型估计不准的原因

        最小化损失函数的目的是找到一组最优回归系数,宏观定义上可以理解为模型参数。多重共线性的存在会导致模型参数估计不准确,进而导致模型估计失真估计不准的问题

        简单穿插一下回归系数的概念:

回归系数:regression coefficient

        回归系数在 回归方程 中表示 自变量 x 对 因变量 y 影响大小的参数,它反映当自变量每变化一个单位时,因变量所期望的变化量

        回归系数越大表示 x 对 y 的影响越大,正回归系数表示 y 随 x 增大而增大,负回归系数表示 y 随 x 增大而减小。

        例如回归方程式Y=bX+a中,斜率 b称为回归系数,表示X每变动一单位,平均而言,Y将变动b单位。

更通俗的讲:从线性回归的角度进一步理解回归系数。

        变量 y 与变量 x = (x1, x2, x3.....,xn),之间的关系是 Y=f(x) +\varepsilon,此时称 f(x) 为 y 对 x 的回归,f(x) 称为回归函数。通常在正态分布情形,若 f(x) 是 x 的线性函数\beta _{x}^{T} + \beta _{0} ,\beta _{0}是回归常数,\beta _{x}^{T} = (\beta _{1}, \beta _{2}, \beta _{3}, ... , \beta _{n}) 称为回归系数

        回到多重共线性的危害上:

        如果模型中存在多重共线性,这说明至少有两个自变量 A 和 B 是高度或完全相关的,即两个变量的变化趋势一致,其中一个变化,另一个也会发生类似的变化。相关性越强,在只改变A,不改变B的情况下,单纯从A的变化解释Y的变化就很困难,也就是和实际不符(实际环境可能是从A和B共同变化的角度解释Y的变化,因此很难理解)。

        因此,会降低估计系数的可信度 或者 降低模型 的稳定性和性能。

4. 判断标准

        a. 皮尔逊相关系数,可以解释连续型变量之间的线性相关程度,该值大于0.8,则可以认为存在多重共线性;对于连续型—离散型和离散型—离散型的变量对,则可以利用其他的方式(后续会另开一篇);

        b.  实现增加一个变量或者删除一个变量,观察回归系数的值是否有很大变化,若变化很大,则说明该变量的估计系数不可信 或 不稳定;

        c. 如果说 F 检验通过,并且决定系数值也较大,但是 t 检验并不显著,也可能存在多重共线性;

        d. 回归系数的正负符号与专业知识相反或与实际分析结果不符,也会存在多重共线性的可能。

以上a ~ d,均为主观判断方法;还有一种正规的检验方法!

        观察回归分析中的VIF值(方差膨胀因子),表达式1 / (1 - r2)。多重共线性会使参数估计值的方差变大,方差膨胀因子越大,说明共线性越强。通常的判断标准是VIF值大于10,即具有多重共线性,有的文献也说大于5即有共线性。​​​​​​​

5. 解决办法,如何消除多重共线性​​​​​​​

        a. 保留一个变量,并删除与其高度相关的其他变量,以逐步回归法得到最广泛的应用;

        b. 引入L1 和 L2 正则化,减少参数量的方差,降低VIF,可以处理多重共线性;

        c. 特征合并或者特征组合,将相关变量线性组合在一起处理;

        d. 特征降维,如PCA

        e. 差分法,时间序列数据、线性模型:将原模型变换为差分模型(转自百度百科,我没懂。。)

上述内容源自:回归系数_百度百科,多重共线性_百度百科,​​​​​​​速进!!关于多重共线性你知道多少? - 知乎 以及 自己的学习和理解,可以的话,这几篇都可以看看。

相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
A.机器学习入门算法(三):基... 机器学习算法(三):K近邻(k-nearest neigh...
数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库,支持多种数据结构。以下是...
win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...
MySQL基础-多表查询 文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...
keil调试专题篇 调试的前提是需要连接调试器比如STLINK。 然后点击菜单或者快捷图标均可进入调试模式。 如果前面...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
IHome主页 - 让你的浏览... 随着互联网的发展,人们越来越离不开浏览器了。每天上班、学习、娱乐,浏览器...
TCP 协议 一、TCP 协议概念 TCP即传输控制协议(Transmission Control ...
营业执照的经营范围有哪些 营业执照的经营范围有哪些 经营范围是指企业可以从事的生产经营与服务项目,是进行公司注册...
C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题: 无法知道当前使用的类型是什...
血压计语音芯片,电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计,测量前至测量结果全程语音播报࿰...
MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...
【2023-Pytorch-检... (肆十二想说的一些话)Yolo这个系列我们已经更新了大概一年的时间,现在基本的流程也走走通了,包含数...
实战项目:保险行业用户分类 这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...
记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前段时间接触了Th...
43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...