数据挖掘 分类方法
admin
2024-04-18 06:06:12
0

分类的目的是学会一个分类函数或分类模型(分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类别。
分类可用于预测,常用的方法是回归,主要应用于医疗诊断,信用卡系统的信用分级、图像模式识别等。
分类器的构造方法有统计方法、机器学习方法、神经网络方法。

分类的基本概念与步骤

定义:给定一个数据库D = {t1,t2,……,tn }和一组类C={C1,C2,……,Cn},分类问题是去确定一个映射f:D->C,每个元素ti被分配到一个类中。一个类Cj包含映射到该类中的所有元组,即Cj={ti|f(ti)=Cj,1<=i<=n,且ti∈D}。
数据分类分为两个步骤,建模和使用。目的是分析输入数据,为每个类找到一种准确的描述或模型。
基本步骤:建立一个模型,描述预定的数据类集或概念集,然后使用模型进行分类。
数据元组也称作样本、实例或对象,为建立模型而被分析的数据元组形成训练数据集。样本随机抽取,并独立于训练样本。

基于距离的分类算法

给定一个数据库D= {t1, t2, …, tn}和一组类C={C1,C2, …, Cm}。对于任意的元组ti = {ti1, ti2, …, tik}∈D,如果存在一个Cj属于C,使得:sim(ti, Cj) ≥ sim(ti, Cp), 任意Cp∈C, Cp ≠ Cj,则ti被分配到类Cj中,其中sim成为相似性。
在实际的计算中往往用距离来表征,距离越近,相似性越大,距离越远,相似性越小。
简单的基于距离寻找待分类数据类表示的搜索算法:假定每个类Ci用类中心来表示,每个元组必须和各个类的中心来比较,从而可以找出最近的类中心得到确定的类别标记,复杂性一般为O(n)。
基本步骤:

dist = INF;//距离初始化
for i = 1 to m doif dis(ci, t)

k-最临近分类算法(kNN):假定每个类包含多个训练数据,且每个训练数据都有一个唯一的类别标记,k-最临近分类的主要思想就是计算每个训练数据到待分类元组的距离,取和待分类元组距离最近的k个训练数据,k个数据中哪个类别的训练数据占多数,则待分类元组就属于哪个类别。复杂度为O(nq)。
具体描述:

输入:	训练数据T;最临近数目k;待分类的元组t。
输出:	输出类别c。
N = σ;
for each d∈T do beginif |N|≤k thenN = N∪{d};elseif 存在u∈N such that sim(t,u) < sim(t,d) thenbeginN = N-{u};N = N ∪{d};end
end
c = class related to such u∈N which has the most number;

决策树分类方法

决策树:采用自顶而下的递归方式,在决策树内部结点进行属性值的比较并根据不同的属性值判断从该节点向下的分支,在决策树的叶节点得到结论。

决策树基本算法概述

决策树生成:决策树生成算法的输入是一组带有类别标记的例子,构造的结果是一棵二叉树或多叉树。

Generate_decision_tree//决策树生成算法
输入:训练样本sample,由离散值属性表示;候选属性的集合attribute_list。
输出:一棵决策树//由给定的训练数据产生一棵决策树
创建结点N
if sample 都在同一个类C then返回N作为叶节点,以类C标记;
if attribute_list 为空 then返回N作为叶节点,标记为samples中最普通的类;//多数表决
选择attribute_list中具有最高信息增益的属性test_attribute;
标记结点N为test_attribute;
for each test_attribute中的已知值ai//划分samples由结点N长出一个条件为test_attribute=ai的分支;
设si是samples中test_attribute=ai的样本的集合;//一个划分
if si 为空 then加上一个树叶,标记为samples中最普通的类;
else 加上一个由Generate_decision_tree(si,attribute_list-test_attribute)返回的结点;

决策树修剪:剪枝是一种克服噪声的基本技术,同时也能使树变得简化。
预先剪枝:子生成树的同时决定是继续对不纯的训练子集进行划分还是停机。
后剪枝:为一种拟合-化简的两阶段方法。首先生成于训练数据完全拟合的决策树,然后从树的叶子开始剪枝,逐步向根的方向剪。如果存在某个叶子剪去后使得在测试集上的准确度或其他测度不降低,则减去该叶子;否则停机。

ID3算法

ID3:决策树中每个非叶节点对应一个非类别属性,树枝代表这个属性的值。一个叶结点代表从树根到叶结点之间的路径对应的记录所属的类别属性值。每个非叶结点都将与属性中具有最大信息量的非类别属性相关联。采用信息增益来选择出能够最好地将样本分类的属性。
信息增益基于信息论中熵的概念,ID3总是选择具有最高信息增益的属性作为当前结点的测试属性。

相关内容

热门资讯

linux入门---制作进度条 了解缓冲区 我们首先来看看下面的操作: 我们首先创建了一个文件并在这个文件里面添加了...
C++ 机房预约系统(六):学... 8、 学生模块 8.1 学生子菜单、登录和注销 实现步骤: 在Student.cpp的...
A.机器学习入门算法(三):基... 机器学习算法(三):K近邻(k-nearest neigh...
数字温湿度传感器DHT11模块... 模块实例https://blog.csdn.net/qq_38393591/article/deta...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
Redis 所有支持的数据结构... Redis 是一种开源的基于键值对存储的 NoSQL 数据库,支持多种数据结构。以下是...
win下pytorch安装—c... 安装目录一、cuda安装1.1、cuda版本选择1.2、下载安装二、cudnn安装三、pytorch...
MySQL基础-多表查询 文章目录MySQL基础-多表查询一、案例及引入1、基础概念2、笛卡尔积的理解二、多表查询的分类1、等...
keil调试专题篇 调试的前提是需要连接调试器比如STLINK。 然后点击菜单或者快捷图标均可进入调试模式。 如果前面...
MATLAB | 全网最详细网... 一篇超超超长,超超超全面网络图绘制教程,本篇基本能讲清楚所有绘制要点&#...
IHome主页 - 让你的浏览... 随着互联网的发展,人们越来越离不开浏览器了。每天上班、学习、娱乐,浏览器...
TCP 协议 一、TCP 协议概念 TCP即传输控制协议(Transmission Control ...
营业执照的经营范围有哪些 营业执照的经营范围有哪些 经营范围是指企业可以从事的生产经营与服务项目,是进行公司注册...
C++ 可变体(variant... 一、可变体(variant) 基础用法 Union的问题: 无法知道当前使用的类型是什...
血压计语音芯片,电子医疗设备声... 语音电子血压计是带有语音提示功能的电子血压计,测量前至测量结果全程语音播报࿰...
MySQL OCP888题解0... 文章目录1、原题1.1、英文原题1.2、答案2、题目解析2.1、题干解析2.2、选项解析3、知识点3...
【2023-Pytorch-检... (肆十二想说的一些话)Yolo这个系列我们已经更新了大概一年的时间,现在基本的流程也走走通了,包含数...
实战项目:保险行业用户分类 这里写目录标题1、项目介绍1.1 行业背景1.2 数据介绍2、代码实现导入数据探索数据处理列标签名异...
记录--我在前端干工地(thr... 这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前段时间接触了Th...
43 openEuler搭建A... 文章目录43 openEuler搭建Apache服务器-配置文件说明和管理模块43.1 配置文件说明...