无规则采集器列表算法(贷款量就是数据挖掘中的分类与预测方法进行介绍!)
优采云 发布时间: 2022-01-13 11:08无规则采集器列表算法(贷款量就是数据挖掘中的分类与预测方法进行介绍!)
分类和预测是使用数据进行预测的两种方式,可用于确定未来的结果。
分类用于预测数据对象的离散类别,需要预测的属性值是离散无序的。
Prediction用于预测数据对象的连续值,需要预测的属性值是连续的、有序的。
例如,在银行业务中,根据贷款申请人的信息确定贷款人属于“安全”类还是“风险”类,是数据挖掘中的一项分类任务。分析贷款人的贷款量是数据挖掘中的预测任务。
本节将介绍常用的分类和预测方法,其中一些只能用于分类或预测,但有些算法可以同时用于分类和预测。分类的基本概念分类算法反映了如何找出相似事物的共同性质的特征知识和不同事物之间的差异特征知识。分类是通过引导学习训练建立分类模型,并利用该模型对未知分类的实例进行分类。分类输出属性是离散且无序的。
分类技术在许多领域都有应用。目前,营销的一个非常重要的特点就是强调客户细分。使用数据挖掘中的分类技术,可以将客户分为不同的类别。
例如,可以通过客户分类构建分类模型来评估银行贷款的风险;在设计呼叫中心时,可以将客户划分为来电频繁的客户、偶尔来电的客户、来电稳定的客户等,以帮助呼叫中心找到这些不同类型的客户之间的特征,这样的分类模型可以让用户了解客户在不同行为类别中的分布特征。
其他分类应用包括文档检索和搜索引擎中的自动文本分类技术,以及安全领域中基于分类的入侵检测。
分类就是通过学习已有的数据集(训练集)来得到一个目标函数f(模型),将每个属性集X映射到目标属性y(类)(y必须是离散的)。
分类过程是一个两步过程:第一步是模型构建阶段或训练阶段,第二步是评估阶段。1)训练阶段 训练阶段的目的是为一组预定义的数据类或概念描述分类模型。这个阶段需要从已知数据集中选择一部分数据作为构建模型的训练集,剩下的部分作为测试集。通常从已知数据集中选取 2/3 的数据项作为训练集,将 1/3 的数据项作为测试集。
训练数据集由一组数据元组组成,每个元组都假定已经属于一个预先指定的类别。训练阶段可以看作是学习映射函数的过程,通过该映射函数可以预测给定元组 x 的类标签。映射函数是对数据集进行训练得到的模型(或分类器),如图1所示。模型可以用分类规则、决策树或数学公式的形式表示。
图1 分类算法的训练阶段
2)评估阶段在评估阶段,需要使用第一阶段建立的模型对测试集数据元组进行分类,从而评估分类模型的预测精度,如图2所示。
分类器的准确性是分类器在给定测试数据集上正确分类的测试元组的百分比。如果认为分类器的准确性可以接受,则使用分类器对类别标签未知的数据元组进行分类。
图2 分类算法的评估阶段
预测的基本概念预测模型类似于分类模型,可以看作是一个映射或函数 y=f(x),其中 x 是输入元组,输出 y 是连续或有序值。与分类算法不同的是,预测算法需要预测的属性值是连续的、有序的,而分类需要预测的属性值是离散的、无序的。
数据挖掘的预测算法和分类算法一样,是一个两步过程。测试数据集和训练数据集在预测任务中也应该是独立的。预测的准确性是通过 y 的预测值与实际已知值之间的差异来评估的。
预测和分类之间的区别在于,分类用于预测数据对象的类标签,而预测是估计一些空值或未知值。例如,预测明天上证综指收盘价是上涨还是下跌是一个分类,但如果要预测明天上证综指的收盘价是多少,它就是一个预测。