数据归约方法主要包括：

心理阅读(3.04W)

数据归约是指在尽可能保持数据原貌的前提下，最大限度地精简数据量（完成该任务的必要前提是理解挖掘任务和熟悉数据本身内容）。

数据归约主要有两个途径：属性选择和数据采样，分别针对原始数据集中的属性和记录。

假定在公司的数据仓库选择了数据，用于分析。这样数据集将非常大。

在海量数据上进行复杂的数据分析扣挖掘将需要很长时间，使得这种分析不现实或不可行。

数据归约技术可以用来得到数据集的归约表示，它虽然小，但仍大致保持原数据的完整性。这样，在归约后的数据集上挖掘将更有效，并产生相同(或几乎相同)的分析结果。

（1）计算时间：较简单的数据，即经过数据归约后的结果，可减少数据挖掘消耗的时间。

（2）预测/描述精度：估量了数据归纳和概括为模型的好坏。

（3）数据挖掘模型的描述：简单的描述通常来自数据归约，这样模型能得到更好理解。

数据归约算法特征：

（1）可测性

（2）可识别性

（3）单调性

（4）一致性

（5）收益增减

（6）中断性

（7）优先权

二、数据归约方法：

1、特征归约：

用相应特征检索数据通常不只为数据挖掘目的而收集，单独处理相关特征可以更有效，我们希望选择与数据挖掘应用相关的数据，以达到用最小的测量和处理量获得最好的性能。特征归约处理的效果：

（1）更少的数据，提高挖掘效率

（2）更高的数据挖掘处理精度

（3）简单的数据挖掘处理结果

（4）更少的特征。

和生成归约后的特征集有关的标准任务有两个：

（1）特征选择：基于应用领域的知识和挖掘目标，分析者可以选择初始数据集中的一个特征子集。特征排列算法，最小子集算法

（2）特征构成：特征构成依赖于应用知识。

特征选择的目标是要找出特征的一个子集，此子集在数据挖掘的性能上比得上整个特征集。特征选择的一种可行技术是基于平均值和方差的比较，此方法的主要缺点是特征的分布未知。最优方法的近似：

（1）只对有前景的特征子集进行检查

（2）用计算简单的距离度量替换误差度量

（3）只根据大量数据的子集选择特征。

标签：归约

图文推荐