王爽 天津师范大学 天津 300387
引言
数据挖掘把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持服务.大数据的出现在为人们提供研究样本的同时,又由于数据质量的参差不齐,为数据挖掘带来了一定阻碍.以致于,数据挖掘之前的数据预处理显得尤为重要.目前对数据挖掘的研究主要集中于挖掘技术、挖掘算法、挖掘语言等.而事实上数据挖掘对所处理的数据有严格的质量要求.在数据挖掘过程中数据预处理至关重要.根据统计,在一个完整的数据挖掘过程中,数据预处理要花费60%左右的时间,而后的挖掘工作仅总工作量的10%左右.数据预处理主要包括数据清理、集成、转换和归纳.数据清理是处理数据中的遗漏和清洗脏数据.数据集成将多数据源中的数据进行合并处理,解决语义模糊性并整合成一致的数据存储.数据归约将辨别出需要挖掘的数据集合,缩小处理范围.
1 数据清洗
1.1 缺失值处理
因为无法获取或遗漏等原因造成某属性值不存在,会导致在建模时丢失有用信息,空值数据也会使建模过程造成不可靠的输出. 缺失值处理的有三种方法:直接使用含有缺失值的特征;删除含有缺失值的特征,该方法在包含缺失值的属性含有大量缺失值而仅仅包含极少量有效值时是有效的;缺失值补全.常见的缺失值补全方法包括均值插补、同类均值插补、建模预测、高维映射、多重插补、极大似然估计、压缩感知和矩阵补全.目前最常用的方法是使用最可能的值填充缺失值,比如可以用回归、贝叶斯形式化方法工具或判定树归纳等确定缺失值.这类方法依靠现有的数据信息来推测缺失值,使缺失值有更大的机会保持与其他属性之间的联系.1.2 异常值处理
异常值是数据集中偏离大部分数据的数据.从数据值上表现为:数据集中与平均值的偏差超过两倍标准差的数据,其中与平均值的偏差超过三倍标准差的数据,称为高度异常的异常值.异常值处理可以分为以下几种:第一种,直接删除异常值,这个方法的优点是简单易行.但缺点是在数据里少的情况下删除会造成样本量不足,直接删除的记录很可能会改变变量的原有分布,从而造成统计变量的原有分布,从而造成统计模型而不够稳定.第二种,暂且保留并,待结合整体模型综合分析.第三种,均值或其他统计量取代.缺点是针对利用均值进行建模的模型,用均值替代,客服丢失样本的缺陷.但缺点是,利用均值替代方法丢失了样本分布和特征.第四种,将其视为缺失值,利用统计模型填补.该方法可以利用现有变量的信息,对异常值增补.2 数据集成
数据集成是将来自多个数据源的数据合并在一起,形成一致的数据存储,如将不同数据库中的数据集成到一个数据仓库中存储.数据集成主要涉及冗余处理、模式集成和冲突数据检测和处理.(1)冗余处理:数据集成往往导致数据冗余,如同一属性多次出现、同一属性命名不一致等,对于属性间冗余可以用相关分析检测到,然后删除;
(2)模式集成:涉及实体识别,即如何将不同信息源中的实体匹配来进行模式集成.通常借助于数据库或数据仓库的元数据进行模式识别;
(3)数据值冲突的检测与处理:数据集成时将一个数据库的属性与另一个匹配时,要考虑数据的结构,用来保证原系统中的属性函数依赖和参照约束与目标系统中的匹配.
3 数据转换
数据转换是为了更高效率地数据挖掘,尽可能筛选更多具备实用价值的数据,一般情况,数据预处理中的转换技术采用平滑聚集、数据概化、语言修改等方式将数据转换成适用于数据挖掘的形式.数据预处理转换技术能够完成各类数据的转换,不同格式、类型的数据均能有效地转换成通用形式.4 数据归约
数据归约技术可以用来得到数据集的归约表示,它小得多,但是保持原始数据的完整性.也就是说,在归约后的数据集上挖掘更有效果,仍然产生相同或几乎形同的分析结果.数据归约包括维归约、数量归约和数据压缩.(1) 维归约:减少所考虑的随机变量或属性的个数.维归约方法包括小波变换和主成分分析,他们把原始数据变换或投影到较小的空间.属性子集选择是一种维归约方法,其中不相关、弱相关或冗余的属性或维被检测和删除.
(2)数量归约:用替代的、较小的数据表示形式替换原始数据.
(3)数据压缩:使用变换,以便得到原始数据的归约或"压缩"表示.如果原始数据可以从压缩后的数据重构,而不损失信息,则该数据归约称为无损的.反之,称之为有损的.维归约和数量归约也可以视为某种形式的数据压缩.