基于SOM网络聚类的数据清洗技术

时间:2016-2-20 9:04:00 来源:中国清洗机网 添加人:admin

  随着计算机技术的快速发展,信息量急剧膨胀。

  各企事业单位往往面临着来自不同数据源的大量数据,如何集成和访问这些异构数据源并从中提取知识为决策提供支持呢,数据仓库技术应运而生。根据“垃圾进,垃圾出(Garbage结构以外一个数据仓库成功与否的关键因素。

  数据清理就是为解决数据质量问题而提出的。

  数据清理在不同的应用领域的要求不完全相同,很难给出一个一致的定义,但总的来说,数据清理是一个清理“脏数据”的过程,而数据清洗活动的核心是清洗近似重复记录。所谓的近似重复记录就是一个现实实体可能由多个完全不同的记录来表示。产生近似记录的原因有多方面:包括操作员的不同、输入时的错误拼写、信息缺失、拼写错误、不同的缩写、自由格式的文本及数据的变迁等。

  近似重复记录清洗过程分以下两步:①需要识别同一个现实实体的近似重复记录,即记录匹配过程;②将近似重复记录合并成一条包含该实体的更多属性且没有冗余信息的记录。聚类是将相似度高的数据对象聚集到一个类中的方法,一种很自然的思想是将该技术用于近似重复记录的发现上。本文主要介绍如何将SOM网络(Self―Organizing类应用到数据清洗工作中。

  目前已有不少研究人员探讨数据清理工作的任务,并特别对重复记录作了大量的研究工作,提出了许多算法,为了避免大量的比较,提出了如临近排序算法、优先队列算法和多路临近排序算法等。这些算法的比较次数虽然大大减少,但是其重复记录的检出率还是不如直接比较,只能达到90%左右;多路临近排序算法虽然提高到98%左右,但是单机运行消耗的时间比较多,只能在大型机上运行。同时这些算法都有一个弱点就是如果用于排序的关键字选择不好,重复记录的检出效果就不是很好。

  Map,简称SOM)是由芬兰赫尔辛基大学神经网络神专家Kohonen于1981年提出的,这种网络模拟大脑神经系统自组织特征映射的功能。在大脑皮层中,神经元的输入信号一部分来自感觉组织或其他区域的外部输入信号,另一部分来自同一区域的反馈信号。

  神经元之间的信息交互具有的共同特征是,最邻近的两个神经元互相刺激兴奋,较远的相互抑制,更远的又是弱刺激。这是一种竞争式的学习网络,在学习中能无监督地进行自组织学习。

  SOM网络结构如图一所示,它由输入层和竞争层组成。输入层神经元数为N,竞争层由M=m2个神经元组成的二维平面阵列,输入层与竞争层各神经元之间实现完全互连接。

  SOM网络的工作原理SOM网络的工作原理是将任意维输入模式在输出层映射成一维或二维离散图形,并保持其拓扑结构不变。此外,网络通过对输入模式的反复学习,可以使权重向量空间与输入模式的概率分布趋于一致,即权重向量空间能反映输入模式的统计特征。这种自组织聚类过程是在系统自主、无监督的条件下完成的。

  SOM网络的竞争层各神经元竞争对输入模式的响应机会,最后仅一个神经元成为竞争的胜者,并对那些获胜神经元有关的各权重朝着更有利于它竞争的方向调整,即以获胜神经元为圆心,对近邻的神经元表现出兴奋性侧反馈,而对远邻的神经元表现出抑制性侧反馈。这说明在竞争层,近邻神经元相互激励,远邻神经元相互抑制,比远邻更远的神经元则表现弱激励。这种局部的交互作用如图二所示。

  应用侧反馈原理,在每个获胜神经元附近形成一个“聚类区”,学习的结果总是使聚类区内各神经元的权重向量保持与输入向量逼近的趋势,从而使具有相近特性的输入向量聚集在一起。

  2.3SOM网络自组织学习过程SOM网络的自组织学习过程可以分为两个部分:选择最佳匹配神经元在SOM网络自组织学习前,如果先对输入向量行归一化处理,则评价函数可以采用输入向量PK和权重向量胃。的欧氏距离。对于所有的比较每个欧氏距离,欧氏距离最小者所对应的神经元,即为获胜神经元C.当网络训练好后,当有相近的输入模式出现时,某个神经元就会兴奋起来,表示该神经元已经认识了这个模式。

  权重向量的自适应更新过程当输入向量卩皮提交给SOM网络后,获胜神经元c的权重W.和其领域内的神经元将向PK移动。在输入向量,被多次提交给SOM网络后,领域Nc(t)内神经元将通过学习而拥有彼此相似的学习向量。

  其中第7步中的Nc(t)是指以第5步中确定的获胜神经元C为中心,包含若干神经元的区域范围,这个区域通常是圆形、正方形或六角形区域。

  最终,通过训练使得输出层中的获胜神经元C,及其领域内的权值向量逼近于输入矢量,实现模式分类。网络学习结束之后,转入工作状态,连接权值胃」不再作调整。

  我们取了一张含有45个字段,35623条记录的表,分别采用随机抽取将300,600,3000条记录作为实验集,基于MATLAB7.0软件的SOM网络工具箱,对海量数据进行了快速的近似重复记录识别。我们分别使用优先队列算法和基于SOM网络的数据清洗方法在同等实验条件下对数据进行清洗,并对运行时间和精度进行了比较。从实验结果容易发现基于SOM网络的数据清洗方法速度更快,而且,随着数据量的增加,这种优势更加明显。使用了SOM网络使分类问题变得简化,从而可以极大地提高大容量数据的清洗效率。

暂时没有留言

我要留言
看不清楚,换一个
精彩推荐

基于SOM网络聚类的数据清洗技术

溴化锂吸收式制冷机组化学清洗技术

自然循环自动清洗式高效节能蒸发器

本周资讯排行榜

1基于SOM网络聚类的数据清洗技术

2溴化锂吸收式制冷机组化学清洗技术

3自然循环自动清洗式高效节能蒸发器

4陶瓷膜澄清生地黄提取液的膜污染和清洗研究

5空调通风系统清洗设备及清洗工艺

6双龙电机新三板挂牌上市 主营电动机研发销售

7全球客商齐聚温岭 泵与电机展览会迈向国际化

8圆盘钢制带刮刀PIG的清洗技术在电厂排灰管线清洗中的研究和应用

9换热器密闭循环在线清洗技术研究与应用

10气脉冲清洗给水管道技术

更多>>视频分享