收藏本站

大规模数据集高效数据挖掘算法研究

【摘要】:信息技术的飞速发展以及广泛应用使得企业、政府部门以及其他各种形式的组织积累了大量的数据。过去简单的查询、统计技术仅仅能对数据进行基本的处理,不能进行更高层次的分析,从而自动和智能地将待处理的数据转化为有用的知识。数据挖掘正是在这样的背景之下得到广泛重视和深入研究并取得重大进展的重要研究领域。数据挖掘(Data Mining)是一个从数据中提取隐含在其中的、人们事先不知道的、具有潜在价值的知识的过程。数据挖掘被称为未来信息处理的骨干技术之一。目前,数据挖掘不仅被许多研究人员看作是模式识别以及机器学习等领域的重要研究课题之一,而且被许多产业界人士看作是一个能带来巨大回报的重要研究领域。数据是相当庞杂的,但是从中发现的模式、知识却是非常有意义的,并能产生一定的经济效益。 随着信息技术更进一步的发展,数据库应用的规模、范围不断地扩大,加之数据采集技术的更新,企业和政府利用计算机管理事务能力的增强,产生了更加庞大的大规模数据集。大规模数据集的出现使得有些原本有效的数据挖掘算法在处理这样的数据集时出现了很多新的问题,有待进一步研究加以解决。比如原本很多数据挖掘算法在数据集规模较小时尚能取得不错的挖掘结果。但是针对大规模数据集,计算量太大以至于不能在可接受的时间内获得挖掘结果。甚至会出现由于大规模数据集无法整体读入内存或者是算法执行过程中对内存的占用超过系统可用内存,而使得许多原本有效的挖掘算法不能成功执行的情况。为了提高挖掘效率而采用的一些技术手段比如采样、特征概括等等又使挖掘结果的质量产生了一定程度的下降。本文在对现有数据挖掘算法相关研究进行总结的基础之上,着重针对在处理大规模数据集时关联规则挖掘算法的内存瓶颈问题以及聚类算法的挖掘质量和效率较低的问题进行了详细的分析和研究。论文的研究工作主要包含以下几个方面: (1)介绍了数据挖掘领域的聚类以及关联规则挖掘的重要研究成果。追踪了现有大规模数据集挖掘的聚类以及关联规则挖掘研究的最新进展、现存的关键问题以及发展方向。在研究总结的基础之上,对比了现有算法的特点以及各自的优缺点,得出了现在该领域所面临的新挑战。 (2)针对大规模数据集关联规则挖掘时的内存瓶颈问题,提出了一种基于磁盘表存储FPTREE的大规模数据集关联规则挖掘算法(disk table resident fptree growth,简称DTRFP_GROWTH).该算法改进FPGROWTH,借助于轻量级数据库在挖掘过程中对中间过程的FPTREE进行了存储,降低了内存的占用,实现对大规模数据集、低用户支持度的关联规则挖掘。 (3)进一步优化存储机制、提高挖掘效率,直接利用B+树对磁盘FPTREE进行部分存储,提出了一种基于B+树磁盘存储部分FPTREE的大规模数据集关联规则挖掘算法(disk resident B+tree fptree mining,简称DRBFP_MINE).该算法实现了部分FPTREE的B+树索引,提高了FPTREE结点的存取效率,可在内存不够时进行FPTREE的部分存储,降低挖掘过程中的内存占用。除此之外,该算法还进一步优化了FPTREE的存储机制和存储策略,不再对整个FPTREE进行存储,而是采用后进先出的方式,自下而上地对FPTREE进行部分存储,进一步提高了算法的执行效率。 (4)针对大规模数据集聚类挖掘结果质量不高、不稳定以及收敛较慢的问题,提出了一种基于标记集指导的半监督一遍扫描K均值聚类算法(semi-supervised labels onescan kmeans,简称SSLOKmeans).以往处理大规模数据集的聚类算法,由于受到核心算法的内在局限性以及为了处理大规模数据集而采用的特征概括以及采样等技术的限制,往往会存在聚类结果质量不高、聚类结果质量不稳定以及算法收敛较慢等问题。本研究工作吸收半监督学习的思想,把LABELS标记集和大规模数据集聚类框架进行整合,提出了SSLOKmeans算法。该算法利用驻留主存的标记集辅助指导整个聚类过程,使得大规模数据集的聚类效率以及聚类结果的质量得到了进一步的提高。 (5)在前面的研究基础之上,针对大规模数据集的概率聚类展开研究,提出了一种基于部分约束信息的大规模数据集EM概率聚类算法(Scalable EM probability clustering algorithm for massive data sets based on partial constraints information,简称PC_SEM).前期的研究工作主要针对确定性聚类,即某个数据仅能唯一归属于某一个类别。但在实际工作的聚类过程中,很多情况下某一个对象会以一定的概率同时归属于几个类别。反映到对应的数据集中往往表现为数据集分离得不是很明显,存在一定程度的重叠。以往的概率聚类研究主要针对较小规模的数据集,在处理大规模数据集时往往会出现聚类结果质量不稳定、聚类结果质量不高等问题,且算法收敛较慢,算法性能有待进一步的提高。融入半监督学习的思想,提出了PC SEM算法。该算法利用可以通过数据集自动获取的部分约束信息指导聚类过程,使得大规模数据集概率聚类的效率以及聚类结果的质量得到了进一步的提高。 本文对大规模数据集挖掘进行的研究有助于解决关联规则挖掘时的内存瓶颈问题,提高聚类算法的执行效率以及结果的质量,对以后相关的研究工作也有一定的借鉴意义。

下载App查看全文

(如何获取全文? 欢迎:、、)

支持CAJ、PDF文件格式


【相似文献】
中国期刊全文数据库 前20条
1 武瑞娟;马礼;叶树华;;关联规则挖掘研究综述[J];电脑开发与应用;2008年03期
2 秦亮曦;史忠植;;关联规则研究综述[J];广西大学学报(自然科学版);2005年04期
3 宋中山;成林辉;吴立峰;;一种基于关联规则的增量数据挖掘算法[J];湖北大学学报(自然科学版);2006年03期
4 李雪婵;;关联规则在课程相关性中研究与应用[J];计算机与数字工程;2006年09期
5 孔令富;王晗;练秋生;;一种基于关联规则挖掘的组织数据方法[J];计算机工程;2006年21期
6 刘洪婧;邓芬;;关联规则Apriori算法的一种优化与实现[J];计算机时代;2009年03期
7 廖建军;郭秋萍;焦允;李筱宁;;一种基于聚类分析与关联规则的联合挖掘算法[J];电脑学习;2009年03期
8 唐晓东;;关联规则数据挖掘的研究及应用[J];盐城工学院学报(自然科学版);2008年02期
9 廖建军;郭秋萍;;一种快速数据挖掘算法的设计与实现[J];河南科技;2009年05期
10 宋余庆;王立军;吕颖;谢从华;;基于分类树的高效关联规则挖掘算法[J];江苏大学学报(自然科学版);2006年01期
11 李治;马光志;;网格数据挖掘中关联规则挖掘方案的研究[J];电脑与信息技术;2006年05期
12 谈冉;陆正球;严新平;;分布式环境基于相似度的关联规则挖掘模型的研究[J];计算机应用研究;2008年03期
13 杨波;陈宁;郁云;安源;;面向分类信息网站数据挖掘算法的研究与应用[J];电脑与信息技术;2008年06期
14 闫仁武;李丛;雷艳云;任平;;基于关联规则的Apriori算法的改进及其在保险业CRM的应用[J];科学技术与工程;2009年21期
15 滕智源;;基于关联规则挖掘的Q-CFIsL算法在网络入侵检测系统中的应用[J];企业科技与发展;2010年10期
16 崔玮;刘建伟;张其善;;基于最小完美哈希函数的数据挖掘算法[J];华中科技大学学报(自然科学版);2007年02期
17 单劲松;;一种基于层次聚类的流数据挖掘方法[J];太原师范学院学报(自然科学版);2008年04期
18 刘博;郑启伦;彭宏;;基于非线性相关发现的数据挖掘算法[J];计算机应用研究;2007年03期
19 李新良;;数据挖掘在教学测评系统中的应用与研究[J];湖南人文科技学院学报;2007年06期
20 徐龙琴;刘双印;;基于影响度的隐私保护关联规则挖掘算法[J];计算机工程;2011年11期
中国重要会议论文全文数据库 前10条
1 郭景峰;杜京;马倩;邹晓红;;一种基于数据集性质的快速等差模式聚类算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 许晓峰;金澈清;高明;周傲英;;面向大型数据集合的关键分类查找算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
3 李怡凌;马亨冰;;一种基于本体的关联规则挖掘算法[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年
4 王盛;董黎刚;李群;;一种基于逆序编码的关联规则挖掘研究[A];浙江省电子学会2010学术年会论文集[C];2010年
5 谷姗姗;秦首科;胡大斌;周傲英;;面向关联规则挖掘的敏感规则隐藏技术[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
6 崔江涛;肖斌;詹海生;;面向高维数据集的近邻顺序查询方法[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
7 刘东波;卢正鼎;;关联规则挖掘研究综述[A];促进企业信息化进程——第九届中国Java技术及应用交流大会文集[C];2006年
8 潘国林;杨帆;;数据挖掘算法在保险客户分析中的应用[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
9 张宇鹏;王丽珍;周丽华;;基于气象数据的关联规则挖掘[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
10 陈晓云;李泽霞;刘幸辉;彭文静;;关联规则挖掘过程中的模糊化方法研究[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
中国博士学位论文全文数据库 前10条
1 申彦;大规模数据集高效数据挖掘算法研究[D];江苏大学;2013年
2 朱林;基于特征加权与特征选择的数据挖掘算法研究[D];上海交通大学;2013年
3 彭涛;基于特征和实例的海量数据约简方法研究[D];华中科技大学;2011年
4 吴佳文;水文时间序列数据挖掘算法研究与应用[D];沈阳农业大学;2011年
5 吴珏;隐私保护的数据挖掘算法研究[D];西南石油大学;2012年
6 唐勤;非均衡数据分类算法及其在助学贷款风险管理中的应用研究[D];华中科技大学;2012年
7 闫伟;基于数据挖掘的复杂产品关键质量特性识别的方法研究[D];天津大学;2012年
8 梁瑾;模糊粗糙单调数据挖掘算法及在污水处理中应用研究[D];华南理工大学;2011年
9 唐明珠;类别不平衡和误分类代价不等的数据集分类方法及应用[D];中南大学;2012年
10 王培崇;基于群智能计算技术的网络入侵检测算法研究[D];中国矿业大学(北京);2010年
中国硕士学位论文全文数据库 前10条
1 姚冰;一种改进的非平衡数据集支持向量机分类算法[D];吉林大学;2010年
2 毕红净;动态数据集隐私保护技术研究[D];内蒙古科技大学;2010年
3 宋玉丹;针对特征缺省数据集的模式识别方法与应用研究[D];江南大学;2011年
4 侯德森;一种面向大数据集的部分优先聚类算法[D];华北电力大学(北京);2011年
5 周亮;基于粗糙集的大数据集挖掘算法研究与实现[D];江苏大学;2010年
6 张立丰;基于动态数据集面向多敏感属性的隐私保护技术研究[D];内蒙古科技大学;2011年
7 张志轩;互联网热点话题的数据采集及数据集建立[D];北京邮电大学;2011年
8 周攀;基于P2P技术的多维数据集存储和查询研究[D];湖南大学;2010年
9 张立丰;基于动态数据集面向多敏感属性的隐私保护技术研究[D];内蒙古科技大学;2011年
10 郝姝雯;基于支持向量机的不平衡数据集分类算法研究[D];哈尔滨工程大学;2011年
中国重要报纸全文数据库 前10条
1 ;[N];网络世界;2008年
2 林晓明;[N];中国计算机报;2007年
3 记者 马芳;[N];南方日报;2010年
4 ;[N];人民邮电;2006年
5 莫言钧;[N];上海证券报;2007年
6 ;[N];网络世界;2007年
7 清华大学信息技术研究院 侯玮玮 鞠大鹏 汪东升 清华大学-威视数据安全研究所 李东锋 侯海波;[N];计算机世界;2006年
8 李点;[N];北京科技报;2001年
9 ;[N];网络世界;2005年
10 ;[N];网络世界;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978


{bck}| {bck体育官网}| {bck体育下载}| {bck体育app}| {bck体育}| {bckbet}| {bcksports}| {bck官网}| {bck}| {bck体育官网}| {bck体育下载}| {bck体育app}| {bck体育}| {bck}| {bck体育官网}| {bck体育下载}| {bck体育app}| {bck体育}| {bckbet}| {bcksports}| {bck官网}| {bck}| {bck体育下载}| {bck体育}| {bckbet}| {bcksports}| {bck官网}| {bck}| {bck体育下载}| {bck体育app}| {bck体育}| {bckbet}| {bck体育下载}| {bck体育app}| {bck体育}| {bckbet}| {bcksports}| {bck体育下载}| {bckbet}| {bcksports}| {bck体育官网}| {bck体育下载}| {bck体育app}| {bck体育}| {bck官网}| {bck体育下载}| {bckbet}| {bcksports}| {bck官网}| {bck体育app}| {bck体育}| {bcksports}| {bck官网}| {bck体育下载}| {bck体育}| {bckbet}| {bcksports}| {bck官网}| {bck体育}| {bcksports}| {bck官网}| {bck体育官网}| {bck体育下载}| {bck体育}| {bckbet}| {bcksports}| {bck}| {bck体育官网}| {bck体育下载}| {bck体育app}| {bck体育}| {bckbet}| {bck官网}| {bck}| {bck体育官网}| {bck体育下载}| {bck体育app}| {bcksports}| {bck官网}| {bck}| {bck体育官网}| {bcksports}| {bck体育下载}| {bck体育app}| {bckbet}|
{uc8}| {uc8体育}| {uc8官网}| {uc8老虎机}| {UC8娱乐城}| {uc8彩票}| {uc8}| {uc体育}| {uc8体育}| {UC体育}| {uc8官网}| {uc8老虎机}| {uc8体育}| {UC体育}| {uc8老虎机}| {uc8老虎机}| {UC8娱乐}| {uc8}| {uc体育}| {uc8体育}| {UC体育}| {uc8老虎机}| {uc8彩票}| {uc8}| {uc8体育}| {UC体育}| {uc8官网}| {UC8娱乐}| {UC8娱乐城}| {uc8}| {uc体育}| {uc8体育}| {UC体育}| {uc8官网}| {uc8老虎机}| {UC8娱乐}| {UC8娱乐城}| {uc8}| {uc体育}| {uc8体育}| {UC体育}| {uc8官网}| {uc8老虎机}| {UC8娱乐}| {UC8娱乐城}| {uc8}| {uc体育}| {uc8体育}| {UC体育}| {uc8官网}| {uc8老虎机}| {UC8娱乐}| {uc8彩票}| {uc8}| {uc体育}| {UC体育}| {UC8娱乐城}| {uc8}| {UC体育}| {uc8官网}| {uc8老虎机}| {uc8}| {uc体育}| {uc8体育}| {UC体育}| {uc8官网}| {uc8老虎机}| {UC8娱乐}| {UC8娱乐城}|