收藏本站

不完整数据集的多视角集成分类研究

【摘要】:随着通讯技术,物联网技术,传感器技术等技术的迅速发展,当今几乎在任何地方都可以产生数据。这些实际应用中获取的数据,往往由于各种各样的原因会出现数据缺失的情况。例如,在调查问卷中,由于接受问卷者个人原因,一些问卷会出现拒绝回答的项目;在生物信息中的基因表达数据中,由于芯片的擦痕,灰尘等原因,同样会导致部分数据的缺失。考虑到传统的机器学习技术往往针对的是完整数据,因此,如何处理不完整数据成为了机器学习中的一个重要的研究课题。当前对不完整数据集分类的研究,如对缺失值进行填充等,多数方法都需要依赖一些假设,比如随机缺失(MAR)假设,属性独立性假设等。集成学习方法作为不完整数据集的一种有效的处理方法,与缺失值填充的方法相比,其最大的优点是不依赖MAR假设,但是当前集成方法在处理不完整数据集时仍然面临着诸如时间复杂度高,算法效率不够理想等问题。粒度计算是近年来人工智能领域中模拟人类思维求解问题的新的方法。它涵盖了所有有关粒度的理论、方法和工具,已成为不确定性、模糊性、复杂性问题求解以及海量信息处理的重要工具。粒度计算的主要理论模型包括粗糙集理论,模糊集理论以及商空间理论。其中商空间理论是多粒度计算的主要理论模型。本文针对不完整数据集数据缺失的特点,基于商空间理论中的多侧面、多视角问题求解的思路,提出针对不同缺失属性组合构造多个不同视角的分类器,以及对各个分类器重要度的度量方法,并在此基础上研究了多视角分类器的优化方法。同时本文针对癌症基因表达式数据的特点,提出首先进行属性选择,然后利用选择性的多视角集成方式实现多视角的集成分类。本文的主要研究内容概括如下:(1)研究不完整数据集多视角分类器的构建及重要度度量方法基于不完整数据集中存在的不完整属性的组合,构建不完整数据集对应的缺失属性树。基于该缺失属性树,得到一组数据子集,同时利用神经网络作为基础分类器,采用Bagging策略在每个数据子集上训练得到一个子分类器,对于一个测试样本,算法首先选择合适的子分类器对其进行预测,然后利用多数投票的方式决定其最终的类别。本文同时引入了信息熵来度量子分类器的重要度,并具体研究了几种不同的加权方法对算法准确率的影响。(2)研究不完整数据集多视角分类器的优化方法在缺失属性树的基础上,针对神经网络集成分类方法在子分类器过多时,算法复杂度过高的问题,提出了一种多视角集成分类的优化方法(SNNE)。该方法通过判断缺失属性树中对应的缺失属性集(有效属性集合)之间的包含关系以及两者与类别的相关度,在保证算法可预测率和准确率的基础上,通过一个给定的阈值删除一部分冗余的数据子集,通过减少子分类器个数,有效的提高算法的执行效率。实验表明,在给定阈值为0.05的情况下,算法能够在保证准确率的基础上有效的提升执行效率。(3)研究了基于卡方检验和超限学习机的多视角集成分类方法针对不完整数据集中存在的与类别的相关度非常低,对分类的精度有着不利的影响的属性。本文提出了一种基于卡方检验的属性选择方法(C_ELM),该方法通过将传统的卡方检验应用到不完整数据集中,通过一个给定的阂值,选择删除部分与类别相关性较小的属性。同时考虑到,传统的神经网络由于采用梯度下降方法而造成时间复杂度过高的问题,利用超限学习机作为基础分类器,在缺失属性树的基础上,构造一组基于投票的超限学习机(v-elms)。针对由于缺失值导致的少量的样本可能无法找到合适的分类器进行预测的问题,我们又利用单属性训练得到一组备选分类器用来解决此类样本的分类问题。实验表明,通过删除不相关属性和采用ELM,该方法能够有效的提升算法的预测精度和稳定性。(4)研究癌症基因表达数据的选择性多视角集成分类方法本文针对癌症基因表达式数据样本较少且维数(基因个数)较高的特征,提出了利用卡方检验进行特征选择,并依据相关度的大小对剩余的基因进行相关度的排序,按照best first search (BFS)的策略,提出了一种基于BFS的选择性多视角集成分类算法。实验表明,该方法能够有效的删除大量的不相关属性,同时通过选择最重要的属性能够有效的提升预测的精度。

下载App查看全文

(如何获取全文? 欢迎:、、)

支持CAJ、PDF文件格式


【相似文献】
中国期刊全文数据库 前20条
1 ;数据集N2[J];航空材料;1959年09期
2 江海洪 ,罗长坤;首套中国数字化可视人体数据集在第三军医大学研制成功[J];中华医学杂志;2003年09期
3 陈相颖;数据集记录快速定位与筛选方法之探讨[J];计量与测试技术;2005年06期
4 张晓斌;魏永祥;韩德民;夏寅;李希平;原林;唐雷;王兴海;;数字化耳鼻咽喉数据集的采集[J];中华耳鼻咽喉头颈外科杂志;2005年06期
5 王宏鼎;唐世渭;董国田;;数据集成中数据集特征的检测方法[J];中国金融电脑;2006年03期
6 张华;郁书好;;时空数据集的连接处理和优化方法研究[J];皖西学院学报;2006年02期
7 苗卿;单立新;裘昱;;信息熵在数据集分割中的应用研究[J];电脑知识与技术(学术交流);2007年05期
8 陈德诚;丘平珠;唐炳莉;;广西气象数据集设计与制作[J];气象研究与应用;2007年04期
9 赵凤英;王崇骏;陈世福;;用于不均衡数据集的挖掘方法[J];计算机科学;2007年09期
10 刘密霞;张秋余;赵宏;余冬梅;;入侵检测报警相关性及评测数据集研究[J];计算机应用研究;2008年10期
11 冯璐;冷伏海;;基于领域分析需求和目标的领域分析数据集界域研究[J];图书情报工作;2009年24期
12 宋金玲;赵威;刘欣;黄立明;李金才;刘国华;;k-匿名数据集的增量更新算法[J];计算机科学;2010年04期
13 付优;;非平衡数据集的分类[J];电力学报;2010年04期
14 刘祖斌;;政府数据门户网站及其数据集的建设研究[J];信息化建设;2011年04期
15 职为梅;郭华平;范明;叶阳东;;非平衡数据集分类方法探讨[J];计算机科学;2012年S1期
16 孙全尚;;不平衡数据集分类方法研究[J];科教文汇(下旬刊);2013年09期
17 黄水清;张涛;杨东清;;农业经济领域非相关文献知识发现用数据集的构建[J];江苏农业学报;2010年01期
18 谷琼;袁磊;宁彬;吴钊;华丽;李文新;;一种基于混合重取样策略的非均衡数据集分类算法[J];计算机工程与科学;2012年10期
19 唐永红;刘绪栋;;一种基于混合属性数据集的异常检测方法[J];科学技术与工程;2013年07期
20 佟平;分区数据集的结构、设计与实现[J];计算机工程与设计;1989年05期
中国重要会议论文全文数据库 前10条
1 田捷;;三维医学影像数据集处理的集成化平台[A];2003年全国医学影像技术学术会议论文汇编[C];2003年
2 范明;魏芳;;挖掘基本显露模式用于分类[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
3 冷传良;;飞机化铣成样板划线数据集设计方法探索[A];第十届沈阳科学学术年会论文集(信息科学与工程技术分册)[C];2013年
4 孟烨;张鹏;宋大为;王雷;;信息检索系统性能对数据集特性的依赖性分析[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年
5 段磊;唐常杰;左劼;陈宇;钟义啸;元昌安;;基于基因表达式编程的抗噪声数据的函数挖掘方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
6 阎玮;柏文阳;张剡;;基于FP-Tree重构事务数据集的关联规则隐藏[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
7 苏力德;;基于PDM系统实现民机数据的管理[A];第十届沈阳科学学术年会论文集(经济管理与人文科学分册)[C];2013年
8 吴京生;封秀燕;;浙江自记降水数据集的制作过程[A];第四届长三角科技论坛论文集(下册)[C];2007年
9 刘斐;樊华;金松昌;贾焰;;一种新型k匿名隐私保护算法[A];第27次全国计算机安全学术交流会论文集[C];2012年
10 曹露燕;蒋晓云;孟凡荣;;基于数值型和分类型混合属性数据集的聚类算法研究[A];2006“数学技术应用科学”[C];2006年
中国博士学位论文全文数据库 前10条
1 严远亭;不完整数据集的多视角集成分类研究[D];安徽大学;2016年
2 史卫亚;大规模数据集下核方法的技术研究[D];复旦大学;2008年
3 钱鹏江;大规模数据集聚类方法研究及应用[D];江南大学;2011年
4 吴国清;科学计算时变数据集的数据挖掘算法研究[D];中国工程物理研究院;2009年
5 孙汉昌;蛋白质组质谱数据处理关键问题与技术研究[D];国防科学技术大学;2011年
6 余雳;虚拟可视鼠样品制备技术研究[D];华中科技大学;2006年
7 黄浩;基于近邻关系的稀有类挖掘[D];浙江大学;2012年
8 曹忠波;基于表达数据的肿瘤标志物的计算识别与分析[D];吉林大学;2015年
9 吴毅;数字人全身分割数据集的建立及人体胸腔与盆腔的数字化研究[D];第三军医大学;2012年
10 杜乃乔;过程感知信息系统的负载生成技术[D];清华大学;2012年
中国硕士学位论文全文数据库 前10条
1 白雪;基于DBN的网络流量分类的研究[D];内蒙古大学;2015年
2 袁铭;基于R-SMOTE方法的非平衡数据分类研究[D];河北大学;2015年
3 王蓓蕾;基于改进BP估值的缺失数据模糊聚类算法研究[D];辽宁大学;2015年
4 赵虹;中国陆地高空间分辨率月气温和降水格点数据集的修正与对比[D];兰州大学;2015年
5 张睿津;关联数据集混合式映射研究[D];华中师范大学;2015年
6 江鹏;面向非平衡数据集的多簇IB算法研究[D];郑州大学;2015年
7 郑程程;基于改进K-means算法的聚类分析研究[D];中央民族大学;2015年
8 陈斌;SMOTE不平衡数据过采样算法的改进与应用[D];广西大学;2015年
9 徐盈盈;基于集成的无监督离散化及在数据集相似性度量上的应用[D];宁波大学;2015年
10 谢蕾;Web Mashup模式发现及编排优化技术[D];上海理工大学;2014年
中国重要报纸全文数据库 前10条
1 王素琴刘晓林 通讯员 王新华;[N];中国气象报;2008年
2 记者 刘浪 通讯员 廖雅琴;[N];重庆日报;2003年
3 通讯员廖雅琴记者冯竞;[N];科技日报;2003年
4 金水高 刘丽华 陶庄;[N];计算机世界;2006年
5 上海 陈纯;[N];电脑报;2004年
6 昌家杰 邹莹 本报记者 于莘明;[N];科技日报;2005年
7 山水;[N];中国石化报;2007年
8 张绍祥 李国辉;[N];计算机世界;2003年
9 张荔子 秦笃烈;[N];健康报;2006年
10 游雪晴;[N];科技日报;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978


{bck}| {bck体育官网}| {bck体育下载}| {bck体育app}| {bck体育}| {bckbet}| {bcksports}| {bck官网}| {bck}| {bck体育官网}| {bck体育下载}| {bck体育app}| {bck体育}| {bck}| {bck体育官网}| {bck体育下载}| {bck体育app}| {bck体育}| {bckbet}| {bcksports}| {bck官网}| {bck}| {bck体育下载}| {bck体育}| {bckbet}| {bcksports}| {bck官网}| {bck}| {bck体育下载}| {bck体育app}| {bck体育}| {bckbet}| {bck体育下载}| {bck体育app}| {bck体育}| {bckbet}| {bcksports}| {bck体育下载}| {bckbet}| {bcksports}| {bck体育官网}| {bck体育下载}| {bck体育app}| {bck体育}| {bck官网}| {bck体育下载}| {bckbet}| {bcksports}| {bck官网}| {bck体育app}| {bck体育}| {bcksports}| {bck官网}| {bck体育下载}| {bck体育}| {bckbet}| {bcksports}| {bck官网}| {bck体育}| {bcksports}| {bck官网}| {bck体育官网}| {bck体育下载}| {bck体育}| {bckbet}| {bcksports}| {bck}| {bck体育官网}| {bck体育下载}| {bck体育app}| {bck体育}| {bckbet}| {bck官网}| {bck}| {bck体育官网}| {bck体育下载}| {bck体育app}| {bcksports}| {bck官网}| {bck}| {bck体育官网}| {bcksports}| {bck体育下载}| {bck体育app}| {bckbet}|
{uc8}| {uc8体育}| {uc8官网}| {uc8老虎机}| {UC8娱乐城}| {uc8彩票}| {uc8}| {uc体育}| {uc8体育}| {UC体育}| {uc8官网}| {uc8老虎机}| {uc8体育}| {UC体育}| {uc8老虎机}| {uc8老虎机}| {UC8娱乐}| {uc8}| {uc体育}| {uc8体育}| {UC体育}| {uc8老虎机}| {uc8彩票}| {uc8}| {uc8体育}| {UC体育}| {uc8官网}| {UC8娱乐}| {UC8娱乐城}| {uc8}| {uc体育}| {uc8体育}| {UC体育}| {uc8官网}| {uc8老虎机}| {UC8娱乐}| {UC8娱乐城}| {uc8}| {uc体育}| {uc8体育}| {UC体育}| {uc8官网}| {uc8老虎机}| {UC8娱乐}| {UC8娱乐城}| {uc8}| {uc体育}| {uc8体育}| {UC体育}| {uc8官网}| {uc8老虎机}| {UC8娱乐}| {uc8彩票}| {uc8}| {uc体育}| {UC体育}| {UC8娱乐城}| {uc8}| {UC体育}| {uc8官网}| {uc8老虎机}| {uc8}| {uc体育}| {uc8体育}| {UC体育}| {uc8官网}| {uc8老虎机}| {UC8娱乐}| {UC8娱乐城}|