类簇自适应调整的混合属性数据粗糙聚类方法研究及应用
【摘要】:作为一种无监督的学习方式,聚类分析在无标记样本的条件下将数据对象进行分组,挖掘数据的潜在结构,是数据分析的有效工具。在现实应用的待处理数据中,大多是同时包含数值属性和分类属性的混合属性数据,此外,这些数据往往含有大量不确定知识,处于类簇交叉区域,具有亦此亦彼的特点,不能简单地将其归入某一类中,使用传统聚类算法处理这些数据时,会导致聚类结果有较大的误差,因此,结合能够处理不确定信息的理论方法研究混合属性数据的聚类方法具有重要意义。然而,实际应用中大多数现有的聚类算法需要事先给定类簇数目,这种主观选取的不合理会导致聚类精度的降低,继而影响聚类算法的性能。此外,初始类簇中心的随机选取则会导致聚类算法的稳定性和效率降低。因此,最佳聚类数目和初始聚类中心的合理高效自适应调整是当前聚类方法研究亟待解决的问题。另外,目前针对混合数据的聚类算法研究大都只关注了簇内紧密度这一点,忽略了簇间分离度的重要性,如何保证聚类结果同时具有较高的簇内紧密度和簇间分离度亦是当前混合属性数据聚类算法的研究热点。本文以类簇自适应调整的软聚类算法研究→基于簇间信息的混合属性粗糙聚类方法研究→混合属性粗糙聚类在粮油加工数据分析的应用探索为主线,研究类簇自适应调整的混合属性数据聚类方法,并探讨聚类算法在制备十一碳烯酸甲酯生产过程中的应用。主要研究工作包括:(1)基于混合度量与类簇自适应调整的粗糙模糊K-means聚类算法针对粗糙K-Means(RKM)聚类及其相关衍生算法需要提前人为给定聚类数目,且随机选取初始类簇中心导致类簇交叉区域的数据划分准确率偏低等问题,提出了一种类簇自适应调整的粗糙模糊K-Means聚类算法。该算法在计算边界区域的数据对象归属于不同类簇的隶属程度时,综合考虑了局部密度和距离的混合度量,并采用一种自适应调整类簇数目的策略来获得最佳聚类数目,选取数据对象稠密区域中距离最小的两个样本的中点作为初始类簇中心,将附近局部密度高于平均密度的对象划分至该簇后再选取剩余的初始类簇中心,使得初始类簇中心的选取更为合理。在人工数据集和UCI标准数据集上的对比测试验证了算法在处理类簇交叠严重的球簇状数据集时,具有自适应性和聚类精度方面的优势。(2)基于OTC相似度与簇间信息的粗糙K-prototypes型聚类算法现有混合数据聚类算法在类簇中心和划分矩阵迭代更新过程中大多只考虑了簇内信息带来的影响,而忽略了簇间信息,导致聚类结果的簇间分离度较低。鉴于此,提出一种基于簇间频分信息的粗糙混合数据聚类算法。在度量数据对象与类簇之间的相似性时,采用统一的处理混合属性数据的OTC相似度,避免了传统混合属性聚类算法中分类属性和数值属性的转换和参数调整,并在算法迭代过程中加入簇间频分信息来保证聚类结果的簇内紧密度和簇间分离度。通过多组实验对比分析,验证了算法的有效性。(3)混合属性数据粗糙聚类分析在十一碳烯酸甲酯生产案例中的应用将确定初始类簇中心的方法与基于OTC相似度和簇间信息的粗糙K-prototypes型聚类算法结合,应用于制备十一碳烯酸甲酯产品的数据分析。首先,使用Aspen Plus软件对工艺流程进行模拟,而后基于本文所提出的聚类算法,分析工艺流程中原料纯度、预热温度、裂解温度、物料流量、抗氧剂种类与产品收率之间的潜在联系,并依聚类分析结果挖掘出影响生产的关键因素,给出指导和建议。