基于共识和分类改善文档聚类的识别信息方法

Journal of Computer Applications(2020)

引用 3|浏览2
暂无评分
摘要
不同的聚类算法用于设计各自的策略,然而,每种技术在执行特定数据集时都有一定的局限性.选择恰当的识别信息方法(DIM)可确保文档聚类的进行.针对这些问题提出一种基于共识和分类的文档聚类(DCCC)的DIM.首先,选择识别信息最大化聚类(CDIM)作为数据集生成初始聚类的解决方法,并使用两种不同的CDIM方法生成两个初始聚集;其次,使用不同的参数方法对两初始聚集再进行初始化,通过簇标签信息间的关系建立共识,最大限度地提高文档的识别数总和;最后,选择识别文本权重分类(DTWC)作为文本分类器给共识分配新的簇标签,通过训练文本分类器更改基础分区,并根据预报标签信息生成最后的分区.采用8个网络数据集进行实验,选择BCubed的精度和召回率指标进行聚类验证.实验结果表明,所提出的共识分类方法的聚类结果优于对比方法的聚类结果.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要