基于加权密度Canopy的K-means文本聚类

Journal of South-Central University for Nationalities(Natural Science Edition)（2023）

引用 0|浏览0

暂无评分

摘要

针对现有文本聚类性能不高的问题,提出了一种改进质心初始化的K-means文本聚类算法.该算法首先利用Canopy算法进行文本预聚类,并且对Canopy算法的阈值选取策略进行改进,定义加权密度进行Canopy中心的选取,得到更准确的聚类数以及初始聚类中心;然后将所得结果作为K-means算法的初始化参数进行后续迭代聚类,有效解决了传统算法因随机选取初始聚类中心而陷入局部最优解的问题,减少了算法的迭代次数,提高了聚类准确性.实验结果表明:与其他同类型算法相比,该算法在文本聚类分析中更具优势.

关键词

text clustering,K-means algorithm,weighted density,Canopy algorithm

AI 理解论文

溯源树

样例

生成溯源树，研究论文发展脉络

Chat Paper

正在生成论文摘要