重采样和集成学习相结合的文本多标签分类

Journal of Frontiers of Computer Science & Technology(2023)

引用 0|浏览6
暂无评分
摘要
医患纠纷类裁判文书的多标签分类是对其进行高效检索和管理的基础,然而,医患纠纷数据集的类别不平衡和标签共生现象直接影响到文书的多标签分类效果.为此,提出了一种重采样和集成学习相结合的文本多标签分类方案.该方案首先提出一种基于标签集合平均稀疏度的样本重采样算法,用于降低标签共生对重采样的影响,从而改善数据集的类别不平衡性;然后,提出一种基于集成学习的多标签分类算法,其基于重采样后的数据集分别训练出多个基分类器,并对各基分类器以一票否决的投票策略进行组合,从而进一步提升分类器的多标签分类效果.实验结果表明,提出的多标签分类方案不仅适用于医患纠纷类裁判文书,而且适用于其他存在类别不平衡和标签共生问题的文本数据集.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要