一种改进的基于VSM的文本分类算法

Computer Engineering and Design(2006)

引用 17|浏览6
暂无评分
摘要
在文本分类中,向量空间模型(VSM)是常用的文本表示形式,但是它把文本看作词袋,忽略了文本的结构信息。通过区别对待文本的不同部分来改进基本的向量空间方法:对于标题和段落首尾句采用核心词共现的方法来计算其对分类的作用;对其它部分采用基本的向量空间模型方法进行计算。对这两部分的计算结果进行加权求和,来综合判定文本的类别。对改进的文本分类方法进行了测试,实验结果表明改进的方法提高了分类的精确率、召回率和F1测试值。
更多
查看译文
关键词
core words,co-occurrence,text structural information,vector space model,text categorization
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要