基于结构和链接分析的网页文档分类算法研究

Journal of North University of China(Natural Science Edition)(2017)

引用 0|浏览1
暂无评分
摘要
互联网网页数量爆炸性地增长, 使得网页文档分类技术研究成为目前Web挖掘的一大热点.针对面向某特定领域文档的特点, 提出一种基于层次特征词权重的文档特征表示方法, 以此为基础, 在网页文档分类时, 通过对网页结构和文本链接分析, 设计了网页文档分类算法HFSHA(Text Categorization Algorithm Based on Hierarchy Feature Word Weight and Structure and Hyperlink Analysis).在服装网页文档语料库上的分类实验表明, 对服装专业文档HFSHA算法比基于向量空间模型(VSM)的普通文本分类算法的分类准确率高.
更多
查看译文
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要