基于Huffman-LDA和Weight-Word2vec的文本表示模型研究

Chun-yu HUANG,Di HU,Ning-jia QIU,Shuang-zi SUN

Journal of Changchun University of Science and Technology（2020）

引用 1|浏览2

暂无评分

摘要

LDA是对主题到文档的全局结构建模,但其特征中缺少文档内部的局部词之间的关系,只能获得稀疏特征.Word2vec是一种基于上下文预测目标词的词嵌入模型,然而,基于这种方法只能以局部信息表示文档特征,缺乏全局信息.LDA和Word2vec的文本表示模型是基于主题向量和文档向量计算新的特征表示文本,但直接计算所得的稀疏主题特征与基于词向量的文档特征的距离,缺乏特征的一致性.本文提出了Huffman-LDA和Weight-Word2vec的文本表示模型,首先,使用LDA模型得到主题向量后构建主题哈夫曼树,再运用梯度上升方法更新主题向量,新的主题向量包含不同主题词之间的关系,求得的特征不再具有稀疏性;然后,使用LDA主题向量与主题矩阵中词的主题特性计算词权重更新Word2vec的词向量,使得词向量包含主题词之间的关系进而表示文档向量;最后,通过主题向量和文档向量的欧式距离得到具有强分类特征的文本表示.实验结果表明,该方法可获得更强的文本表示特征,有效提高文档分类精度.

AI 理解论文

溯源树

样例

生成溯源树，研究论文发展脉络

Chat Paper

正在生成论文摘要