基于BiLSTM-CRF的中文分组单字错误识别方法研究

CAO Yang,CAO Cungen, ZI Kangli, WANG Shi

Journal of Chinese Information Processing（2023）

引用 0|浏览16

暂无评分

摘要

近十多年来,中文自动校对取得了许多重要进展,但是单字错别字识别精度和召回率低一直是该领域的一个重要问题.该文提出一种基于 BiLSTM-CRF的神经网络模型和单字分组策略识别中文错别字的方法.首先,该文提出一种构建分组单字混淆集的方法,并根据采集的分组单字混淆集自动生成错别字识别训练语料,构造了一个含有 13 组的汉字单字错别字识别训练语料.其次,针对传统的错别字识别方法在单字错别字召回率较低的问题,该文对错别字识别训练语料中错别字采用多标签标记的策略.再次,针对训练样本存在的数据稀疏问题,该文对训练数据集中的人名、地名、时间和机构名称这四类词语进行抽象.最后,该文利用 BiLSTM-CRF 的模型在错别字识别训练语料上进行训练.实验结果表明,该文提出的单字错别字识别方法在 13 组单字上的平均识别精确率为 87.30%,平均召回率为 84.36%.

AI 理解论文

溯源树

样例

生成溯源树，研究论文发展脉络

Chat Paper

正在生成论文摘要