数字人文视域下SikuBERT增强的史籍实体识别研究

Library Tribune(2022)

引用 0|浏览11
暂无评分
摘要
利用自然语言处理技术深入挖掘典籍文献,推进中文古籍文献的数字化,对于推动历史学习、增强文化自信与促进文明传播具有重要意义.命名实体识别研究是自然语言处理中的基础性环节,文章基于BERT-base、RoBERTa、GuwenBERT、SikuBERT、SikuRoBERTa等预训练模型,以"前四史"和《左传》为研究语料,构建人名、地名、时间等命名实体识别任务.实验结果表明:SikuBERT、SikuRoBERTa在无标点语料、小范围语料上能够取得较基准模型更好的效果;语体风格、语料规模对模型性能产生一定影响;BERT模型更为适应大规模语料任务.实验验证了基于《四库全书》繁体语料预训练的BERT模型在预训练-微调范式下典籍命名实体识别的可行性,构建了基于SikuBERT的典籍命名实体识别软件,为进一步开展典籍文本挖掘和利用提供参考.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要