AIGC助力数字人文研究的实践探索:SikuGPT驱动的古诗词生成研究

Information Studies:Theory & Application(2023)

引用 0|浏览16
暂无评分
摘要
[目的/意义]诗词创作是数字人文领域自然语言生成研究的重要方向,对古诗词遣词造句的版本争议判断、自动诗词问答等具有一定意义,然而当前尚未出现能够自动生成繁体中文古诗词的预训练模型,已有研究着眼于根据使用者需求创作不同风格的简体古诗词.[方法/过程]文章基于CLM使用繁体《四库全书》无标点语料、繁体中文古诗词语料在gpt2-chinese-cluecorpussmall上进行继续预训练构建SikuGPT2、SikuGPT2-poem模型.采用困惑度、BLEU、专家打分、图灵测试等验证模型性能.[结果/结论]实验显示SikuGPT2-poem模型困惑度较低,生成的诗歌BLUE评分较基准模型低0.053左右,在人工打分中较基准模型平均高1.93分.总体而言,文章提出的模型表现优异且通过图灵测试,提出的古汉语生成式系列模型的预训练语料集尚小.模型在古诗生成方面表现较好,但尚不能满足赋、曲等体裁的需要.
更多
关键词
Si Ku Quan Shu,SikuGPT,pre-trainedlanguage model,poetry generation,digital humanities
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要