谷歌浏览器插件
订阅小程序
在清言上使用

基于正则表达式的中医医案术语抽取方法研究

Hunan Journal of Traditional Chinese Medicine(2023)

引用 0|浏览19
暂无评分
摘要
目的:探索从中医医案文本中识别出领域具有较高挖掘价值的术语实体,并根据其属性分类自动抽取,最终形成可直接利用和管理的结构化标准数据.方法:构建中医领域术语词典,采用Python语言编写正则表达式中文词语匹配算法和语义分析模块,通过词典中的术语与医案文本进行匹配和语法分析,实现中医术语的 自动识别和分类抽取.结果:对300例中医肿瘤医案进行抽取测试,最终抽取术语22540个.经人工核对,发现抽取遗漏或错误术语1352个,约占抽取总术语的6%.结论:现阶段的研究只是对中医医案术语抽取方法进行初步探索,今后的研究可在此基础上对医案术语词典作进一步补充,完善语义分析模块判断能力,使其能够更好地适应中医医案书写规则,为基于中医医案的文本大数据挖掘与利用奠定基础.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要