谷歌浏览器插件
订阅小程序
在清言上使用

Atténuer les erreurs de numérisation dans la reconnaissance d'entités nommées pour les documents historiques.

CORIA(2021)

引用 1|浏览10
暂无评分
摘要
Cet article aborde la reconnaissance d’entites nommees (NER) appliquee aux textes historiques obtenus a partir du traitement d’images numeriques de journaux a l’aide de tech-niques de reconnaissance optique de caracteres (OCR). Nous soutenons que le principal defi pour cette tâche est que le processus OCR produit des textes contenant entre autres des fautes d’orthographe et des erreurs de syntaxes. De plus, des variations semantiques peuvent etre presentes dans les documents anciens, ce qui a un impact sur les performances de la reconnaissance d’entites nommees. Nous menons une evaluation comparative a l’etat de l’art de deux ensembles de donnees historiques en allemand et en francais, et nous proposons un modele base sur une pile hierarchique de couches Transformer pour aborder la reconnaissance d’entites nommees dans des donnees historiques. Nos resultats montrent que le modele propose ameliore clairement les resultats sur les deux ensembles de donnees
更多
查看译文
关键词
documents
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要