Atténuer les erreurs de numérisation dans la reconnaissance d'entités nommées pour les documents historiques.

Emanuela Boros,Ahmed Hamdi,Elvys Linhares Pontes,Luis Adrián Cabrera-Diego,Jose G. Moreno,Nicolas Sidère,Antoine Doucet

CORIA（2021）

引用 1|浏览10

暂无评分

摘要

Cet article aborde la reconnaissance d’entites nommees (NER) appliquee aux textes historiques obtenus a partir du traitement d’images numeriques de journaux a l’aide de tech-niques de reconnaissance optique de caracteres (OCR). Nous soutenons que le principal defi pour cette tâche est que le processus OCR produit des textes contenant entre autres des fautes d’orthographe et des erreurs de syntaxes. De plus, des variations semantiques peuvent etre presentes dans les documents anciens, ce qui a un impact sur les performances de la reconnaissance d’entites nommees. Nous menons une evaluation comparative a l’etat de l’art de deux ensembles de donnees historiques en allemand et en francais, et nous proposons un modele base sur une pile hierarchique de couches Transformer pour aborder la reconnaissance d’entites nommees dans des donnees historiques. Nos resultats montrent que le modele propose ameliore clairement les resultats sur les deux ensembles de donnees

查看译文

关键词

documents

AI 理解论文

溯源树

样例

生成溯源树，研究论文发展脉络

Chat Paper

正在生成论文摘要