Améliorer la précision d’annotation d’un corpus Igbo par reconstruction morphologique et l’apprentissage basé sur la transformation
Atelier Traitement Automatique des Langues Africaines (TALAF). JEP-TALN(2016)
摘要
Cet article présente une méthode employée pour améliorer l’exactitude des tags syntaxiques d’un corpus Igbo (une langue Africaine agglutinante), en se concentrant sur les formes fléchies. Dans un premier temps, une reconstruction morphologique est appliquée pour identifier ces formes fléchies et les segmenter (segmentation linguistique sous forme de racines et d’affixes). Celle-ci est ensuite utilisée conjointement avec l’algorithme d’apprentissage TBL (Transformation-Based Learning) pour identifier les mots mal labellisés dans le corpus et proposer une étiquette de remplacement, de sorte qu’un expert humain pourrait ensuite accepter ou rejeter ces changements. Pour évaluer l’impact de ce procédé sur le corpus, nous l’avons utilisé pour entraîner un tagueur syntaxique. Durant la labellisation de l’Igbo, la majorité des mots inconnus (c’est-à-dire les mots non présents dans les données d’entraînement) apparaît en raison de la flexion. Nous avons observé grâce à notre approche une amélioration de la précision de 77, 77% à 83, 13% pour la labellisation syntaxique des mots inconnus, et de 58, 01% à 86, 81% sur les formes fléchies inconnues.
更多查看译文
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络