Parsing and Tagging of Bilingual Dictionaries

msra(2003)

引用 25|浏览36
暂无评分
摘要
Bilingual dictionaries hold great potential as a source of lexical resources for training and testing automated systems for optical character recognition, machine translation, and cross-language information retrieval. In this paper, we describe a system for extracting term lexicons from printed bilingual dictionaries. Our work was divided into three phases dictionary segmentation, entry tagging, and generation. In segmentation, pages are divided into logical entries based on structural features learned from selected examples. The extracted entries are associated with functional labels and passed to a tagging module which associates linguistic labels with each word or phrase in the entry. The output of the system is a structure that represents the entries from the dictionary. We have used this approach to parse a variety of dictionaries with both Latin and non-Latin alphabets, and demonstrate the results of term lexicon generation for retrieval from a collection of French news stories using English queries. RÉSUMÉ. Les dictionnaires bilingues ont un grand potentiel comme source de ressources lexicologique pour l’apprentissage dans les systèmes automatisés tels que OCR, traduction automatique, et recherche documentaire multi-langues. Dans cet article, nous décrivons un système pour extraire des lexiques de termes à partir de dictionnaires bilingues imprimés. Notre travail a été divisé en trois phases Segmentation de dictionnaire, étiquetage des entrées, et génération. Dans la segmentation, les pages sont divisées en entrées logiques basées sur des caracteristiques structurelles apprises à partir d’exemples choisis. Les entrées extraites liées aux étiquettes fonctionnelles sont passées à un module d’étiquetage qui associe des étiquettes linguistiques à chaque mot ou expression dans l’entrée. Le résultat produit par le système est une structure qui représente les entrées du dictionnaire. Nous avons employé cette approche pour analyser une variété de dictionnaires avec des alphabets latins ou non-latins, et nous démontrons les résultats de la génération de lexiques de termes pour la recherche d’information à partir d’une collection d’articles de journaux français et de requetes en anglais.
更多
查看译文
关键词
page segmentation,dictionnaires bilingues.,segmentation de page,cross-language ir,analyse logique,logical analysis,ocr,bilingual dictio- naries. mots-clés : recherche documentaire multilangue,technical report
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要