Indexation de co-occurrences guidée par la structure des documents et contrôlée par une ontologie et l'exploitation du corpus

Pierre Pompidor,Boris Carbonneill,Michel Sala

INFORSID（2008）

引用 24|浏览7

暂无评分

摘要

RÉSUMÉ . Confronté à la problématique de l'indexation de trè s grands corpus documentaires d'entreprises, nous avons mis au point une méthode simple mais efficace (en terme de temps de calcul et de volumétrie), permettant de filtrer par document les co-occurrences les plus représentatives de ceux-ci. Nous nous plaçons dans un contexte de co-occurrences pour deux raisons. D'une part les requêtes portant sur des co rpus spécialisés, et composées par des experts, s'appuient sur peu de termes précisément c hoisis dont nous indexons les associations, et d'autre part car cela facilitera la construction de cartes sémantiques de navigation dans les concepts du corpus. L'axe principal de ce travail e st la prise en compte de la structure des documents en validant les contenus des paragraphes par ceux de leurs titres. Notre méthode s'appuie sur des mesures tf.idf successives effectu ées dans le contexte d'un document et non d'un corpus, sur les contenus des paragraphes auxqu els sont intégrés progressivement la hiérarchie des titres les introduisant. Puis nous e xploitons simultanément une ontologie de contrôle et les requêtes des utilisateurs comportan t les termes précédemment discriminés pour valider par le théorème de Bayes, les associations s émantiques ainsi déterminées. ABSTRACT . This paper addresses the problem of indexing very l arge enterprise corpuses. We have designed a simple yet efficient (especially in terms of computation time and the size of the generated results) method allowing to filter, o n a per-document basis, the most representative co-occurrences of the documents. The reason for using co-occurrences is twofold. First, queries composed by experts on spec ialized corpuses rely statistically on few, carefully chosen terms, for which we index the asso ciations. Second, such co-occurences facilitate the construction of semantic maps used t o navigate the concepts of the corpus (this part is not described in this article). Our main ap proach is to take into account the structure of the documents by validating the content of the par agraphs by their titles. Our method starts with successive tf.idf measures of paragraph conte nts taken in the context of a document (and not of a corpus), to which we progressively integr ate the hierarchy of their introducing titles. We then simultaneously exploit a control ontology a nd the user queries containing the terms that we discriminated in the first step in order t o validate, using Bayes' theorem, the semantic associations contained in a paragraph given the ter ms of its title.

查看译文

关键词

théorème de bayes keywords : very large and fast corpus indexing,exploitation de la structure des documents,contexte de co-occurrences,bayes' theorem,co-occurrences ' context,mots-clés :indexation incrémentale et rapide de très grands co rpus,indexation

AI 理解论文

溯源树

样例

生成溯源树，研究论文发展脉络

Chat Paper

正在生成论文摘要