Numéro |
Cah. Agric.
Volume 24, Numéro 5, Septembre-Octobre 2015
|
|
---|---|---|
Page(s) | 313 - 320 | |
Section | Études originales / Original Studies | |
DOI | https://doi.org/10.1684/agr.2015.0773 | |
Publié en ligne | 1 septembre 2015 |
Extraction automatique des mots-clés à partir de publications scientifiques pour l’indexation et l’ouverture des données en agronomie
Automatic extraction of keywords from scientific publications for indexing and open data in agronomy
1
UMR TETIS (Cirad, Irstea, AgroParisTech), Maison de la Télédétection, 500, rue Jean-François Breton, 34093 Montpellier Cedex 5, France
2
LIRMM (CNRS, Université de Montpellier), 860, rue de St Priest, 34095 Montpellier Cedex 5, France
3
Université de Montpellier, Place Eugène Bataillon, 34095 Montpellier Cedex 5, France
a mathieu.roche@cirad.fr
b sophie.fortuno@cirad.fr
c juan.lossio@lirmm.fr
Dans le contexte des masses de données textuelles liées à l’agriculture aujourd’hui disponibles, leur indexation devient un enjeu crucial pour les organismes de recherche. Une manière d’indexer au mieux les documents consiste à en extraire la terminologie. Cet article explore l’utilisation et la combinaison de méthodologies de fouille de textes afin de mettre en exergue, puis de publier dans des systèmes d’open data, les termes les plus adaptés issus de documents. Des expérimentations menées sur des données du CIRAD (Centre de coopération internationale en recherche agronomique pour le développement), montrent le bien-fondé de la démarche qui a permis d’extraire des termes à la fois nouveaux et pertinents.
Abstract
With the large amounts of textual data related to agriculture now available, indexing becomes a crucial issue for research organizations. One way to index documents consists in extracting terminology. This paper investigates the use and combination of text mining methodologies to highlight and publish the most appropriate terms from documents in open data systems. Experiments conducted on CIRAD data, show the validity of the approach used to extract new and relevant terms.
Mots clés : documentation / gestion des connaissances / indexation d’information / méthodes / traitement des données
Key words: data processing / documentation / indexing of information / knowledge management / methods
Thèmes : méthodes et outils
Subjects: tools and methods
© Cirad 2015
This is an Open Access article distributed under the terms of the Creative Commons Attribution License CC-BY-NC (http://creativecommons.org/licenses/by-nc/4.0), which permits unrestricted use, distribution, and reproduction in any medium, excepted for commercial purposes, provided the original work is properly cited.
Les statistiques affichées correspondent au cumul d'une part des vues des résumés de l'article et d'autre part des vues et téléchargements de l'article plein-texte (PDF, Full-HTML, ePub... selon les formats disponibles) sur la platefome Vision4Press.
Les statistiques sont disponibles avec un délai de 48 à 96 heures et sont mises à jour quotidiennement en semaine.
Le chargement des statistiques peut être long.