Abstrait

EXTRACTION D'INFORMATIONS STRUCTURÉES À PARTIR DE PAGES WEB NON STRUCTURÉES OU SEMI-STRUCTURÉES LISIBLES PAR MACHINE

Vinod Kumar Raavi et Satya P Kumar Somayajula

De nos jours, l'extraction d'informations structurées à partir de documents lisibles par machine non structurés ou semi-structurés joue un rôle essentiel de manière extemporanée. C'est pourquoi de nombreux sites Web utilisent des modèles ordinaires avec des contenus qui produisent les informations pour atteindre une bonne productivité de publication, mais la principale ressource pour extraire les informations est le WWW. Récemment, l'approche de détection de modèles a atteint un grand effort de consolidation afin de réformer diverses conditions telles que le regroupement et la classification des documents Web, les performances des moteurs de recherche car les modèles diminuent les performances et l'efficacité des applications Web pour les machines en raison de termes de modèle non pertinents. Nous voulons présenter dans cet article un nouvel algorithme pour extraire des modèles à partir d'un nombre excessif de documents Web obtenus à partir de modèles hétérogènes. En comprenant les similitudes de la structure de modèle de base dans le document, nous regroupons les documents Web de sorte que le modèle de chaque groupe soit extrait simultanément. Par conséquent, les algorithmes proposés dans cet article peuvent être considérés comme les meilleurs parmi tous les algorithmes de détection de modèles.

Avertissement: Ce résumé a été traduit à l'aide d'outils d'intelligence artificielle et n'a pas encore été examiné ni vérifié

Indexé dans

Google Scholar
Academic Journals Database
Open J Gate
Academic Keys
ResearchBible
CiteFactor
Electronic Journals Library
RefSeek
Hamdard University
Scholarsteer
International Innovative Journal Impact Factor (IIJIF)
International Institute of Organised Research (I2OR)
Cosmos

Voir plus