Vinod Kumar Raavi et Satya P Kumar Somayajula
De nos jours, l'extraction d'informations structurées à partir de documents lisibles par machine non structurés ou semi-structurés joue un rôle essentiel de manière extemporanée. C'est pourquoi de nombreux sites Web utilisent des modèles ordinaires avec des contenus qui produisent les informations pour atteindre une bonne productivité de publication, mais la principale ressource pour extraire les informations est le WWW. Récemment, l'approche de détection de modèles a atteint un grand effort de consolidation afin de réformer diverses conditions telles que le regroupement et la classification des documents Web, les performances des moteurs de recherche car les modèles diminuent les performances et l'efficacité des applications Web pour les machines en raison de termes de modèle non pertinents. Nous voulons présenter dans cet article un nouvel algorithme pour extraire des modèles à partir d'un nombre excessif de documents Web obtenus à partir de modèles hétérogènes. En comprenant les similitudes de la structure de modèle de base dans le document, nous regroupons les documents Web de sorte que le modèle de chaque groupe soit extrait simultanément. Par conséquent, les algorithmes proposés dans cet article peuvent être considérés comme les meilleurs parmi tous les algorithmes de détection de modèles.