Abstrait

Data Mining 2016 : Données concentrées sur le Web - définies et consultables dans le monde entier - Wolfgang Orthuber-Université de Kiel

Wolfgang Orthuber

Il est à noter que la représentation des informations sur le Web peut être considérablement améliorée, il existe donc de nombreuses propositions à ce sujet. Cependant, il n'y a pas beaucoup de possibilités si nous voulons une efficacité maximale. La maîtrise maximale de la structure de données de base est attrayante pour limiter les coûts. Dans ce bref engagement, nous devons examiner http://arxiv.org/abs/1406.1065 qui montre qu'une signification productive et uniforme des données en ligne est possible en utilisant la structure de données de base. Cette combinaison d'une URL avec des nombres est appelée « vecteur de domaine » (DV) et accessible. Tous les DV avec une URL similaire forment un espace de mesure appelé « espace de domaine » (DS). La « définition en ligne » caractérise de manière cohérente (normalisée) le DS et avec cela tous les DV qu'il contient. Un DV peut parfaitement parler de toutes les données déterminables, d'un simple mot à des données multidimensionnelles complexes par exemple dans la science, la médecine, l'industrie. http://numericsearch.com montre plusieurs modèles et affiche la capacité de recherche. La définition en ligne peut être multilingue, mais l'importance des DV est indépendante de la langue. Les DV sont globalement uniformes et équivalents, ils permettent une recherche de comparaison entièrement caractérisée. Les clients créent les définitions en ligne et avec cela les modèles de recherche. L'URL trouve la définition et peut être condensée. Les définitions en ligne existantes peuvent être réutilisées dans de nouvelles définitions, dans le but de rendre possible la recherche sur plusieurs DS. L'une des étapes suivantes est la garantie de la norme spécifique pour les définitions DS. Toute personne qui perçoit la capacité de la structure d'information ci-dessus et qui souhaite améliorer l'efficacité de la représentation des informations sur le Web est invitée à contribuer. L'exploration Web a acquis une importance énorme ces derniers temps et elle est correctement liée au développement généreux du World Wide Web. Les moteurs de recherche Web sont confrontés à de nouveaux défis en raison de l'accessibilité d'énormes quantités de fichiers Web, ce qui rend les résultats récupérés moins importants pour les analystes. Cependant, ces derniers temps, l'exploration Web se concentre uniquement sur l'obtention des liens des fichiers correspondants. Aujourd'hui, il existe différents calculs et programmes qui sont utilisés pour extraire les liens du Web qui doivent également être préparés pour plus tard, augmentant ainsi la charge de l'analyseur. Cet article se concentre sur l'extraction des liens et la récupération de toutes les données qui leur sont associées pour faciliter la préparation à différentes tâches. Dans cet article, les liens sont d'abord extraits du localisateur d'actifs uniforme (URL) prédéfini à l'aide d'une version modifiée de l'algorithme de recherche en profondeur qui prend en compte l'analyse globale à différents niveaux des liens Web de comparaison. Les liens sont ensuite accessibles via le code source et ses métadonnées, par exemple le nom, les mots-clés et la description sont séparés.Cette substance est extrêmement fondamentale pour un travail d'analyse à effectuer sur les Big Data acquises grâce au Web Crawling.  

Avertissement: Ce résumé a été traduit à l'aide d'outils d'intelligence artificielle et n'a pas encore été examiné ni vérifié

Indexé dans

Google Scholar
Academic Journals Database
Open J Gate
Academic Keys
ResearchBible
CiteFactor
Electronic Journals Library
RefSeek
Hamdard University
Scholarsteer
International Innovative Journal Impact Factor (IIJIF)
International Institute of Organised Research (I2OR)
Cosmos

Voir plus