Abstrait

Data Mining 2016 : Création de réseaux de mots basés sur des clusters à partir de données textuelles - Han-joon Kim - Université de Séoul

Han-joon Kim et Han-mook Ryu

Cet article décrit une autre méthode permettant de fournir des systèmes de mots de plus en plus critiques à partir de données littéraires en combinant des processus de regroupement de textes et d'association de mots clés. Fondamentalement, l'un des points de vue urgents de l'exploration de texte est l'examen des liens d'idées, où les idées commencent à partir de mots clés. Le problème est de trouver un arrangement de mots clés de plus en plus logique et leurs liens appelés « réseau de mots ». En général, les systèmes de mots peuvent être exploités en utilisant la fréquence de co-événement des mots enregistrés. Cependant, la fréquence de co-événement à elle seule ne suffit pas à évaluer la qualité de la relation entre les mots, car les relations importantes avec une fréquence généralement faible sont négligées. Dans notre travail, pour résoudre le problème, nous prévoyons d'effectuer la tâche d'association de mots sur les résultats groupés pour les enregistrements à venir plutôt que sur une archive entière. Au lieu de créer un arrangement de mots à partir de l'ensemble des archives, il est probable qu'il séparera les relations de mots de plus en plus importantes des résultats groupés des enregistrements. Notre technique proposée est exécutée de manière approfondie en deux étapes : tout d'abord, un ensemble d'enregistrements donné est divisé en plusieurs groupes, chacun étant appelé arbre de croisement de base en partant de l'exploration d'associations précédente. Ici, nous notons que chaque groupe comprend de nombreux enregistrements avec des exemples d'événements de mots similaires, et qu'il aurait donc des mots spécifiques de groupe et leurs associations de mots. De cette manière, dans une étape suivante, notre technique calcule de manière itérative des données communes pondérées qui évaluent le niveau de notabilité entre deux centres de mots, et concentre les N premiers mots importants et leurs associations de mots cachés dans chaque groupe. Le regroupement et le regroupement de contenu libre constituent une avancée importante vers son utilisation. Nous présentons une méthode de calcul pour le regroupement de contenu unique qui permet aux entreprises de regrouper automatiquement ces données. Dans cette solution en deux parties, nous étudierons le regroupement de texte et comment extraire des informations à partir d'informations non structurées. Ce sera une qualité très incroyable et moderne. La première partie se concentrera sur l'inspiration. La partie suivante portera sur l'exécution. Cet article est le premier segment de l'arrangement en deux parties sur la meilleure façon d'obtenir des informations à partir de données non structurées en utilisant le regroupement de texte. Nous allons assembler cela de manière mesurée afin qu'il puisse très bien être appliqué à n'importe quel ensemble de données. En outre, nous nous concentrerons également sur la découverte des fonctionnalités en tant qu'API afin qu'elle puisse fonctionner comme un modèle approprié et fonctionnel sans interruption des cadres actuels. Clustering de texte : Comment obtenir rapidement des informations à partir de données non structurées - Partie 1 : La motivation . Clustering de texte : Comment obtenir rapidement des informations à partir de données non structurées - Partie 2 : La mise en œuvre Gérer les associations de données non structurées d'aujourd'hui repose sur d'énormes quantités d'informations et, malheureusement,Une grande partie de ces informations n'est pas structurée par nature. Il existe une abondance d'informations sous forme de texte en flux libre dans nos entrepôts d'informations. Bien qu'il existe de nombreuses stratégies logiques mises en place pour aider à traiter et à analyser les informations organisées (par exemple numériques), il existe moins de stratégies axées sur la décomposition des informations en langage courant. La solution : Afin de surmonter ces problèmes, nous allons concevoir une approche de regroupement de livres non assistée qui permet aux entreprises de stocker automatiquement ces informations. Ces conteneurs eux-mêmes sont créés automatiquement en fonction de la compréhension des informations par l'ordinateur. Cela permettrait de réduire le volume des informations et de comprendre facilement la gamme plus large. Ainsi, au lieu d'essayer de comprendre un grand nombre de colonnes, il est judicieux de comprendre les mots-clés principaux dans environ 50 groupes. Sur cette base, un monde de possibilités s'ouvre : dans un module de service client, ces groupes aident à identifier les problèmes majeurs et peuvent devenir des sujets de concentration ou d'informatisation accrues. Les audits des clients sur un article ou une marque spécifique peuvent être résumés, ce qui posera véritablement le guide de l'association. Les informations sur les avis peuvent être facilement divisées. Les CV et autres informations non structurées dans le monde des RH peuvent être facilement examinés. Cette liste est sans fin, mais le but du centre est un calcul d'IA non exclusif qui peut aider à déduire des éléments de connaissances dans une structure amicale à partir d'énormes morceaux de contenu non structuré.Ce résumé est sans fin, mais le but de Center est un calcul d’IA non exclusif qui peut aider à déduire des éléments de connaissances dans une structure amicale à partir d’énormes morceaux de contenu non structuré.Ce résumé est sans fin, mais le but de Center est un calcul d’IA non exclusif qui peut aider à déduire des éléments de connaissances dans une structure amicale à partir d’énormes morceaux de contenu non structuré.

Biographie:

Han-joon Kim a obtenu sa licence et sa maîtrise en informatique et en statistique à l'Université nationale de Séoul, en Corée, en 1994 et 1996, respectivement. Il a obtenu son doctorat en informatique et en ingénierie à l'Université nationale de Séoul, en Corée, en 2002. Il est actuellement professeur à l'École d'ingénierie électrique et informatique de l'Université de Séoul, en Corée. Ses domaines de recherche actuels comprennent l'exploration de données et de textes, les systèmes de bases de données et la recherche intelligente d'informations.

Avertissement: Ce résumé a été traduit à l'aide d'outils d'intelligence artificielle et n'a pas encore été examiné ni vérifié

Indexé dans

Google Scholar
Academic Journals Database
Open J Gate
Academic Keys
ResearchBible
CiteFactor
Electronic Journals Library
RefSeek
Hamdard University
Scholarsteer
International Innovative Journal Impact Factor (IIJIF)
International Institute of Organised Research (I2OR)
Cosmos

Voir plus