Santosh Tirunagari, Maria Hanninen, Guggilla Abhishek, Kaarle Stahlberg et Pentti Kujala
Le regroupement de documents non supervisé est un processus automatisé dans lequel les documents sont analysés en fonction de leur similarité. Dans cet article, nous proposons une nouvelle méthode de sélection de caractéristiques basée sur des relations causales pour classer les rapports d'accidents maritimes de manière non supervisée. Nous comparons également l'impact de différentes mesures de similarité sur la méthode de sélection de caractéristiques proposée. Sur la base de l'analyse, nous concluons que la méthode de sélection de caractéristiques proposée a de meilleures performances que la méthode conventionnelle en raison de l'effet de la malédiction de la dimensionnalité. L'impact des mesures de similarité s'améliore avec la méthode de sélection de caractéristiques proposée. Dans l'analyse, nous avons comparé les mesures de similarité de corrélation, de cosinus, de Spearman, de Bray-Curtis, d'Euclide, de City-block, d'Euclide au carré, d'Euclide standardisée et de Chebychev. Les deux premières ont produit les meilleurs résultats, suivies des deux suivantes. Les autres n'ont pas produit de bons résultats avec les rapports d'accidents maritimes utilisés dans notre analyse. Il est intéressant de noter que le Chi-carré a donné de bons résultats avec la méthode proposée dans notre analyse.