Fionn Murtagh
L'analyse géométrique des données permet de « laisser parler les données » et intègre des analyses qualitatives et quantitatives. La portée et le potentiel sont majeurs dans de nombreux domaines. Les études de cas ici sont des analyses de médias sociaux à grande échelle, associées à un quartier de pratiques sociales et à un quartier de santé et de bien-être. L'intéressante étude de Keiding et Louis, « Perils and potentials of selfselected entry to epidemiological studies and surveys » met en évidence des problèmes très intéressants dans l'analyse des big data. Ma contribution se trouve dans la partie discussion de cet article. À travers la géométrie et la topologie des connaissances et des connaissances, avec l'inclusion du contexte, de la chronologie et des modèles de cadre, nous abordons ces problèmes d'échantillonnage et de représentativité. Les études de cas qui seront discutées dans cette présentation sont liées à la santé mentale et aux événements et contextes de divertissement social dans ce dernier cas avec plusieurs millions de tweets Twitter, utilisant de nombreuses langues. Une attention particulière est accordée à l'utilisation et à la mise en œuvre de nos perspectives analytiques. Cela inclut la détermination du contenu de connaissances de nos nuages ??de données et leur mise en correspondance avec des espaces de facteurs sémantiques dotés de distances euclidiennes, ainsi que la topologie ultramétrique ou hiérarchique, qui caractérise toutes les formes de systèmes complexes. L'analyse géométrique des données (GDA) est le nom suggéré par P. Suppes (Université de Stanford) pour désigner l'approche des statistiques multivariées initiée par Benzécri sous le nom d'analyse des correspondances, une approche qui est devenue de plus en plus utilisée et appréciée au fil des ans. Ce livre présente la formalisation complète de la GDA en termes d'algèbre - la principale caractéristique originale et de grande portée de l'approche - et montre également comment intégrer les outils statistiques de qualité comme l'analyse de la variance, y compris les méthodes bayésiennes. Le chapitre 9, Études de cas de recherche, est presque un livre en soi ; il présente la méthodologie en action sur trois applications extensives, une pour la médecine, une pour la politique et une pour l'éducation (données empruntées au programme informatique de Stanford pour la jeunesse présenté). Ainsi, le lectorat du livre concerne aussi bien les mathématiciens curieux des applications des mathématiques que les chercheurs désireux de maîtriser une approche exceptionnellement puissante de l'analyse statistique des données. L'analyse des données est le processus de nettoyage, de transformation, de modélisation ou de comparaison des données, afin d'en déduire des informations utiles et d'obtenir des informations sur des phénomènes complexes. D'un point de vue géométrique, lorsqu'une instance (un phénomène naturel, un événement privé, etc.) est donnée comme une collection de taille fixe d'observations à valeur réelle, elle est naturellement identifiée à un point géométrique ayant ces observations comme coordonnées. Toute collection de telles instances est alors vue comme un nuage de points échantillonné dans un espace métrique ou normé. Les Big Data ont 4 caractéristiques de volume, de variété, de vitesse et de véracité, ce qui implique authentiquement l'analyse des Big Data. Cependant,Quelles sont les caractéristiques dominantes de l'analyse de données massives ? Ici, l'analyse est dite de la méthodologie entière au lieu de l'analyse spécifique individuelle. Dans cet article, six techniques concernant l'analyse de big data sont proposées, qui comprennent : (1) l'analyse d'ensemble associée à un volume de connaissances surdimensionné, (2) l'analyse d'association associée à un échantillonnage de données inconnu, (3) l'analyse à haute dimension associée à une diffusion de connaissances, (4) l'analyse approfondie associée à la véracité des connaissances, (5) l'analyse de précision associée à la véracité des connaissances, et (6) l'analyse de division et de conquête associée à la vitesse de la connaissance. L'essentiel de l'analyse de données massives est que l'analyse structurelle de données massives dans un critère optimal de physique, de calcul et de cognition humaine. Fondamentalement, deux défis théoriques, à savoir la violation de la distribution indépendante et identique, et donc l'extension de la théorie générale des ensembles, sont posés. En particulier, nous avons illustré trois types d'association dans les big data géographiques, à savoir les associations géométriques dans l'espace et le temps, les corrélations spatio-temporelles en statistiques et les relations espace-temps en sémantique. De plus, nous avons illustré trois types d'analyse de données spatiotemporelles, à savoir l'ajustement de mesure (observation) de quantités géométriques, l'analyse du comportement spatial humain avec des trajectoires, l'assimilation de données de modèles physiques et diverses observations, à partir desquelles l'analyse de données volumineuses spatiotemporelles pourrait également être largement dérivée.assimilation de données de modèles physiques et d'observations diverses, à partir desquelles des analyses de big data spatiotemporelles pourraient également être largement dérivées.assimilation de données de modèles physiques et d'observations diverses, à partir desquelles des analyses de big data spatiotemporelles pourraient également être largement dérivées.
Biographie:
Fionn Murtagh est professeur de science des données et s'est auparavant intéressé au Big Data dans l'éducation, l'astrophysique et la cosmologie. Il a été directeur du financement national de la recherche dans de nombreux domaines, notamment l'informatique et l'ingénierie, l'énergie, la nanotechnologie et la photonique. Il a été professeur d'informatique, notamment chef de département et directeur d'école dans de nombreuses universités. Il a été rédacteur en chef du Computer Journal pendant plus de 10 ans et est membre des comités de rédaction de nombreuses autres revues.