Plyushchenko Andrey N
Spark est l'un des outils les plus populaires pour la manipulation efficace de Big Data avec des langages de haut niveau tels que Python, Scala, etc. PySpark est une bibliothèque Python pour l'utilisation de Spark. Bien que Spark inclue une bibliothèque d'algorithmes d'apprentissage automatique, les bibliothèques de machines locales les plus populaires telles que SKLearn, XGBoost, etc., sont plus flexibles et donnent les meilleurs résultats. Nous décrivons certaines techniques qui permettent d'adapter des algorithmes standard et de prédire des valeurs pour des données distribuées. Apache Spark est un système d'enregistrement de grappes open source. Initialement créé à l'AMPLab de l'Université de Californie à Berkeley, la base de code Spark a ensuite été donnée à l'Apache Software Foundation, qui l'a maintenue depuis. Flash offre une interface pour la programmation de grappes entières avec un certain parallélisme d'informations et une adaptation aux pannes non critiques. Apache Spark ML est la bibliothèque d'IA comprenant des calculs et des utilitaires d'apprentissage normaux, notamment le regroupement, la rechute, le regroupement, la séparation synergique, la diminution de la dimensionnalité et les natifs d'amélioration cachés. Le passage à l'ère du Big Data nécessite des calculs itératifs substantiels sur d'énormes ensembles de données. L'utilisation standard des calculs d'IA nécessite des machines extrêmement performantes pour pouvoir fonctionner. Se fier aux machines haut de gamme n'est pas bénéfique en raison de leur coût important et des coûts de mise à l'échelle peu judicieux. L'utilisation de moteurs de calcul dispersés consiste à disperser les calculs sur plusieurs machines bas de gamme (équipements logiciels) plutôt que sur une seule machine haut de gamme. Cela accélère certainement la phase d'apprentissage et nous permet de créer de meilleurs modèles. Alors que les associations créent des produits et des services d'information de plus en plus différents et plus axés sur le client, il existe un besoin croissant d'IA, qui peut être utilisée pour créer des personnalisations, des suggestions et des éléments de données de vision. Habituellement, les chercheurs en données peuvent résoudre ces problèmes à l'aide d'outils familiers et courants, tels que R et Python. Cependant, à mesure que les associations stockent des volumes et des collections de données de plus en plus importants, les chercheurs en données consacrent une plus grande partie de leur temps à soutenir leur base plutôt qu'à créer les modèles pour résoudre leurs problèmes d'information. Pour résoudre ce problème, Spark propose une bibliothèque d'IA complète - MLlib - conçue pour la simplicité, l'adaptabilité et la compatibilité simple avec différents outils. Grâce à l'adaptabilité, à la compatibilité linguistique et à la rapidité de Spark, les chercheurs en informatique peuvent comprendre et résoudre leurs problèmes d'informatique plus rapidement. Comme le montrent à la fois le nombre croissant de cas d'utilisation et le grand nombre d'engagements des développeurs, l'utilisation de MLlib se développe rapidement. Python et R sont des langages courants pour les chercheurs en informatique en raison du grand nombre de modules ou de packages qui sont rapidement disponibles pour les aider à résoudre leurs problèmes d'informatique. Cependant,Les utilisations conventionnelles de ces outils sont souvent restrictives, car ils traitent les données sur une seule machine où le développement des données devient fastidieux, la recherche nécessite une analyse (qui ne correspond généralement pas exactement aux données) et le passage des conditions de développement aux conditions de création nécessite une refonte complète. Pour aider à résoudre ces problèmes, Spark fournit aux architectes de données et aux chercheurs de données un moteur incroyable et intégré qui est à la fois rapide (100 fois plus rapide que Hadoop pour le traitement de données à grande échelle) et simple à utiliser. Cela permet aux professionnels de l'information de gérer leurs problèmes d'IA (tels que le calcul de diagrammes, le flux et le traitement de requêtes intuitives en continu) de manière intelligente et à une échelle beaucoup plus grande.