Manoj Mishra
Afin de posséder un avantage concurrentiel, les organisations du monde entier ont besoin de meilleures analyses (historiques, en temps réel, prédictives et cognitives) des connaissances dans divers domaines, notamment les clients, les produits, les services et les opérations. Grâce à cela, les données disponibles pour de telles analyses explosent en taille, en technologie et en complexité. Depuis plusieurs années, les entreprises investissent dans des technologies telles que les entrepôts de données, les data marts, les outils OLAP, les systèmes Big Data/Hadoop et les plates-formes d'analyse en temps réel en streaming pour tirer parti de ces opportunités. La valeur totale pour l'entreprise est maximisée uniquement si elles sont combinées dans une plate-forme d'analyse intégrée. Cependant, les outils traditionnels ne peuvent pas intégrer les données en streaming et les données au repos, en particulier lorsque les données sont réparties sur site, dans le cloud, sur des sites Web et des documents partout. La virtualisation des données est souvent utilisée pour fournir des vues logiques multiplateformes des connaissances et des informations analytiques dans toute l'entreprise afin de fournir une plate-forme d'analyse intégrée. En utilisant l'intégration native avec des grilles de données en mémoire pour le traitement, la virtualisation des données peut fournir une structure de services de données unifiée et centralisée avec sécurité et intégration en temps réel sur plusieurs sources de données traditionnelles et volumineuses, notamment Hadoop, NoSQL, le cloud et le logiciel en tant que service (SaaS). La virtualisation des données devient donc une exigence pour faire face aux défis uniques de l'explosion des connaissances dans le climat économique en constante évolution d'aujourd'hui. La virtualisation des données présente une approche contemporaine de l'intégration des données. Contrairement aux solutions ETL, qui répliquent les données, la virtualisation des données laisse les informations dans les systèmes sources, exposant simplement une vue intégrée de toutes les informations aux consommateurs de données. Lorsque les utilisateurs professionnels explorent les rapports, la virtualisation des données récupère les informations en temps réel à partir des systèmes sources sous-jacents. La virtualisation des données prouve que la connexion aux données est bien supérieure à leur collecte. La virtualisation des données peut être une couche de données virtuelle unifiée avec laquelle les applications et les utilisateurs d'entreprise peuvent accéder à toutes les informations d'entreprise, quel que soit leur emplacement, leur format ou leur protocole, en utilisant les méthodes qui correspondent le mieux à leurs besoins professionnels, comme la découverte et la recherche de données. La virtualisation des données est une approche de la gestion des données qui permet à une application de récupérer et de manipuler des données sans nécessiter de détails techniques sur les informations, comme la façon dont elles sont formatées à la source ou leur emplacement physique, et peut fournir une vue client unique (ou une vue unique de l'autre entité) des données générales. Contrairement au processus normal d'extraction, de transformation et de chargement (« ETL »), les informations restent in situ et un accès en temps réel est accordé au système source pour les informations. Cela réduit le risque d'erreurs de connaissances, de charge de travail déplaçant des données qui ne seront jamais utilisées, et ne prévoit pas d'imposer un modèle de données aux informations (un exemple de données hétérogènes peut être un système de base de données fédéré).La technologie prend également en charge l'écriture des mises à jour des données de transaction vers les systèmes sources. Pour résoudre les différences dans les formats et la sémantique des sources et des consommateurs, diverses techniques d'abstraction et de transformation sont utilisées. Cette idée et ce logiciel peuvent être un sous-ensemble de l'intégration des connaissances et sont généralement utilisés dans la veille stratégique, les services de données d'architecture orientée services, le cloud computing, la recherche d'entreprise et la gestion des données de référence. La virtualisation des données peut également être considérée comme une alternative à l'ETL et à l'entreposage de données. La virtualisation des données vise intrinsèquement à produire des informations rapides et opportunes à partir de sources multiples sans avoir à démarrer un projet de données sérieux avec un ETL et un stockage de données étendus. Cependant, la virtualisation des données peut également être étendue et adaptée pour répondre également aux exigences d'entreposage de données. Cela peut nécessiter une compréhension des exigences de stockage et d'historique des informations ainsi que de la planification et du style pour inclure le type approprié de stratégies de virtualisation, d'intégration et de stockage des données, et les optimisations d'infrastructure/performance (par exemple, streaming, en mémoire, stockage hybride).
Biographie :
Manoj Mishra a obtenu son baccalauréat en ingénierie informatique et une certification en science des données de l'université Johns Hopkins. Il possède plus de deux décennies d'expérience dans plusieurs régions géographiques (États-Unis, Europe, Inde et Moyen-Orient) et a travaillé avec des organisations comme Adobe Systems, Dell, Perot Systems, CEB-Gartner, Rolta et Tata Group. Il est actuellement directeur de la veille stratégique et des données chez Union Insurance et dirige actuellement leur stratégie de données et leurs transformations technologiques par le biais d'analyses de données, de recherches et de diverses initiatives d'IA.