Catégories
Actualités Start-Up

Pourquoi vous avez besoin d'une solution intégrée de cycle de vie des données

Presque toutes les entreprises qui ont subi une transformation numérique ont eu du mal à utiliser au mieux les vastes quantités de données collectées. En effet, nous estimons que pour la plupart des entreprises, 85 à 95% des données ne sont jamais pleinement utilisées, et donc gaspillées.

Il y a de nombreuses étapes dans un cycle de vie des données, y compris l'acquisition des données, la création de l'ingénierie des données / des ensembles de données pour donner un sens aux données brutes, le stockage en masse des données pour une utilisation / analyse ultérieure, la création de base de données pour explorer les données, et enfin capacité à utiliser des analyses avancées et / ou l'apprentissage automatique pour extraire des informations à partir des données non disponibles via de simples rapports, tout en maintenant la sécurité des données et une conformité réglementaire totale Le défi pour de nombreuses organisations est de savoir comment mettre en place au mieux un tel système, tout en maintenant les coûts raisonnables et en minimisant le temps de déploiement / opération, ainsi que le défi de présenter les données de manière significative afin que les gens puissent en tirer des informations.

Ce qu’il faut, c’est un moyen de gérer l’ensemble du cycle de vie des données, de l’acquisition à l’analyse, pour obtenir des informations, tout en conservant les avantages de l’open source et la capacité d’utiliser l’informatique native sur site et / ou hybride ou dans le cloud. Les entrepôts de données sont disponibles depuis un certain temps et peuvent gérer le stockage et la livraison, mais ils ne fournissent pas une solution complète. De nombreuses organisations ont implémenté des nuages ​​de données, que ce soit via l'open source pur (par exemple, Apache Hadoop) ou en tant que produits commerciaux (par exemple, Talend, Informatica, Amazon Redshift, IBM, SAP, Oracle, etc.), mais cela ne résout pas l'ensemble des données défi du cycle de vie, et oblige souvent à utiliser de nombreux produits complémentaires disparates qui peuvent ne pas être facilement intégrés.

Presque toutes les entreprises qui ont traversé une transformation numérique ont eu du mal à utiliser au mieux les vastes quantités de données collectées. En effet, nous estimons que pour la plupart des entreprises, 85 à 95% des données ne sont jamais pleinement utilisées, et donc gaspillées.

Il y a de nombreuses étapes dans un cycle de vie des données, y compris l'acquisition des données, la création de l'ingénierie des données / des ensembles de données pour donner un sens aux données brutes, le stockage en masse des données pour une utilisation / analyse ultérieure, la création de base de données pour explorer les données, et enfin capacité à utiliser des analyses avancées et / ou l'apprentissage automatique pour extraire des informations à partir des données non disponibles via de simples rapports, tout en maintenant la sécurité des données et une conformité réglementaire totale. Le défi pour de nombreuses organisations est de savoir comment mettre en place au mieux un tel système, tout en maintenant les coûts raisonnables et en minimisant le temps de déploiement / opération, ainsi que le défi de présenter les données de manière significative afin que les gens puissent en tirer des informations.

Ce qu’il faut, c’est un moyen de gérer l’ensemble du cycle de vie des données, de l’acquisition à l’analyse, pour obtenir des informations, tout en conservant les avantages de l’open source et la capacité d’utiliser l’informatique native sur site et / ou hybride ou dans le cloud. Les entrepôts de données sont disponibles depuis un certain temps et peuvent gérer le stockage et la livraison, mais ils ne fournissent pas une solution complète. De nombreuses organisations ont implémenté des nuages ​​de données, que ce soit via l'open source pur (par exemple, Apache Hadoop) ou en tant que produits commerciaux (par exemple, Talend, Informatica, Amazon Redshift, IBM, SAP, Oracle, etc.), mais cela ne résout pas l'ensemble des données défi du cycle de vie, et oblige souvent à utiliser de nombreux produits complémentaires disparates qui peuvent ne pas être facilement intégrés.

Alors que les logiciels / systèmes open source semblent très attractifs, en particulier du point de vue des coûts, l'approche «roll your own» de la mise en œuvre d'une solution fonctionnelle est souvent pleine de défis, et «gratuit» n'est pas vraiment «gratuit». Le temps de fonctionnement complet est considérablement réduit en choisissant une solution complète, tout comme la complexité des opérations et du support en cours. Cette approche peut permettre aux déploiements d'entreprise d'économiser des dizaines de millions de dollars sur le long terme. Nous estimons que les problèmes de complexité et d'intégration font que 50% à 65% de tous les systèmes d'entreprise ne répondent pas aux attentes ou échouent tous ensemble. De plus, les coûts de maintenance continus des systèmes non optimisés entraînent des impacts majeurs sur le budget de fonctionnement, et nous estimons qu'ils peuvent représenter 2X à 5X le coût des solutions entièrement intégrées et packagées.

Le problème avec tout cela, mis à part le coût et la nécessité de disposer de multiples compétences techniques et ressources disponibles, est que le résultat ultime souhaité – le temps nécessaire pour comprendre – se prolonge et peut ne jamais être pleinement atteint. Ce délai de réflexion est très coûteux. Il est beaucoup plus efficace de trouver une solution basée sur l'open source, mais qui a créé toutes les intégrations nécessaires pour construire un système complet qui peut être facilement et rapidement implémenté et finalement efficacement pris en charge.

À titre d'exemple de solution de cycle de vie des données plus complète, Cloudera a créé une approche intégrée avec sa plate-forme de données Cloudera (CDP), incluant non seulement l'acquisition et le stockage de données, mais également permettant l'apprentissage automatique et réduisant le temps de compréhension, tout en incluant un profil une approche de sécurité des données en couches. Il intègre l'acquisition de données, le flux de données, l'ingénierie des données, l'entreposage de données, la base de données et l'apprentissage automatique (ML) dans un cadre extensible et permet d'intégrer des capacités supplémentaires au besoin à partir d'un écosystème de partenaires en expansion. Il fonctionne sur site, dans un cloud hybride ou dans un cloud public et, lorsqu'il est déployé en tant qu'implémentation cloud, il peut pratiquement éliminer les retards associés au déploiement de composants individuels, ce qui permet potentiellement d'économiser des mois dans la compréhension des données.

Ceci est essentiel dans de nombreuses entreprises où les retards peuvent être coûteux et / ou créer des dommages. Par exemple, retarder la détection de la fraude de quelques minutes ou de quelques heures peut entraîner des pertes massives sur le long terme. Selon le rapport d'enquête 2019 sur la fraude sur les comptes de dépôt de l'American Bankers Association, les banques américaines ont évité 22,3 milliards de dollars de tentatives de fraude contre des comptes de dépôt en 2018, tandis que le total des tentatives de fraude s'élevait à 25,1 milliards de dollars. Même avec ce niveau élevé de prévention, il est probable qu’une analyse plus proactive et plus sensible au temps aurait pu arrêter une grande partie des 2,8 milliards de dollars restants de fraude. Et si l'analyse de la fraude financière est souvent mise en avant comme un candidat principal pour de tels systèmes d'analyse de données, ce n'est que la pointe de l'iceberg.

Une analyse retardée des données / tendances sanitaires peut ouvrir la voie à la propagation d'une maladie sans détection et infecter beaucoup plus d'individus, comme nous l'avons vu dans la crise pandémique actuelle, ainsi que créer des défis en raison du manque de diagnostic approprié et de traitement ultérieur. Alors que nous passons à une utilisation accrue des sessions de télésanté à distance et à une plus grande dépendance à la surveillance de capteurs à distance et à une analyse de santé plus automatisée, des données collectées avec précision sont d'une importance vitale, car tout diagnostic erroné dû à des données erronées peut avoir un lourd tribut à la fois sur les personnes et les systèmes de livraison.

Diverses estimations placent le coût des diagnostics erronés jusqu'à 30% du coût total des soins de santé. En 2018, les États-Unis ont dépensé environ 3,6 billions de dollars en soins de santé, ce qui représente en moyenne environ 11000 dollars par personne. Le passage à un rôle plus inclusif pour les systèmes de santé à distance nécessite d'avoir une capacité de cycle de vie des données beaucoup plus vigoureuse que celle actuellement disponible dans de nombreuses institutions, afin d'éliminer ou au moins de réduire considérablement les erreurs de diagnostic et les problèmes associés. En outre, un moyen de partager des données personnelles entre différentes organisations afin de mieux évaluer les tendances et de fournir des catégories plus importantes de personnes à analyser, et ce de manière confidentielle, est une autre raison pour laquelle un processus de gestion du cycle de vie des données amélioré peut protéger la confidentialité et répondre à tous les critères pertinents. les problèmes de conformité réglementaire sont critiques. D'autres secteurs, comme la vente au détail, la fabrication, les produits pharmaceutiques, le transport et bien d'autres, bénéficieraient tous d'une telle approche de gestion du cycle de vie des données.

Conclusion:

Une plate-forme plus inclusive pour la gestion complète du cycle de vie des données est impérative alors que nous évoluons vers un monde davantage axé sur les données et transformé numériquement. Dans de nombreuses entreprises, les données sont périssables, car tout manque d'informations en temps opportun peut causer des dommages financiers ou physiques importants. Les entreprises doivent adopter une approche de plate-forme pour la gestion du cycle de vie des données qui ne nécessite pas une intégration interne approfondie, ni un cycle de déploiement prolongé, que ce soit pour les grands projets intersociétés ou pour les projets individuels ou en petit groupe. Pour atteindre ce résultat, une solution intégrée de plate-forme de cycle de vie des données est essentielle.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *