Qu'est‑ce que la déduplication des données ? Méthodes et avantages.

Michael Chen | Content Strategist | 14 février 2024

La déduplication des données élimine systématiquement les copies redondantes de données et de fichiers, ce qui aide à réduire les coûts de stockage et à améliorer la gestion des versions. À l'ère où chaque appareil génère des données et où les organisations partagent massivement des fichiers, la déduplication est une composante vitale des opérations IT. Elle est aussi clé pour la protection et la continuité des données. Appliquée aux sauvegardes, la déduplication identifie et supprime les fichiers et blocs en double pour ne conserver qu'un exemplaire de chaque information unique. Cela permet non seulement d'économiser, mais aussi d'accélérer les temps de sauvegarde et de restauration, puisque moins de données transitent sur le réseau.

Qu'est‑ce que la déduplication des données ?

La déduplication des données consiste à supprimer des fichiers ou blocs identiques des bases de données et espaces de stockage. Elle peut s'opérer au niveau du fichier, du bloc ou de l'octet, ou à un niveau intermédiaire selon l'algorithme. Les résultats se mesurent souvent via un « ratio de déduplication ». Après déduplication, l'espace libre augmente, dans des proportions variables, selon les activités et types de fichiers plus ou moins sujets à la duplication. Si les équipes IT doivent vérifier régulièrement les doublons, l'intérêt d'une déduplication fréquente varie fortement selon plusieurs paramètres.

Points à retenir

  • La déduplication consiste à analyser et éliminer les doublons de données.
  • Les outils de déduplication offrent divers niveaux de précision, de la déduplication au niveau du fichier à celle au niveau du segment ou du bloc.
  • Plus la déduplication est précise, plus elle exige de ressources de calcul.
  • Pour la sauvegarde et l'archivage, la déduplication peut s'effectuer avant ou après le transfert des données. La première option consomme moins de bande passante ; la seconde utilise davantage de bande passante mais moins de ressources locales.

Ce qu'est la déduplication des données

Lors de la déduplication, un outil analyse les volumes de stockage pour repérer les doublons et supprime les occurrences identifiées. Pour détecter les doublons, le système compare des identifiants uniques, ou empreintes de hachage, associés à chaque élément de donnée. En cas de correspondance, une seule copie est conservée et les doublons sont remplacés par des références à la copie d'origine.

Le système de déduplication opère dans les stockages locaux, les outils de gestion comme les catalogues de données et les data stores, sur des données structurées comme non structurées. Pour bien comprendre, voici des termes et définitions clés :

  • Ratio de déduplication : métrique utilisée pour mesurer l'efficacité du processus de déduplication. Ce ratio compare la taille du magasin de données avant et après déduplication. Un ratio élevé indique un processus efficace, mais la fréquence de déduplication, la nature des données et d'autres facteurs peuvent influer sur le résultat final. La virtualisation, par exemple, crée des machines virtuelles qui se sauvegardent et se répliquent facilement, générant plusieurs copies des données. Conserver certaines copies est essentiel pour la redondance et la récupération en cas de perte de données.
  • Durée de rétention des données : période pendant laquelle les données sont conservées en stockage, généralement définie par une politique. Les rapports financiers doivent être conservés plus longtemps que, par exemple, des e‑mails. En règle générale, plus la durée de rétention est longue, plus le risque de duplication lors des sauvegardes, transferts ou via les machines virtuelles augmente.
  • Type de données : le format des données conservées en stockage. Parmi les types courants : exécutables, documents et fichiers média. La finalité, la criticité, la fréquence d'accès et d'autres facteurs déterminent si un fichier est dupliqué et sa durée de conservation.
  • Taux de modification : indicateur mesurant la fréquence à laquelle un fichier est mis à jour ou modifié. Les fichiers qui évoluent souvent sont généralement moins dupliqués.
  • Emplacement : lieu où les données sont stockées. Les doublons proviennent souvent de la présence des mêmes fichiers à plusieurs emplacements, volontairement (sauvegarde) ou involontairement (copier‑coller au lieu d'un couper‑coller). Dans certains cas, des machines virtuelles stockées à plusieurs emplacements contiennent des fichiers dupliqués.

Pourquoi la déduplication des données est‑elle utile ?

La déduplication des données permet d'économiser des ressources, espace de stockage, puissance de calcul et budget. Fondamentalement, il s'agit de réduire le volume de stockage. Mais quand chaque appareil produit d'énormes volumes de données et que les fichiers circulent entre services, les doublons ont des effets en chaîne : ralentissement des processus, consommation excessive de ressources, redondances et confusion lorsque des équipes travaillent sur des versions redondantes différentes. La déduplication répond à ces enjeux ; beaucoup d'organisations l'intègrent donc à leur routine de maintenance IT.

Quand utiliser la déduplication des données

Parce que la déduplication est un processus de gestion des données gourmand en ressources, son déclenchement doit dépendre de plusieurs paramètres, dont l'architecture réseau et les plages d'accès des employés. Voici les situations les plus courantes d'usage de la déduplication :

Serveurs de fichiers polyvalents

Les serveurs de fichiers polyvalents hébergent des données variées : fichiers personnels des employés, dossiers partagés par département, etc. Avec de nombreux utilisateurs et des rôles hétérogènes, ces serveurs concentrent souvent de multiples doublons. Parmi les causes : sauvegardes de disques locaux, installations applicatives, partages de fichiers, etc.

Déploiements de virtual desktop infrastructure (VDI)

La VDI assure l'hébergement et la gestion centralisés de postes virtuels accessibles à distance. Problème : les disques virtuels sont souvent identiques, avec des fichiers dupliqués qui saturent le stockage. De plus, lorsque de nombreux utilisateurs démarrent leurs VM simultanément (début de journée), le « pic de démarrage VDI » (« boot storm ») peut faire chuter les performances. La déduplication atténue cet effet grâce à un cache en mémoire des ressources applicatives appelées à la demande.

Systèmes de stockage et sauvegardes

Les sauvegardes créent, à juste titre, des versions dupliquées des fichiers. Cependant, un même fichier n'a pas vocation à être recopié indéfiniment. La déduplication garantit un fichier de sauvegarde maître, les autres instances des sauvegardes ultérieures pointant vers ce fichier principal. On préserve la redondance tout en optimisant ressources et espace de stockage.

Transferts de données

Les outils de déduplication rendent les transferts plus efficaces. Plutôt qu'une réécriture complète, ils traitent les fichiers par segments. Ils détectent les segments modifiés et ne transfèrent que ceux nécessaires. Par exemple, si une nouvelle version d'un très gros fichier ne change que quelques segments, le transfert/réécriture s'achève rapidement en n'écrivant que ces segments.

Systèmes d'archivage

On confond souvent archivage et sauvegarde car tous deux visent la conservation de long terme. La sauvegarde sert à la reprise après sinistre et à la préparation ; l'archivage préserve des données qui ne sont plus actives. Des doublons peuvent apparaître lors de la fusion de volumes ou de l'ajout de segments dans un système d'archivage. La déduplication maximise l'efficacité des archives.

Comment fonctionne la déduplication des données

À haut niveau, les outils comparent fichiers ou blocs via leurs empreintes de hachage pour identifier les doublons. Une fois confirmés, les doublons sont consignés puis éliminés. Zoom sur les étapes clés du processus.

Couper

Le découpage en blocs consiste à scinder les fichiers en segments (« chunks »). La taille des segments peut être calculée par algorithme ou fixée selon des règles établies. Avantage : une déduplication plus fine, au prix de ressources de calcul accrues.

Hachage

Lors du traitement, un algorithme de hachage attribue une empreinte à chaque donnée. Cette empreinte est comparée au registre des données déjà traitées. Si elle existe, la donnée est classée en doublon et supprimée pour libérer de l'espace.

Tables de référence

Les résultats de la déduplication sont consignés dans une table de référence indiquant quels segments/fichiers ont été supprimés et ce qu'ils dupliquaient. Cette table garantit transparence et traçabilité, tout en fournissant l'historique des références à l'échelle d'un volume.

Approches de déduplication des données

Les organisations choisissent l'approche qui convient à leur budget, à leur bande passante et à leurs besoins de redondance. Où, quand et avec quel niveau de granularité traiter : autant de variables à combiner pour une solution sur mesure.

La déduplication en ligne ou en post‑traitement est‑elle la plus adaptée à vos besoins ? Voici les avantages et inconvénients de chaque approche.

Schéma : déduplication en ligne vs en post‑traitement

Déduplication en ligne :

  • Élimine les doublons avant l'écriture sur le stockage.
  • L'optimisation de la capacité intervient avant l'écriture sur disque.
  • Avantages:
    • Réduit les besoins en espace de stockage, donc les coûts.
    • Diminue le volume de données à transférer, ce qui améliore les performances.
  • Inconvénients:
    • Nécessite davantage de puissance de calcul pour traiter en temps réel.
    • Si elle est mal optimisée, elle peut ralentir les opérations.

Déduplication en post‑traitement

  • Intervient après l'écriture des données sur le stockage.
  • Les données brutes sont d'abord écrites telles quelles sur disque.
  • L'optimisation de la capacité s'effectue après l'écriture.
  • Avantages:
    • Requiert moins de ressources.
    • N'affecte pas les performances car la déduplication s'exécute en batch séparé.
  • Inconvénients:
    • N'élimine pas les doublons en temps réel, avec un risque d'incohérences temporaires.
    • Le traitement par lots peut retarder l'identification et la suppression des doublons.

Méthodes de déduplication

  • Déduplication au niveau du bloc : comparaison des empreintes de blocs et suppression des doublons. Offre une grande précision, mais consomme des ressources et peut s'avérer complexe à grande échelle.
  • Déduplication à longueur variable : un algorithme définit la taille des segments dans un fichier, puis recherche les doublons. Proche de la déduplication par blocs, avec une bonne précision sans taille fixe de blocs.
  • Déduplication au niveau du fichier : détection des doublons fichier par fichier plutôt qu'au niveau des blocs. Moins granulaire que par blocs, mais plus rapide et moins gourmande, applicable à tout volume de stockage.

Points d'application de la déduplication

  • Déduplication côté source : la déduplication s'effectue sur le client local. Effectuée avant la sauvegarde, elle économise la bande passante et les coûts de transmission, au prix des ressources du client.
  • Déduplication côté cible : elle intervient après la transmission de la sauvegarde. Le compromis s'inverse : moins de charge sur les clients, plus de demande sur la bande passante et les ressources de la cible.

Moment d'exécution de la déduplication

  • Déduplication en ligne : détection des doublons en temps réel pendant le traitement. Cette méthode consomme plus de calcul local, mais libère rapidement de l'espace.
  • Déduplication en post‑traitement : comparaison et élimination après l'envoi des données vers la cible. Elle nécessite plus d'espace sur la cible, mais peu de ressources locales avant transmission.

Avantages de la déduplication des données

Comme l'édition d'un document élimine les répétitions pour gagner en clarté, la déduplication rationalise les données de l'entreprise, avec à la clé des économies de stockage, une moindre consommation de bande passante et des sauvegardes plus efficaces.

Économies de stockage

Moins il y a de fichiers, moins l'organisation consomme de stockage. C'est l'un des bénéfices les plus évidents de la déduplication des données, et il s'étend à d'autres systèmes. Les entreprises auront besoin de moins d'espace pour les sauvegardes et consommeront moins de ressources de calcul et de bande passante pour l'analyse et la sauvegarde des données.

Reprise après sinistre

Comme la déduplication allège la charge des sauvegardes, elle accélère et facilite la reprise après sinistre. Des sauvegardes plus compactes se créent plus efficacement, et nécessitent donc moins de ressources lors des restaurations.

Fenêtres de sauvegarde réduites

Avec la déduplication, l'empreinte des fichiers de sauvegarde diminue, ce qui réduit l'usage des ressources pendant les sauvegardes, espace de stockage, calcul, temps de traitement. Tout cela offre plus de flexibilité pour planifier les sauvegardes.

Efficacité réseau

Moins il y a de fichiers à transférer, moins la bande passante requise est importante ; le transfert sollicite donc moins les ressources réseau. La déduplication améliore ainsi l'efficacité réseau en réduisant la demande lors des transferts, y compris pour l'archivage et la restauration après sinistre.

Avantages économiques

L'explosion des volumes de données a fortement augmenté les dépenses de stockage dans les organisations de toutes tailles. La déduplication permet de réaliser des économies en réduisant le stockage nécessaire, au quotidien comme pour les sauvegardes et l'archivage. Des économies secondaires proviennent d'une moindre consommation d'énergie, de calcul et de bande passante, ainsi que de moins de temps humain pour gérer et dépanner les fichiers dupliqués.

Limites et points d'attention de la déduplication des données

La déduplication est un levier efficace pour optimiser les ressources et réduire les coûts. Cependant, ces bénéfices s'accompagnent de défis, souvent liés à la puissance de calcul requise pour une déduplication fine. Parmi les inconvénients et risques les plus courants :

Surcharge de performance

La déduplication est gourmande en ressources, surtout au niveau du bloc. Les équipes IT doivent planifier et exécuter ces processus avec discernement, en tenant compte de la bande passante disponible, des activités et besoins, du lieu des sauvegardes, des échéances et d'autres facteurs propres à leur environnement.

Collisions de hachage

Les collisions de hachage surviennent lorsque des valeurs de hachage se recouvrent par hasard. En déduplication au niveau du bloc, des empreintes sont attribuées aux segments, ce qui augmente le risque de collisions susceptibles de corrompre les données. Pour les éviter, on peut agrandir la table de hachage ou appliquer des méthodes de résolution (chaînage, adressage ouvert). Le chaînage stocke plusieurs éléments partageant la même clé de hachage dans une liste chaînée (ou autre structure) ; l'adressage ouvert consiste à placer l'élément à une autre position libre dans la table. Chaque méthode a ses atouts et limites ; les équipes doivent arbitrer entre la longueur/complexité de l'algorithme de hachage et ces contournements.

Intégrité des données

Aucun processus n'est infaillible : la déduplication peut, par inadvertance, supprimer ou altérer des données uniques et importantes. Parmi les causes : collisions de hachage, blocs source corrompus, interruptions (panne disque, erreur humaine, coupure de courant), cyberattaque réussie, ou simple erreur d'exploitation. Même si elles sont rares au vu des outils et protocoles actuels, ces atteintes à l'intégrité restent possibles et peuvent s'avérer lourdes de conséquences.

Métadonnées supplémentaires

La déduplication génère une nouvelle couche de métadonnées pour les journaux de changements et les signatures numériques attachées à chaque bloc traité. On parle de « fichier d'empreintes ». Ces métadonnées consomment de l'espace et peuvent, elles aussi, poser des problèmes d'intégrité. Si elles sont corrompues, les opérations de restauration s'en trouvent fortement compliquées.

Coût de mise en œuvre

Si la déduplication fait gagner de l'argent sur la durée grâce à moins de stockage, elle exige un investissement initial. Ces coûts couvrent l'outil de déduplication (souvent tarifé au volume d'enregistrements) et le temps des équipes IT pour concevoir, exécuter et gérer le processus.

Cas d'usage de la déduplication des données

Comment la déduplication fonctionne‑t‑elle concrètement ? En théorie, c'est un concept simple de data science : éliminer les doublons pour réduire la consommation de ressources et minimiser les erreurs dues aux multiples versions d'un même fichier. Mais chaque secteur, industrie, voire département, a ses objectifs et besoins spécifiques. Voici quelques cas d'usage types.

Gestion de la relation client (CRM) : dans un CRM, les fiches clients, contacts et opportunités proviennent de sources, niveaux de détail et formats multiples. Il en résulte des données incohérentes : un responsable peut disposer d'une fiche différente d'un autre. Par exemple, si une fiche contact existe dans plusieurs référentiels et qu'une seule est mise à jour après un départ, certains continueront d'utiliser une information obsolète. La déduplication aide à garantir une source unique d'information client fiable, afin que tous utilisent des données à jour pour produire des visualisations ou lancer des analyses.

Intégration des données : lors d'une fusion/acquisition ou d'une réorganisation, des instances différentes d'une même application engendrent des doublons. Par exemple, une grande entreprise rachète un concurrent plus petit avec 40 % de clients communs, ce qui se reflète dans leurs ERP. La déduplication élimine ces redondances, libère du stockage et garantit que tous n'utilisent que la version la plus récente de chaque enregistrement.

Informatique virtuelle : avec des postes virtuels (tests, accès à des applications spécialisées ou systèmes internes), la déduplication accroît l'efficacité, surtout en forte charge. Les machines virtuelles contiennent souvent des données très similaires, générant de nombreuses versions dupliquées. La déduplication purge ces doublons pour éviter que les données issues des VM ne saturent le stockage.

Banque : au sein d'une institution financière, des services ou agences distincts conservent parfois des fiches clients dupliquées. Chaque doublon est une porte d'entrée potentielle pour des vols d'identité, des transactions frauduleuses et d'autres activités illégales. En outre, contrôler et traiter des données en double pour détecter la fraude consomme davantage de ressources. La déduplication améliore l'efficacité et la sécurité des banques et coopératives de crédit.

Ce ne sont que quelques exemples. Toute organisation produisant beaucoup de données peut bénéficier de la déduplication.

Critères de choix d'une technologie de déduplication

De nombreux fournisseurs proposent des outils de déduplication : lequel est adapté à votre organisation ? Voici les facteurs clés à considérer pour établir votre short‑list.

  • Performances : les types de déduplication n'ont pas le même appétit en ressources. Par exemple, une déduplication au niveau du bloc, côté source, sur un grand réseau, consommera bien plus qu'une déduplication au niveau du fichier, côté cible, et au périmètre plus restreint.
  • Montée en charge : scalabilité et performance vont de pair, ce qui dégrade les performances monte mal en charge. Cela vaut pour la déduplication : plus le processus est gourmand, plus il est difficile de l'étendre. Les organisations aux exigences de montée en charge élevées doivent peser ces compromis dans leur choix.
  • Intégration : des sources de données cloisonnées compliquent la déduplication. Par exemple, des bases de données cloisonnées accroissent fortement le risque de doublons. Autre cas : un grand réseau multi‑sites impose souvent un protocole de nettoyage et de transformation plus strict avant la déduplication. Il faut donc évaluer l'état de l'intégration des données avant de définir l'implémentation.
  • Coût : les outils de déduplication varient selon leur complexité et leurs capacités. La tarification croît généralement avec le volume d'enregistrements traités. Établissez un budget selon les standards du marché et les devis, puis mesurez l'amortissement via les économies long terme.

Supprimez le besoin de déduplication des données avec Oracle HeatWave

Le meilleur moyen de résoudre les problèmes de déduplication est de les prévenir à la source. Oracle HeatWave y contribue en combinant transactions, analytique temps réel sur data warehouses et data lakes, machine learning et IA générative au sein d'un même service cloud. Les clients HeatWave n'ont plus à dupliquer les données d'une base de données transactionnelle vers une base analytique séparée, avec de multiples avantages à la clé.

  • Plus besoin de stocker les mêmes données dans plusieurs entrepôts pour des usages différents.
  • Fini les processus ETL/ELT complexes, chronophages, coûteux et sources d'erreurs pour déplacer les données entre stockages.
  • Les requêtes analytiques accèdent à des données toujours à jour, avec de meilleurs résultats qu'une analyse sur des données potentiellement obsolètes dans une base analytique séparée.
  • Le risque de compromission en transit est faible puisque les données ne circulent pas entre bases de données.
  • HeatWave Lakehouse permet d'interroger jusqu'à un demi‑pétaoctet (Po) de données dans l'object store, et de les combiner, au besoin, avec des données d'une base MySQL. Les clients interrogent les données transactionnelles en MySQL, les données multi‑formats en object storage, ou les deux, via les commandes MySQL standard, sans copier les données depuis l'object storage vers MySQL.

Avec HeatWave AutoML intégré, ils créent, entraînent et expliquent des modèles de machine learning au sein de HeatWave, sans dupliquer les données vers un service ML séparé.

HeatWave GenAI offre une IA générative intégrée, automatisée et sécurisée avec des LLM dans la base de données, un stockage vectoriel automatisé dans la base de données, un traitement vectoriel à l'échelle, et des conversations contextuelles en langage naturel, pour bénéficier de la GenAI sans expertise dédiée et sans déplacer les données vers une base de données vectorielle séparée.

En supprimant les duplications entre services cloud (transactions, analytique, machine learning, GenAI), HeatWave simplifie l'infrastructure data, accélère et fiabilise la décision, accroît la productivité, renforce la sécurité et réduit les coûts.

L'IA peut aider les DSI à analyser les données pour optimiser les dépenses liées au cloud et à suggérer des ajustements de code à l'architecte pour limiter les sorties. Découvrez comment exploiter la puissance de l'intelligence artificielle pour relever les défis liés aux talents, à la sécurité et bien plus encore.

FAQ sur la déduplication des données

Quel est un exemple de déduplication ?

Un exemple fréquent provient des sauvegardes et archives versionnées des données d'une organisation. Chaque archive contient de multiples occurrences des mêmes fichiers inchangés. Avec la déduplication, on crée une nouvelle version d'archive dépourvue de ces fichiers redondants. La nouvelle version contient des pointeurs vers l'unique source, ce qui l'intègre à l'archive sans consommer d'espace supplémentaire.

Pourquoi faire de la déduplication ?

Les doublons consomment inutilement de l'espace de stockage. Cet espace supplémentaire mobilise davantage de ressources (stockage, bande passante, calcul) lors de processus comme les analyses anti‑malware. La déduplication réduit l'espace utilisé et, au global, la consommation de ressources, bande passante comme capacité de stockage.

Qu'est‑ce que la duplicité des données ?

Les doublons peuvent provenir à la fois d'une duplication volontaire et d'une redondance involontaire. La « duplicité » (au sens anglais) désigne les cas où un utilisateur ajoute lui‑même un fichier en double. La redondance de données survient lorsque des bases de données avec des enregistrements qui se recoupent fusionnent et créent des doublons.

Quels sont les inconvénients de la déduplication ?

La déduplication libère du stockage pour plus d'efficacité et d'économies à long terme. Cependant, son exécution est gourmande en ressources et peut ralentir certaines parties du réseau, dont le calcul et la bande passante. Les équipes IT doivent donc planifier la déduplication de manière stratégique.