Michael Chen | Content Strategist | 14 février 2024
La déduplication des données élimine systématiquement les copies redondantes de données et de fichiers, ce qui aide à réduire les coûts de stockage et à améliorer la gestion des versions. À l'ère où chaque appareil génère des données et où les organisations partagent massivement des fichiers, la déduplication est une composante vitale des opérations IT. Elle est aussi clé pour la protection et la continuité des données. Appliquée aux sauvegardes, la déduplication identifie et supprime les fichiers et blocs en double pour ne conserver qu'un exemplaire de chaque information unique. Cela permet non seulement d'économiser, mais aussi d'accélérer les temps de sauvegarde et de restauration, puisque moins de données transitent sur le réseau.
La déduplication des données consiste à supprimer des fichiers ou blocs identiques des bases de données et espaces de stockage. Elle peut s'opérer au niveau du fichier, du bloc ou de l'octet, ou à un niveau intermédiaire selon l'algorithme. Les résultats se mesurent souvent via un « ratio de déduplication ». Après déduplication, l'espace libre augmente, dans des proportions variables, selon les activités et types de fichiers plus ou moins sujets à la duplication. Si les équipes IT doivent vérifier régulièrement les doublons, l'intérêt d'une déduplication fréquente varie fortement selon plusieurs paramètres.
Points à retenir
Lors de la déduplication, un outil analyse les volumes de stockage pour repérer les doublons et supprime les occurrences identifiées. Pour détecter les doublons, le système compare des identifiants uniques, ou empreintes de hachage, associés à chaque élément de donnée. En cas de correspondance, une seule copie est conservée et les doublons sont remplacés par des références à la copie d'origine.
Le système de déduplication opère dans les stockages locaux, les outils de gestion comme les catalogues de données et les data stores, sur des données structurées comme non structurées. Pour bien comprendre, voici des termes et définitions clés :
La déduplication des données permet d'économiser des ressources, espace de stockage, puissance de calcul et budget. Fondamentalement, il s'agit de réduire le volume de stockage. Mais quand chaque appareil produit d'énormes volumes de données et que les fichiers circulent entre services, les doublons ont des effets en chaîne : ralentissement des processus, consommation excessive de ressources, redondances et confusion lorsque des équipes travaillent sur des versions redondantes différentes. La déduplication répond à ces enjeux ; beaucoup d'organisations l'intègrent donc à leur routine de maintenance IT.
Parce que la déduplication est un processus de gestion des données gourmand en ressources, son déclenchement doit dépendre de plusieurs paramètres, dont l'architecture réseau et les plages d'accès des employés. Voici les situations les plus courantes d'usage de la déduplication :
Les serveurs de fichiers polyvalents hébergent des données variées : fichiers personnels des employés, dossiers partagés par département, etc. Avec de nombreux utilisateurs et des rôles hétérogènes, ces serveurs concentrent souvent de multiples doublons. Parmi les causes : sauvegardes de disques locaux, installations applicatives, partages de fichiers, etc.
La VDI assure l'hébergement et la gestion centralisés de postes virtuels accessibles à distance. Problème : les disques virtuels sont souvent identiques, avec des fichiers dupliqués qui saturent le stockage. De plus, lorsque de nombreux utilisateurs démarrent leurs VM simultanément (début de journée), le « pic de démarrage VDI » (« boot storm ») peut faire chuter les performances. La déduplication atténue cet effet grâce à un cache en mémoire des ressources applicatives appelées à la demande.
Les sauvegardes créent, à juste titre, des versions dupliquées des fichiers. Cependant, un même fichier n'a pas vocation à être recopié indéfiniment. La déduplication garantit un fichier de sauvegarde maître, les autres instances des sauvegardes ultérieures pointant vers ce fichier principal. On préserve la redondance tout en optimisant ressources et espace de stockage.
Les outils de déduplication rendent les transferts plus efficaces. Plutôt qu'une réécriture complète, ils traitent les fichiers par segments. Ils détectent les segments modifiés et ne transfèrent que ceux nécessaires. Par exemple, si une nouvelle version d'un très gros fichier ne change que quelques segments, le transfert/réécriture s'achève rapidement en n'écrivant que ces segments.
On confond souvent archivage et sauvegarde car tous deux visent la conservation de long terme. La sauvegarde sert à la reprise après sinistre et à la préparation ; l'archivage préserve des données qui ne sont plus actives. Des doublons peuvent apparaître lors de la fusion de volumes ou de l'ajout de segments dans un système d'archivage. La déduplication maximise l'efficacité des archives.
À haut niveau, les outils comparent fichiers ou blocs via leurs empreintes de hachage pour identifier les doublons. Une fois confirmés, les doublons sont consignés puis éliminés. Zoom sur les étapes clés du processus.
Le découpage en blocs consiste à scinder les fichiers en segments (« chunks »). La taille des segments peut être calculée par algorithme ou fixée selon des règles établies. Avantage : une déduplication plus fine, au prix de ressources de calcul accrues.
Lors du traitement, un algorithme de hachage attribue une empreinte à chaque donnée. Cette empreinte est comparée au registre des données déjà traitées. Si elle existe, la donnée est classée en doublon et supprimée pour libérer de l'espace.
Les résultats de la déduplication sont consignés dans une table de référence indiquant quels segments/fichiers ont été supprimés et ce qu'ils dupliquaient. Cette table garantit transparence et traçabilité, tout en fournissant l'historique des références à l'échelle d'un volume.
Les organisations choisissent l'approche qui convient à leur budget, à leur bande passante et à leurs besoins de redondance. Où, quand et avec quel niveau de granularité traiter : autant de variables à combiner pour une solution sur mesure.
Schéma : déduplication en ligne vs en post‑traitement
Déduplication en ligne :
Déduplication en post‑traitement
Comme l'édition d'un document élimine les répétitions pour gagner en clarté, la déduplication rationalise les données de l'entreprise, avec à la clé des économies de stockage, une moindre consommation de bande passante et des sauvegardes plus efficaces.
Moins il y a de fichiers, moins l'organisation consomme de stockage. C'est l'un des bénéfices les plus évidents de la déduplication des données, et il s'étend à d'autres systèmes. Les entreprises auront besoin de moins d'espace pour les sauvegardes et consommeront moins de ressources de calcul et de bande passante pour l'analyse et la sauvegarde des données.
Comme la déduplication allège la charge des sauvegardes, elle accélère et facilite la reprise après sinistre. Des sauvegardes plus compactes se créent plus efficacement, et nécessitent donc moins de ressources lors des restaurations.
Avec la déduplication, l'empreinte des fichiers de sauvegarde diminue, ce qui réduit l'usage des ressources pendant les sauvegardes, espace de stockage, calcul, temps de traitement. Tout cela offre plus de flexibilité pour planifier les sauvegardes.
Moins il y a de fichiers à transférer, moins la bande passante requise est importante ; le transfert sollicite donc moins les ressources réseau. La déduplication améliore ainsi l'efficacité réseau en réduisant la demande lors des transferts, y compris pour l'archivage et la restauration après sinistre.
L'explosion des volumes de données a fortement augmenté les dépenses de stockage dans les organisations de toutes tailles. La déduplication permet de réaliser des économies en réduisant le stockage nécessaire, au quotidien comme pour les sauvegardes et l'archivage. Des économies secondaires proviennent d'une moindre consommation d'énergie, de calcul et de bande passante, ainsi que de moins de temps humain pour gérer et dépanner les fichiers dupliqués.
La déduplication est un levier efficace pour optimiser les ressources et réduire les coûts. Cependant, ces bénéfices s'accompagnent de défis, souvent liés à la puissance de calcul requise pour une déduplication fine. Parmi les inconvénients et risques les plus courants :
La déduplication est gourmande en ressources, surtout au niveau du bloc. Les équipes IT doivent planifier et exécuter ces processus avec discernement, en tenant compte de la bande passante disponible, des activités et besoins, du lieu des sauvegardes, des échéances et d'autres facteurs propres à leur environnement.
Les collisions de hachage surviennent lorsque des valeurs de hachage se recouvrent par hasard. En déduplication au niveau du bloc, des empreintes sont attribuées aux segments, ce qui augmente le risque de collisions susceptibles de corrompre les données. Pour les éviter, on peut agrandir la table de hachage ou appliquer des méthodes de résolution (chaînage, adressage ouvert). Le chaînage stocke plusieurs éléments partageant la même clé de hachage dans une liste chaînée (ou autre structure) ; l'adressage ouvert consiste à placer l'élément à une autre position libre dans la table. Chaque méthode a ses atouts et limites ; les équipes doivent arbitrer entre la longueur/complexité de l'algorithme de hachage et ces contournements.
Aucun processus n'est infaillible : la déduplication peut, par inadvertance, supprimer ou altérer des données uniques et importantes. Parmi les causes : collisions de hachage, blocs source corrompus, interruptions (panne disque, erreur humaine, coupure de courant), cyberattaque réussie, ou simple erreur d'exploitation. Même si elles sont rares au vu des outils et protocoles actuels, ces atteintes à l'intégrité restent possibles et peuvent s'avérer lourdes de conséquences.
La déduplication génère une nouvelle couche de métadonnées pour les journaux de changements et les signatures numériques attachées à chaque bloc traité. On parle de « fichier d'empreintes ». Ces métadonnées consomment de l'espace et peuvent, elles aussi, poser des problèmes d'intégrité. Si elles sont corrompues, les opérations de restauration s'en trouvent fortement compliquées.
Si la déduplication fait gagner de l'argent sur la durée grâce à moins de stockage, elle exige un investissement initial. Ces coûts couvrent l'outil de déduplication (souvent tarifé au volume d'enregistrements) et le temps des équipes IT pour concevoir, exécuter et gérer le processus.
Comment la déduplication fonctionne‑t‑elle concrètement ? En théorie, c'est un concept simple de data science : éliminer les doublons pour réduire la consommation de ressources et minimiser les erreurs dues aux multiples versions d'un même fichier. Mais chaque secteur, industrie, voire département, a ses objectifs et besoins spécifiques. Voici quelques cas d'usage types.
Gestion de la relation client (CRM) : dans un CRM, les fiches clients, contacts et opportunités proviennent de sources, niveaux de détail et formats multiples. Il en résulte des données incohérentes : un responsable peut disposer d'une fiche différente d'un autre. Par exemple, si une fiche contact existe dans plusieurs référentiels et qu'une seule est mise à jour après un départ, certains continueront d'utiliser une information obsolète. La déduplication aide à garantir une source unique d'information client fiable, afin que tous utilisent des données à jour pour produire des visualisations ou lancer des analyses.
Intégration des données : lors d'une fusion/acquisition ou d'une réorganisation, des instances différentes d'une même application engendrent des doublons. Par exemple, une grande entreprise rachète un concurrent plus petit avec 40 % de clients communs, ce qui se reflète dans leurs ERP. La déduplication élimine ces redondances, libère du stockage et garantit que tous n'utilisent que la version la plus récente de chaque enregistrement.
Informatique virtuelle : avec des postes virtuels (tests, accès à des applications spécialisées ou systèmes internes), la déduplication accroît l'efficacité, surtout en forte charge. Les machines virtuelles contiennent souvent des données très similaires, générant de nombreuses versions dupliquées. La déduplication purge ces doublons pour éviter que les données issues des VM ne saturent le stockage.
Banque : au sein d'une institution financière, des services ou agences distincts conservent parfois des fiches clients dupliquées. Chaque doublon est une porte d'entrée potentielle pour des vols d'identité, des transactions frauduleuses et d'autres activités illégales. En outre, contrôler et traiter des données en double pour détecter la fraude consomme davantage de ressources. La déduplication améliore l'efficacité et la sécurité des banques et coopératives de crédit.
Ce ne sont que quelques exemples. Toute organisation produisant beaucoup de données peut bénéficier de la déduplication.
De nombreux fournisseurs proposent des outils de déduplication : lequel est adapté à votre organisation ? Voici les facteurs clés à considérer pour établir votre short‑list.
Le meilleur moyen de résoudre les problèmes de déduplication est de les prévenir à la source. Oracle HeatWave y contribue en combinant transactions, analytique temps réel sur data warehouses et data lakes, machine learning et IA générative au sein d'un même service cloud. Les clients HeatWave n'ont plus à dupliquer les données d'une base de données transactionnelle vers une base analytique séparée, avec de multiples avantages à la clé.
Avec HeatWave AutoML intégré, ils créent, entraînent et expliquent des modèles de machine learning au sein de HeatWave, sans dupliquer les données vers un service ML séparé.
HeatWave GenAI offre une IA générative intégrée, automatisée et sécurisée avec des LLM dans la base de données, un stockage vectoriel automatisé dans la base de données, un traitement vectoriel à l'échelle, et des conversations contextuelles en langage naturel, pour bénéficier de la GenAI sans expertise dédiée et sans déplacer les données vers une base de données vectorielle séparée.
En supprimant les duplications entre services cloud (transactions, analytique, machine learning, GenAI), HeatWave simplifie l'infrastructure data, accélère et fiabilise la décision, accroît la productivité, renforce la sécurité et réduit les coûts.
L'IA peut aider les DSI à analyser les données pour optimiser les dépenses liées au cloud et à suggérer des ajustements de code à l'architecte pour limiter les sorties. Découvrez comment exploiter la puissance de l'intelligence artificielle pour relever les défis liés aux talents, à la sécurité et bien plus encore.
Un exemple fréquent provient des sauvegardes et archives versionnées des données d'une organisation. Chaque archive contient de multiples occurrences des mêmes fichiers inchangés. Avec la déduplication, on crée une nouvelle version d'archive dépourvue de ces fichiers redondants. La nouvelle version contient des pointeurs vers l'unique source, ce qui l'intègre à l'archive sans consommer d'espace supplémentaire.
Les doublons consomment inutilement de l'espace de stockage. Cet espace supplémentaire mobilise davantage de ressources (stockage, bande passante, calcul) lors de processus comme les analyses anti‑malware. La déduplication réduit l'espace utilisé et, au global, la consommation de ressources, bande passante comme capacité de stockage.
Les doublons peuvent provenir à la fois d'une duplication volontaire et d'une redondance involontaire. La « duplicité » (au sens anglais) désigne les cas où un utilisateur ajoute lui‑même un fichier en double. La redondance de données survient lorsque des bases de données avec des enregistrements qui se recoupent fusionnent et créent des doublons.
La déduplication libère du stockage pour plus d'efficacité et d'économies à long terme. Cependant, son exécution est gourmande en ressources et peut ralentir certaines parties du réseau, dont le calcul et la bande passante. Les équipes IT doivent donc planifier la déduplication de manière stratégique.