Michael Chen | Estrategista de Conteúdo | 14 de fevereiro de 2024
O processo de desduplicação de dados elimina sistematicamente cópias redundantes de dados e arquivos, o que pode ajudar a reduzir os custos de armazenamento e melhorar o controle de versões. Em uma era em que todos os dispositivos geram dados e organizações inteiras compartilham arquivos, a desduplicação de dados é uma parte fundamental das operações de TI. É também uma parte essencial do processo de proteção e continuidade de dados. Quando a desduplicação de dados é aplicada a backups, ela identifica e elimina arquivos e blocos duplicados, armazenando apenas uma instância de cada informação exclusiva. Isso não só ajuda a economizar dinheiro, como também pode reduzir os tempos de backup e recuperação, pois menos dados precisam ser enviados pela rede.
A desduplicação de dados é o processo de remover arquivos ou blocos idênticos de bancos de dados e sistemas de armazenamento de dados. Isso pode acontecer em nível de arquivo, bloco, byte ou em algum ponto intermediário, conforme determinado pelo algoritmo. Os resultados são frequentemente medidos por uma "taxa de desduplicação de dados". Após a desduplicação, as organizações devem ter mais espaço livre, embora a quantidade possa variar, pois algumas atividades e tipos de arquivo são mais propensos à duplicação do que outros. Embora os departamentos de TI devam verificar regularmente a existência de duplicatas, os benefícios da desduplicação frequente variam bastante e dependem de diversas variáveis.
Principais conclusões
No processo de desduplicação de dados, uma ferramenta examina os volumes de armazenamento em busca de dados duplicados e remove as instâncias sinalizadas. Para encontrar duplicatas, o sistema compara identificadores únicos, ou hashes, associados a cada informação. Se uma correspondência for encontrada, apenas uma cópia dos dados é armazenada e as duplicatas são substituídas por referências à cópia original.
O sistema de desduplicação pesquisa em armazenamento local, em ferramentas de gerenciamento, como catálogos de dados e em repositórios de dados, examinando tanto dados estruturados quanto não estruturados. Para entender completamente o processo, os seguintes termos e definições são essenciais:
A desduplicação de dados pode ajudar a economizar recursos, como espaço de armazenamento, poder computacional e dinheiro. Em sua forma mais básica, a desduplicação visa reduzir os volumes de armazenamento. Mas quando cada dispositivo produz grandes quantidades de dados e os arquivos são constantemente compartilhados entre departamentos, o impacto dos dados duplicados tem consequências de longo alcance. Por exemplo, pode tornar os processos mais lentos, consumir recursos de hardware, criar redundâncias e gerar confusão quando diferentes equipes usam arquivos redundantes diferentes. A desduplicação pode ajudar a resolver todos esses problemas, e é por isso que muitas organizações a mantêm em uma programação regular como parte das estratégias de manutenção de TI.
Como a desduplicação de dados é um processo de gerenciamento de dados que consome muitos recursos, o momento ideal para implementá-la depende de várias variáveis, incluindo o projeto da rede e quando os funcionários acessam os arquivos. Veja as situações mais comuns em que a desduplicação de dados é usada:
Servidores de arquivos de uso geral fornecem armazenamento e serviços para uma ampla variedade de dados, incluindo caches de arquivos de funcionários individuais e pastas departamentais compartilhadas. Esses tipos de servidores tendem a ter um grande número de usuários com funções diversas, o que significa que provavelmente haverá muitos arquivos duplicados. As causas incluem backups de discos rígidos locais, instalações de aplicações, compartilhamento de arquivos e muito mais.
A tecnologia de infraestrutura de desktop virtual fornece hospedagem e gerenciamento centralizados de desktops virtualizados para acesso remoto. O problema é que os discos rígidos virtuais geralmente são idênticos, contendo arquivos duplicados que consomem espaço de armazenamento. Além disso, quando um grande número de usuários inicializa máquinas virtuais simultaneamente, como no início do expediente, pode ocorrer um fenômeno conhecido como "boot storm da VDI", causando uma degradação significativa no desempenho ou até mesmo fazendo com que o sistema pare de funcionar. A desduplicação pode ajudar a amenizar esse problema usando um cache na memória para recursos de aplicações individuais à medida que são solicitados sob demanda.
Os backups criam versões duplicadas de arquivos, e por um bom motivo. No entanto, o mesmo arquivo não precisa ser copiado repetidamente, e indefinidamente. Em vez disso, a desduplicação de dados garante um arquivo de backup limpo, com outras instâncias em versões de backup mais recentes simplesmente apontando para o arquivo primário. Isso permite redundância, otimizando recursos e espaço de armazenamento.
As ferramentas de eliminação de duplicidades proporcionam um processo de transferência de dados mais eficiente. Em vez de sobrescrever o arquivo do início ao fim, elas identificam os arquivos em segmentos. Durante a transferência, as ferramentas verificam os segmentos atualizados e os movem somente quando necessário. Por exemplo, se alguém receber uma nova versão de um arquivo muito grande e essa nova versão tiver apenas alguns segmentos de código atualizado, o processo de transferência/sobrescrita pode ser concluído rapidamente, gravando apenas nesses segmentos.
Os sistemas de arquivamento são frequentemente confundidos com backups, pois ambos são usados para armazenamento de dados a longo prazo. Mas, enquanto os sistemas geram backups para fins de recuperação e preparação para desastres, as organizações usam sistemas de arquivamento para preservar dados que não estão mais em uso ativo. Duplicatas podem ser geradas ao combinar volumes de armazenamento ou adicionar novos segmentos a um sistema de arquivamento. O processo de desduplicação maximiza a eficiência dos arquivos.
De modo geral, as ferramentas de desduplicação de dados comparam arquivos ou blocos de arquivos em busca de impressões digitais identificadoras de duplicatas, também conhecidas como hashes. Se as duplicatas forem confirmadas, elas são registradas e eliminadas. Confira a seguir uma análise mais detalhada das etapas específicas do processo.
Refere-se a um processo de desduplicação que divide os arquivos em segmentos, também chamados de chunks. O tamanho desses segmentos pode ser calculado por meio de algoritmos ou definido com base em diretrizes estabelecidas. O benefício da fragmentação é que ela permite uma desduplicação mais precisa, embora exija mais recursos computacionais.
Quando os dados são processados por uma ferramenta de desduplicação, um algoritmo de hashing atribui um hash a eles. O hash é então verificado para ver se já existe no registro de dados processados. Se já existir, os dados são categorizados como duplicados e excluídos para liberar espaço de armazenamento.
Os resultados do processo de desduplicação são armazenados em uma tabela de referência que monitora quais segmentos ou arquivos foram removidos e o que foi duplicado. A tabela de referência permite transparência e rastreabilidade, além de fornecer um arquivo abrangente das origens de um arquivo referenciado em um volume de armazenamento.
As organizações podem escolher entre diversas abordagens de desduplicação de dados, com base no que melhor se adapta aos orçamentos, à largura de banda e às necessidades de redundância. Onde processar, quando processar, qual o nível de detalhamento, todas essas são variáveis que podem ser combinadas para criar uma solução personalizada para cada organização.
Diagrama de desduplicação em linha versus pós-processamento:
Desduplicação em linha:
Desduplicação pós-processamento
Assim como a edição de um documento remove palavras ou frases repetitivas para tornar o conteúdo mais conciso, a desduplicação otimiza os dados de uma organização, oferecendo benefícios potenciais como custos de armazenamento mais baixos, menor consumo de largura de banda e maior eficiência de backup.
Com menos arquivos, as organizações usam menos espaço de armazenamento. Esse é um dos benefícios mais evidentes da desduplicação de dados, e se estende a outros sistemas. As empresas precisarão de menos espaço para backups e consumirão menos recursos de computação/largura de banda para digitalização e backup de dados.
Como a desduplicação de dados reduz a carga de execução de backups, um importante subproduto é uma recuperação de desastres mais rápida e fácil. Backups menores são criados com mais eficiência, o que significa que menos recursos são necessários para recuperá-los.
Com a desduplicação de dados, o tamanho dos arquivos de backup diminui, levando a um menor uso de recursos durante os processos de backup em termos de espaço de armazenamento, computação e tempo de processamento. Tudo isso oferece às organizações maior flexibilidade na forma como agendam seus backups.
Quanto menos arquivos precisarem ser transferidos, menor será a largura de banda necessária, o que significa que a transferência utiliza menos recursos de rede. Assim, a desduplicação de dados pode melhorar a eficiência da rede, reduzindo a demanda em qualquer processo de transferência, incluindo o transporte de backups para arquivamento e a recuperação de backups para recuperação de desastres.
O volume crescente de dados levou a um rápido aumento nos gastos com armazenamento em organizações de todos os tamanhos. A desduplicação pode ajudar a gerar economia de custos, reduzindo a quantidade de armazenamento necessária tanto para as atividades diárias quanto para backups ou arquivos. As economias de custos secundárias resultam da redução da demanda por energia, computação e largura de banda, além da menor necessidade de recursos humanos para gerenciar e solucionar problemas com arquivos duplicados.
A desduplicação de dados é uma ferramenta eficaz para maximizar o uso de recursos e reduzir custos. No entanto, esses benefícios vêm com alguns desafios, muitos relacionados à capacidade de computação necessária para a desduplicação granular. As desvantagens e preocupações mais comuns relacionadas à desduplicação de dados incluem:
A desduplicação de dados consome muitos recursos, especialmente quando executada no nível do bloco. As equipes de TI precisam ser criteriosas ao planejar e executar processos de desduplicação, levando em consideração a largura de banda disponível, as atividades e necessidades da organização, o local do backup, os prazos e outros fatores específicos de seus ambientes.
Uma colisão de hash representa uma instância em que valores de hash gerados aleatoriamente se sobrepõem. Quando o processo de desduplicação usa uma abordagem no nível de bloco, os hashes são atribuídos a blocos de dados, aumentando a probabilidade de colisões de hash que podem corromper os dados. A prevenção de colisões de hash envolve aumentar o tamanho da tabela hash ou implementar métodos de resolução de colisões, como encadeamento ou endereçamento aberto. A desduplicação por encadeamento envolve o armazenamento de múltiplos elementos com a mesma chave hash em uma lista encadeada ou outra estrutura de dados, enquanto o endereçamento aberto envolve a busca de um local alternativo dentro da tabela hash para armazenar o elemento duplicado. Cada método tem vantagens e desvantagens, portanto, as equipes de TI precisam considerar o tamanho e a complexidade do algoritmo de hash em comparação com o uso de soluções alternativas.
Nenhum processo é infalível e, durante o processo de desduplicação, sempre existe a possibilidade de excluir ou alterar involuntariamente dados que são, de fato, únicos e importantes. As causas dos problemas de integridade incluem colisões de hash, blocos de origem corrompidos, processos interrompidos por eventos inesperados, como falhas de disco, erros manuais ou quedas de energia, um ataque cibernético bem-sucedido ou um simples erro do operador. Embora os problemas de integridade sejam raros, dada a qualidade das ferramentas e protocolos de desduplicação de dados atuais, eles continuam sendo uma possibilidade e podem causar sérios problemas.
O processo de desduplicação cria uma nova camada de metadados para registros de alterações e as assinaturas digitais anexadas a cada bloco processado. Isso é chamado de "arquivo de impressão digital". Esses metadados não apenas exigem espaço de armazenamento, como também podem gerar problemas de integridade de dados. Se forem corrompidos, por exemplo, o processo de recuperação se torna significativamente mais complexo.
Embora a desduplicação de dados economize dinheiro a longo prazo, reduzindo a necessidade de espaço, ela exige um investimento inicial. Esses custos incluem a própria ferramenta de desduplicação, geralmente com preço baseado no número de registros, bem como o tempo da equipe de TI necessário para projetar, executar e gerenciar o processo de desduplicação.
Como a desduplicação de dados funciona na prática? Em teoria, é um conceito simples de ciência de dados: eliminar dados duplicados para reduzir o consumo de recursos e minimizar erros que ocorrem quando existem várias versões de um mesmo arquivo. Mas diferentes setores, indústrias e até mesmo departamentos têm objetivos e necessidades específicos. Confia alguns casos de uso comuns.
Gerenciamento de relacionamento com o cliente: em um sistema de CRM, os registros de clientes, informações de contato e negócios podem ser registrados usando múltiplas fontes, níveis de detalhamento e formatos. Isso leva a dados inconsistentes, onde um gerente pode ter um registro ligeiramente diferente de outro; por exemplo, se o registro de um ponto de contato estiver armazenado em vários repositórios de dados e apenas um for atualizado após a saída do funcionário da empresa, alguns colaboradores provavelmente continuarão usando as informações desatualizadas. A desduplicação de dados pode ajudar a garantir uma única fonte de informações precisas do cliente, permitindo que cada indivíduo e grupo usem os dados mais recentes para gerar visualizações ou executar análises.
Integração de dados: quando duas organizações se fundem, seja por meio de uma aquisição ou reestruturação interna, os dados contidos em diferentes instâncias da mesma aplicação podem criar registros duplicados. Digamos que uma empresa maior adquira uma concorrente menor com uma sobreposição de 40% na base de clientes, e isso se reflita em seus sistemas ERP. A desduplicação pode eliminar essa redundância, liberando espaço de armazenamento e garantindo que todos na organização recém-formada usem apenas a versão mais recente de cada registro.
Computação virtual: ao usar desktops virtuais, como para ambientes de teste ou acesso virtual para aplicações especializadas ou sistemas internos, a desduplicação de dados pode aumentar a eficiência, principalmente com alto volume de usuários. Máquinas virtuais frequentemente contêm dados muito semelhantes, o que resulta em muitas versões duplicadas de arquivos. A desduplicação de dados elimina essas duplicatas para ajudar a garantir que o armazenamento não fique sobrecarregado com os dados gerados por máquinas virtuais.
Bancos: dentro de uma instituição financeira, diferentes departamentos ou agências podem manter registros duplicados de informações de clientes. Cada registro duplicado é um ponto de entrada potencial para criminosos roubarem identidades, realizarem transações fraudulentas e cometerem outras atividades ilegais. Além disso, examinar e processar dados duplicados para verificar fraudes exige mais recursos. A desduplicação de dados pode ajudar a melhorar a eficiência e a segurança de bancos e cooperativas de crédito.
Esse é apenas um exemplo de casos de uso. Qualquer organização que gere muitos dados pode se beneficiar da eliminação de duplicidades.
Diversos fornecedores oferecem ferramentas de desduplicação de dados, mas qual é a ideal para sua empresa? Confira os principais fatores que as equipes devem considerar ao elaborar uma lista restrita.
A melhor maneira de resolver problemas de desduplicação de dados é minimizá-los em primeiro lugar. O Oracle HeatWave possibilita isso ao combinar transações, análises em tempo real em data warehouses e data lakes, machine learning e IA generativa em um único serviço em nuvem. Os clientes do HeatWave não precisam duplicar dados de um banco de dados transacional para um banco de dados analítico separado para análise, o que apresenta diversas vantagens.
Com o HeatWave AutoML integrado, os clientes podem criar, treinar e explicar modelos de machine learning dentro do HeatWave, novamente sem a necessidade de duplicar dados em um serviço de machine learning separado.
O HeatWave GenAI fornece IA generativa integrada, automatizada e segura com grandes modelos de linguagem (LLMs) no banco de dados, um armazenamento vetorial automatizado no banco de dados, processamento vetorial escalável e a capacidade de ter conversas contextuais em linguagem natural, permitindo que os clientes aproveitem a IA generativa sem conhecimento especializado em IA e sem mover dados para um banco de dados vetorial separado.
Ao eliminar a duplicação de dados em vários serviços em nuvem para transações, análises, machine learning e IA generativa, o HeatWave permite que os clientes simplifiquem suas infraestruturas de dados, tomem decisões mais rápidas e informadas, aumentem a produtividade, melhorem a segurança e reduzam custos.
A IA pode ajudar os CIOs a analisar os dados para otimizar os gastos com a nuvem e sugerir melhorias no código para minimizar a necessidade de saída de dados. Aprenda como aproveitar o poder da inteligência artificial agora para lidar com talentos, segurança e outros desafios.
Um exemplo de desduplicação pode ser encontrado na execução de backups e arquivos baseados em versões dos dados de uma organização. Cada um desses arquivos conterá muitas instâncias dos mesmos arquivos intactos. Com a desduplicação, o processo de backup é simplificado pela criação de uma nova versão do arquivo sem esses arquivos duplicados. Em vez disso, a nova versão contém ponteiros para a fonte única, permitindo que ela exista dentro do arquivo sem ocupar espaço de armazenamento adicional.
Registros duplicados consomem espaço de armazenamento desnecessariamente. Esse espaço de armazenamento adicional acaba consumindo mais recursos, incluindo volume de armazenamento, largura de banda de transferência e recursos computacionais, durante processos como verificações de malware. A desduplicação reduz o volume de espaço de armazenamento usado, diminuindo o uso geral de recursos, sejam eles largura de banda ou capacidade de armazenamento.
As duplicatas podem surgir tanto por duplicidade de dados quanto por redundância de dados. A duplicidade de dados se refere a situações em que um usuário adiciona um arquivo duplicado ao próprio sistema. Redundância de dados se refere a situações em que bancos de dados com alguns arquivos ou registros sobrepostos são mesclados para criar duplicatas.
A desduplicação pode liberar espaço de armazenamento, resultando em maior eficiência a longo prazo e economia de custos. No entanto, o processo em si consome muitos recursos e pode afetar o desempenho de várias partes da rede, incluindo o processamento e a largura de banda de transferência. Isso significa que os departamentos de TI precisam planejar estrategicamente o agendamento da desduplicação.