Scalable AI is the ability to use machine learning (ML) algorithms or generative AI services to accomplish day-to-day tasks at a pace that keeps up with business demand. It requires that algorithms and generative models have the infrastructure and data volumes they need to operate at the speed and scale required. Beyond that, scalable AI requires data from many parts of the business that’s integrated and complete enough to provide algorithms with the information needed to derive desired results.

What is data deduplication?

Data deduplication is the process of removing identical files or blocks from databases and data storage. This can occur on a file-by-file, block-by-block, or individual byte level or somewhere in between as dictated by an algorithm. Results are often measured by what’s called a “data deduplication ratio.” After deduplication, organizations should have more free space, though just how much varies because some activities and file types are more prone to duplication than others. While IT departments should regularly check for duplicates, the benefits of frequent deduplication also vary widely and depend on several variables.

Why is data deduplication useful?

Data deduplication can help save resources—storage space, compute power, and money. At its most basic, deduplication is about shrinking storage volumes. But when every device produces massive amounts of data and files are constantly shared among departments, the impact of duplicate data has far-reaching consequences; for example, it can slow processes, consume hardware resources, create redundancies, and add confusion when different teams use different redundant files. Deduplication can help take care of all this, which is why many organizations keep it on a regularly scheduled cadence as part of their IT maintenance strategies.

What is an example of deduplication?

An example of deduplication can come from running version-based backups and archives of an organization’s data. Each of these archives will contain many instances of the same untouched files. With deduplication, the backup process is streamlined by creating a new version of an archive without those duplicative files. Instead, the new version contains pointers to the single source, allowing it to exist within the archive without using up additional storage space.

What is the reason for deduplication?

Duplicate records needlessly eat up storage space. That additional storage space winds up taking more resources, including storage volume, transfer bandwidth, and compute resources, during processes such as malware scans. Deduplication reduces the volume of storage space used, shrinking overall resource use, be it bandwidth or storage capacity.

What is data duplicity?

Duplicates can emerge through both data duplicity and data redundancy. Data duplicity refers to situations when a user adds a duplicate file to the system themselves. Data redundancy refers to situations when databases with some overlapping files or records merge to create duplicates.

What are the disadvantages of deduplication?

Deduplication can free up storage space for greater long-term efficiency and cost savings. However, the actual process of deduplication is resource intensive and can slow down various parts of the network, including compute performance and transfer bandwidth. This means IT departments must think strategically about scheduling deduplication.

Menu Entre em Contato Faça login na Oracle Cloud

O que é desduplicação de dados? Métodos e benefícios

Michael Chen | Estrategista de Conteúdo | 14 de fevereiro de 2024

Neste artigo

O que é desduplicação de dados?
Desduplicação de dados explicada
Por que a desduplicação de dados é útil?
Quando usar a desduplicação de dados
Como a desduplicação de dados funciona
Abordagens de desduplicação de dados
Benefícios da desduplicação de dados
Desvantagens e problemas da desduplicação de dados
Casos de uso da desduplicação de dados
O que considerar ao escolher uma tecnologia de desduplicação
Perguntas frequentes sobre a desduplicação de dados

O processo de desduplicação de dados elimina sistematicamente cópias redundantes de dados e arquivos, o que pode ajudar a reduzir os custos de armazenamento e melhorar o controle de versões. Em uma era em que todos os dispositivos geram dados e organizações inteiras compartilham arquivos, a desduplicação de dados é uma parte fundamental das operações de TI. É também uma parte essencial do processo de proteção e continuidade de dados. Quando a desduplicação de dados é aplicada a backups, ela identifica e elimina arquivos e blocos duplicados, armazenando apenas uma instância de cada informação exclusiva. Isso não só ajuda a economizar dinheiro, como também pode reduzir os tempos de backup e recuperação, pois menos dados precisam ser enviados pela rede.

O que é desduplicação de dados?

A desduplicação de dados é o processo de remover arquivos ou blocos idênticos de bancos de dados e sistemas de armazenamento de dados. Isso pode acontecer em nível de arquivo, bloco, byte ou em algum ponto intermediário, conforme determinado pelo algoritmo. Os resultados são frequentemente medidos por uma "taxa de desduplicação de dados". Após a desduplicação, as organizações devem ter mais espaço livre, embora a quantidade possa variar, pois algumas atividades e tipos de arquivo são mais propensos à duplicação do que outros. Embora os departamentos de TI devam verificar regularmente a existência de duplicatas, os benefícios da desduplicação frequente variam bastante e dependem de diversas variáveis.

Principais conclusões

A desduplicação de dados é o processo de busca e eliminação de dados duplicados.
As ferramentas de desduplicação oferecem uma variedade de níveis de precisão, de arquivo por arquivo até por segmento de arquivo ou por bloco.
Quanto mais preciso for um processo de desduplicação, mais poder computacional ele exigirá.
Para backups e arquivamento, a desduplicação pode ocorrer antes ou depois da transferência de dados. A primeira utiliza menos largura de banda, enquanto a segunda consome mais largura de banda, mas menos recursos locais.

Desduplicação de dados explicada

No processo de desduplicação de dados, uma ferramenta examina os volumes de armazenamento em busca de dados duplicados e remove as instâncias sinalizadas. Para encontrar duplicatas, o sistema compara identificadores únicos, ou hashes, associados a cada informação. Se uma correspondência for encontrada, apenas uma cópia dos dados é armazenada e as duplicatas são substituídas por referências à cópia original.

O sistema de desduplicação pesquisa em armazenamento local, em ferramentas de gerenciamento, como catálogos de dados e em repositórios de dados, examinando tanto dados estruturados quanto não estruturados. Para entender completamente o processo, os seguintes termos e definições são essenciais:

Taxa de desduplicação de dados: uma métrica usada para medir o sucesso do processo de desduplicação. Essa taxa compara o tamanho do repositório de dados original com seu tamanho após a desduplicação. Embora um valor alto indique um processo eficaz, variáveis como a frequência da desduplicação, o tipo de dados, entre outros fatores, podem distorcer a taxa final. A tecnologia de virtualização, por exemplo, cria máquinas virtuais que podem ser facilmente copiadas e replicadas, fornecendo múltiplas cópias dos dados. Manter algumas cópias é importante para redundância e para recuperação em caso de perda de dados.
Retenção de dados: o período durante o qual os dados são mantidos em armazenamento, geralmente definido por política. Relatórios financeiros devem ser mantidos por mais tempo do que emails, por exemplo. Normalmente, quanto maior o período de retenção, maior a chance de os dados serem duplicados durante backups, transferências ou pelo uso de máquinas virtuais.
Tipo de dados: o formato dos dados mantidos no armazenamento. Os tipos de dados comuns são executáveis, documentos e arquivos de mídia. A finalidade, a criticidade, a frequência de acesso e outros fatores do arquivo definem se ele será duplicado e por quanto tempo será retido.
Taxa de alteração: uma métrica que mede a frequência com que um arquivo é atualizado ou alterado. Os arquivos com taxas de alteração mais altas geralmente são duplicados com menos frequência.
Local: o local onde os dados são armazenados. Os arquivos duplicados geralmente resultam da existência dos mesmos arquivos em vários locais, seja intencionalmente, como em um backup, ou não intencionalmente por meio de um processo de recortar e colar que acidentalmente usou uma operação de copiar e colar. Em alguns casos, máquinas virtuais armazenadas em vários locais contêm arquivos duplicados.

Por que a desduplicação de dados é útil?

A desduplicação de dados pode ajudar a economizar recursos, como espaço de armazenamento, poder computacional e dinheiro. Em sua forma mais básica, a desduplicação visa reduzir os volumes de armazenamento. Mas quando cada dispositivo produz grandes quantidades de dados e os arquivos são constantemente compartilhados entre departamentos, o impacto dos dados duplicados tem consequências de longo alcance. Por exemplo, pode tornar os processos mais lentos, consumir recursos de hardware, criar redundâncias e gerar confusão quando diferentes equipes usam arquivos redundantes diferentes. A desduplicação pode ajudar a resolver todos esses problemas, e é por isso que muitas organizações a mantêm em uma programação regular como parte das estratégias de manutenção de TI.

Quando usar a desduplicação de dados

Como a desduplicação de dados é um processo de gerenciamento de dados que consome muitos recursos, o momento ideal para implementá-la depende de várias variáveis, incluindo o projeto da rede e quando os funcionários acessam os arquivos. Veja as situações mais comuns em que a desduplicação de dados é usada:

Servidores de arquivos de uso geral

Servidores de arquivos de uso geral fornecem armazenamento e serviços para uma ampla variedade de dados, incluindo caches de arquivos de funcionários individuais e pastas departamentais compartilhadas. Esses tipos de servidores tendem a ter um grande número de usuários com funções diversas, o que significa que provavelmente haverá muitos arquivos duplicados. As causas incluem backups de discos rígidos locais, instalações de aplicações, compartilhamento de arquivos e muito mais.

Implementações de infraestrutura de desktop virtual (VDI)

A tecnologia de infraestrutura de desktop virtual fornece hospedagem e gerenciamento centralizados de desktops virtualizados para acesso remoto. O problema é que os discos rígidos virtuais geralmente são idênticos, contendo arquivos duplicados que consomem espaço de armazenamento. Além disso, quando um grande número de usuários inicializa máquinas virtuais simultaneamente, como no início do expediente, pode ocorrer um fenômeno conhecido como "boot storm da VDI", causando uma degradação significativa no desempenho ou até mesmo fazendo com que o sistema pare de funcionar. A desduplicação pode ajudar a amenizar esse problema usando um cache na memória para recursos de aplicações individuais à medida que são solicitados sob demanda.

Sistemas de armazenamento e backups

Os backups criam versões duplicadas de arquivos, e por um bom motivo. No entanto, o mesmo arquivo não precisa ser copiado repetidamente, e indefinidamente. Em vez disso, a desduplicação de dados garante um arquivo de backup limpo, com outras instâncias em versões de backup mais recentes simplesmente apontando para o arquivo primário. Isso permite redundância, otimizando recursos e espaço de armazenamento.

Transferência de dados

As ferramentas de eliminação de duplicidades proporcionam um processo de transferência de dados mais eficiente. Em vez de sobrescrever o arquivo do início ao fim, elas identificam os arquivos em segmentos. Durante a transferência, as ferramentas verificam os segmentos atualizados e os movem somente quando necessário. Por exemplo, se alguém receber uma nova versão de um arquivo muito grande e essa nova versão tiver apenas alguns segmentos de código atualizado, o processo de transferência/sobrescrita pode ser concluído rapidamente, gravando apenas nesses segmentos.

Sistemas de arquivamento

Os sistemas de arquivamento são frequentemente confundidos com backups, pois ambos são usados para armazenamento de dados a longo prazo. Mas, enquanto os sistemas geram backups para fins de recuperação e preparação para desastres, as organizações usam sistemas de arquivamento para preservar dados que não estão mais em uso ativo. Duplicatas podem ser geradas ao combinar volumes de armazenamento ou adicionar novos segmentos a um sistema de arquivamento. O processo de desduplicação maximiza a eficiência dos arquivos.

Como a desduplicação de dados funciona

De modo geral, as ferramentas de desduplicação de dados comparam arquivos ou blocos de arquivos em busca de impressões digitais identificadoras de duplicatas, também conhecidas como hashes. Se as duplicatas forem confirmadas, elas são registradas e eliminadas. Confira a seguir uma análise mais detalhada das etapas específicas do processo.

Criação de chunk

Refere-se a um processo de desduplicação que divide os arquivos em segmentos, também chamados de chunks. O tamanho desses segmentos pode ser calculado por meio de algoritmos ou definido com base em diretrizes estabelecidas. O benefício da fragmentação é que ela permite uma desduplicação mais precisa, embora exija mais recursos computacionais.

Hashing

Quando os dados são processados por uma ferramenta de desduplicação, um algoritmo de hashing atribui um hash a eles. O hash é então verificado para ver se já existe no registro de dados processados. Se já existir, os dados são categorizados como duplicados e excluídos para liberar espaço de armazenamento.

Tabelas de referência

Os resultados do processo de desduplicação são armazenados em uma tabela de referência que monitora quais segmentos ou arquivos foram removidos e o que foi duplicado. A tabela de referência permite transparência e rastreabilidade, além de fornecer um arquivo abrangente das origens de um arquivo referenciado em um volume de armazenamento.

Abordagens de desduplicação de dados

As organizações podem escolher entre diversas abordagens de desduplicação de dados, com base no que melhor se adapta aos orçamentos, à largura de banda e às necessidades de redundância. Onde processar, quando processar, qual o nível de detalhamento, todas essas são variáveis que podem ser combinadas para criar uma solução personalizada para cada organização.

Qual das duas opções atende melhor às suas necessidades, desduplicação em linha ou o pós-processamento? Confira algumas vantagens e desvantagens de cada uma delas.

Métodos de desduplicação

Desduplicação em nível de bloco: as ferramentas de desduplicação funcionam em nível de bloco, comparando esses segmentos em busca de diferenças nas impressões digitais dos blocos e removendo duplicidades. Isso permite uma desduplicação mais precisa, embora o processo seja bastante intensivo em recursos e possa ser difícil de aplicar a grandes volumes de armazenamento físico.
Desduplicação de comprimento variável: a desduplicação de comprimento variável usa um algoritmo para determinar o tamanho dos segmentos de dados em um arquivo e, depois, verificar se há duplicidades. Esse processo é semelhante à desduplicação em nível de bloco, pois oferece boa precisão, mas sem o tamanho fixo dos blocos individuais.
Desduplicação no nível do arquivo: em vez de realizar a desduplicação em nível de bloco, as ferramentas procuram detectar duplicidades arquivo por arquivo. Esse método não funciona com a mesma granularidade que a desduplicação em nível de bloco, embora a vantagem seja um processo mais rápido e menos intensivo em recursos, que pode ser aplicado a armazenamento de qualquer tamanho.

Pontos de desduplicação

Desduplicação de origem: esse método usa o cliente local como a localização da desduplicação. A desduplicação realizada no cliente antes do backup economiza largura de banda e custos de transmissão, embora utilize os recursos do cliente.
Desduplicação de destino: este método aguarda até que um backup seja transmitido para realizar a desduplicação. Nesse caso, a compensação no uso de recursos é oposta à compensação da desduplicação de origem: exerce menos pressão sobre os clientes, mas exige maior largura de banda da rede e recursos de destino.

Tempo de desduplicação

Desduplicação em linha: quando a desduplicação é realizada em linha, os dados são verificados em busca de duplicidades em tempo real, à medida que o processo é executado. Esse método utiliza mais recursos de computação locais, embora libere um espaço de armazenamento significativo.
Desduplicação pós-processamento: a desduplicação pós-processamento executa processos de comparação e eliminação após os dados serem enviados para o destino. Esse método requer mais espaço de armazenamento no local de destino, mas utiliza menos recursos locais antes da transmissão.

Benefícios da desduplicação de dados

Assim como a edição de um documento remove palavras ou frases repetitivas para tornar o conteúdo mais conciso, a desduplicação otimiza os dados de uma organização, oferecendo benefícios potenciais como custos de armazenamento mais baixos, menor consumo de largura de banda e maior eficiência de backup.

Economia de armazenamento

Com menos arquivos, as organizações usam menos espaço de armazenamento. Esse é um dos benefícios mais evidentes da desduplicação de dados, e se estende a outros sistemas. As empresas precisarão de menos espaço para backups e consumirão menos recursos de computação/largura de banda para digitalização e backup de dados.

Recuperação de desastres

Como a desduplicação de dados reduz a carga de execução de backups, um importante subproduto é uma recuperação de desastres mais rápida e fácil. Backups menores são criados com mais eficiência, o que significa que menos recursos são necessários para recuperá-los.

Janelas de backup menores

Com a desduplicação de dados, o tamanho dos arquivos de backup diminui, levando a um menor uso de recursos durante os processos de backup em termos de espaço de armazenamento, computação e tempo de processamento. Tudo isso oferece às organizações maior flexibilidade na forma como agendam seus backups.

Eficiência da rede

Quanto menos arquivos precisarem ser transferidos, menor será a largura de banda necessária, o que significa que a transferência utiliza menos recursos de rede. Assim, a desduplicação de dados pode melhorar a eficiência da rede, reduzindo a demanda em qualquer processo de transferência, incluindo o transporte de backups para arquivamento e a recuperação de backups para recuperação de desastres.

Benefícios econômicos

O volume crescente de dados levou a um rápido aumento nos gastos com armazenamento em organizações de todos os tamanhos. A desduplicação pode ajudar a gerar economia de custos, reduzindo a quantidade de armazenamento necessária tanto para as atividades diárias quanto para backups ou arquivos. As economias de custos secundárias resultam da redução da demanda por energia, computação e largura de banda, além da menor necessidade de recursos humanos para gerenciar e solucionar problemas com arquivos duplicados.

Desvantagens e preocupações da desduplicação de dados

A desduplicação de dados é uma ferramenta eficaz para maximizar o uso de recursos e reduzir custos. No entanto, esses benefícios vêm com alguns desafios, muitos relacionados à capacidade de computação necessária para a desduplicação granular. As desvantagens e preocupações mais comuns relacionadas à desduplicação de dados incluem:

Custos indiretos de desempenho

A desduplicação de dados consome muitos recursos, especialmente quando executada no nível do bloco. As equipes de TI precisam ser criteriosas ao planejar e executar processos de desduplicação, levando em consideração a largura de banda disponível, as atividades e necessidades da organização, o local do backup, os prazos e outros fatores específicos de seus ambientes.

Colisões de hash

Uma colisão de hash representa uma instância em que valores de hash gerados aleatoriamente se sobrepõem. Quando o processo de desduplicação usa uma abordagem no nível de bloco, os hashes são atribuídos a blocos de dados, aumentando a probabilidade de colisões de hash que podem corromper os dados. A prevenção de colisões de hash envolve aumentar o tamanho da tabela hash ou implementar métodos de resolução de colisões, como encadeamento ou endereçamento aberto. A desduplicação por encadeamento envolve o armazenamento de múltiplos elementos com a mesma chave hash em uma lista encadeada ou outra estrutura de dados, enquanto o endereçamento aberto envolve a busca de um local alternativo dentro da tabela hash para armazenar o elemento duplicado. Cada método tem vantagens e desvantagens, portanto, as equipes de TI precisam considerar o tamanho e a complexidade do algoritmo de hash em comparação com o uso de soluções alternativas.

Integridade de dados

Nenhum processo é infalível e, durante o processo de desduplicação, sempre existe a possibilidade de excluir ou alterar involuntariamente dados que são, de fato, únicos e importantes. As causas dos problemas de integridade incluem colisões de hash, blocos de origem corrompidos, processos interrompidos por eventos inesperados, como falhas de disco, erros manuais ou quedas de energia, um ataque cibernético bem-sucedido ou um simples erro do operador. Embora os problemas de integridade sejam raros, dada a qualidade das ferramentas e protocolos de desduplicação de dados atuais, eles continuam sendo uma possibilidade e podem causar sérios problemas.

Metadados adicionados

O processo de desduplicação cria uma nova camada de metadados para registros de alterações e as assinaturas digitais anexadas a cada bloco processado. Isso é chamado de "arquivo de impressão digital". Esses metadados não apenas exigem espaço de armazenamento, como também podem gerar problemas de integridade de dados. Se forem corrompidos, por exemplo, o processo de recuperação se torna significativamente mais complexo.

Custo de implementação

Embora a desduplicação de dados economize dinheiro a longo prazo, reduzindo a necessidade de espaço, ela exige um investimento inicial. Esses custos incluem a própria ferramenta de desduplicação, geralmente com preço baseado no número de registros, bem como o tempo da equipe de TI necessário para projetar, executar e gerenciar o processo de desduplicação.

Casos de uso da desduplicação de dados

Como a desduplicação de dados funciona na prática? Em teoria, é um conceito simples de ciência de dados: eliminar dados duplicados para reduzir o consumo de recursos e minimizar erros que ocorrem quando existem várias versões de um mesmo arquivo. Mas diferentes setores, indústrias e até mesmo departamentos têm objetivos e necessidades específicos. Confia alguns casos de uso comuns.

Gerenciamento de relacionamento com o cliente: em um sistema de CRM, os registros de clientes, informações de contato e negócios podem ser registrados usando múltiplas fontes, níveis de detalhamento e formatos. Isso leva a dados inconsistentes, onde um gerente pode ter um registro ligeiramente diferente de outro; por exemplo, se o registro de um ponto de contato estiver armazenado em vários repositórios de dados e apenas um for atualizado após a saída do funcionário da empresa, alguns colaboradores provavelmente continuarão usando as informações desatualizadas. A desduplicação de dados pode ajudar a garantir uma única fonte de informações precisas do cliente, permitindo que cada indivíduo e grupo usem os dados mais recentes para gerar visualizações ou executar análises.

Integração de dados: quando duas organizações se fundem, seja por meio de uma aquisição ou reestruturação interna, os dados contidos em diferentes instâncias da mesma aplicação podem criar registros duplicados. Digamos que uma empresa maior adquira uma concorrente menor com uma sobreposição de 40% na base de clientes, e isso se reflita em seus sistemas ERP. A desduplicação pode eliminar essa redundância, liberando espaço de armazenamento e garantindo que todos na organização recém-formada usem apenas a versão mais recente de cada registro.

Computação virtual: ao usar desktops virtuais, como para ambientes de teste ou acesso virtual para aplicações especializadas ou sistemas internos, a desduplicação de dados pode aumentar a eficiência, principalmente com alto volume de usuários. Máquinas virtuais frequentemente contêm dados muito semelhantes, o que resulta em muitas versões duplicadas de arquivos. A desduplicação de dados elimina essas duplicatas para ajudar a garantir que o armazenamento não fique sobrecarregado com os dados gerados por máquinas virtuais.

Bancos: dentro de uma instituição financeira, diferentes departamentos ou agências podem manter registros duplicados de informações de clientes. Cada registro duplicado é um ponto de entrada potencial para criminosos roubarem identidades, realizarem transações fraudulentas e cometerem outras atividades ilegais. Além disso, examinar e processar dados duplicados para verificar fraudes exige mais recursos. A desduplicação de dados pode ajudar a melhorar a eficiência e a segurança de bancos e cooperativas de crédito.

Esse é apenas um exemplo de casos de uso. Qualquer organização que gere muitos dados pode se beneficiar da eliminação de duplicidades.

O que considerar ao escolher uma tecnologia de desduplicação

Diversos fornecedores oferecem ferramentas de desduplicação de dados, mas qual é a ideal para sua empresa? Confira os principais fatores que as equipes devem considerar ao elaborar uma lista restrita.

Desempenho: tipos diferentes de eliminação de duplicidades exigem recursos diferentes. Por exemplo, a desduplicação em nível de bloco executada na origem em uma rede grande consumirá recursos significativos em comparação com a desduplicação em nível de arquivo executada no destino com um escopo mais limitado.
Escalabilidade: a escalabilidade e o desempenho geralmente andam de mãos dadas porque os processos que diminuem o desempenho são difíceis de dimensionar. Isso se aplica à desduplicação, pois quanto mais recursos o processo exigir, mais difícil será escalá-lo conforme necessário. Organizações com demandas de escalabilidade abrangentes devem considerar essas compensações ao escolher uma tecnologia de desduplicação.
Integration: fontes de dados desconectadas podem complicar o processo de desduplicação. Por exemplo, quando os bancos de dados existem em silos, a probabilidade de dados duplicados é muito maior. Em outros casos, uma grande rede com vários locais remotos pode exigir um protocolo de limpeza e transformação mais rigoroso antes da desduplicação. As organizações devem avaliar o estado de sua integração de dados ao considerar como implementar a desduplicação.
Custo: as ferramentas de desduplicação variam em custo com base em fatores como complexidade e capacidade. Os preços aumentam com base no volume de registros processados. As organizações devem criar uma estimativa de orçamento com base em padrões do setor e taxas cotadas e, em seguida, avaliar como isso é compensado por economias a longo prazo.

Elimine a necessidade de desduplicação de dados com o Oracle HeatWave

A melhor maneira de resolver problemas de desduplicação de dados é minimizá-los em primeiro lugar. O Oracle HeatWave possibilita isso ao combinar transações, análises em tempo real em data warehouses e data lakes, machine learning e IA generativa em um único serviço em nuvem. Os clientes do HeatWave não precisam duplicar dados de um banco de dados transacional para um banco de dados analítico separado para análise, o que apresenta diversas vantagens.

Não há necessidade de armazenar os mesmos dados em vários armazenamentos de dados para diferentes finalidades.
Eles não precisam de processos complexos, demorados, caros e propensos a erros de extração, transformação e carregamento para mover dados entre armazenamentos de dados.
As consultas analíticas sempre acessam os dados mais atualizados, o que gera melhores resultados em comparação com a análise de dados que podem estar desatualizados no momento em que ficam disponíveis em um banco de dados analítico separado.
Há pouco risco de os dados serem comprometidos em trânsito, pois eles não são transferidos entre os bancos de dados.
O HeatWave Lakehouse permite que os usuários consultem até meio petabyte de dados no armazenamento de objetos e, opcionalmente, os combinem com dados em um banco de dados MySQL. Os clientes podem consultar dados transacionais em bancos de dados MySQL, dados em vários formatos no armazenamento de objetos ou uma combinação de ambos usando comandos MySQL padrão, sem precisar copiar dados do armazenamento de objetos para o MySQL Database.

Com o HeatWave AutoML integrado, os clientes podem criar, treinar e explicar modelos de machine learning dentro do HeatWave, novamente sem a necessidade de duplicar dados em um serviço de machine learning separado.

O HeatWave GenAI fornece IA generativa integrada, automatizada e segura com grandes modelos de linguagem (LLMs) no banco de dados, um armazenamento vetorial automatizado no banco de dados, processamento vetorial escalável e a capacidade de ter conversas contextuais em linguagem natural, permitindo que os clientes aproveitem a IA generativa sem conhecimento especializado em IA e sem mover dados para um banco de dados vetorial separado.

Ao eliminar a duplicação de dados em vários serviços em nuvem para transações, análises, machine learning e IA generativa, o HeatWave permite que os clientes simplifiquem suas infraestruturas de dados, tomem decisões mais rápidas e informadas, aumentem a produtividade, melhorem a segurança e reduzam custos.

A IA pode ajudar os CIOs a analisar os dados para otimizar os gastos com a nuvem e sugerir melhorias no código para minimizar a necessidade de saída de dados. Aprenda como aproveitar o poder da inteligência artificial agora para lidar com talentos, segurança e outros desafios.

Acesse o ebook

Perguntas frequentes sobre a desduplicação de dados

O que é um exemplo de desduplicação?

Um exemplo de desduplicação pode ser encontrado na execução de backups e arquivos baseados em versões dos dados de uma organização. Cada um desses arquivos conterá muitas instâncias dos mesmos arquivos intactos. Com a desduplicação, o processo de backup é simplificado pela criação de uma nova versão do arquivo sem esses arquivos duplicados. Em vez disso, a nova versão contém ponteiros para a fonte única, permitindo que ela exista dentro do arquivo sem ocupar espaço de armazenamento adicional.

Qual é o motivo da desduplicação?

Registros duplicados consomem espaço de armazenamento desnecessariamente. Esse espaço de armazenamento adicional acaba consumindo mais recursos, incluindo volume de armazenamento, largura de banda de transferência e recursos computacionais, durante processos como verificações de malware. A desduplicação reduz o volume de espaço de armazenamento usado, diminuindo o uso geral de recursos, sejam eles largura de banda ou capacidade de armazenamento.

O que é duplicidade de dados?

As duplicatas podem surgir tanto por duplicidade de dados quanto por redundância de dados. A duplicidade de dados se refere a situações em que um usuário adiciona um arquivo duplicado ao próprio sistema. Redundância de dados se refere a situações em que bancos de dados com alguns arquivos ou registros sobrepostos são mesclados para criar duplicatas.

Quais são as desvantagens da desduplicação?

A desduplicação pode liberar espaço de armazenamento, resultando em maior eficiência a longo prazo e economia de custos. No entanto, o processo em si consome muitos recursos e pode afetar o desempenho de várias partes da rede, incluindo o processamento e a largura de banda de transferência. Isso significa que os departamentos de TI precisam planejar estrategicamente o agendamento da desduplicação.