ما المقصود بإلغاء تكرار البيانات؟ الأساليب والمزايا

مايكل تشن | خبير استراتيجيات المحتوى | 14 فبراير 2024

تتخلص عملية إلغاء تكرار البيانات بشكل منهجي من النُسخ الزائدة عن الحاجة من البيانات والملفات، مما يساعد في تقليل تكاليف التخزين وتحسين التحكم في الإصدار. في عصر يُنشئ فيه كل جهاز بيانات وتشترك فيه المؤسسات بأكملها في الملفات، يُعد إلغاء تكرار البيانات جزءًا مهمًا من عمليات تكنولوجيا المعلومات. كما أنها جزء أساس من عملية حماية البيانات واستمراريتها. عند تطبيق إلغاء تكرار البيانات على النُسخ الاحتياطية، فإنه يحدد الملفات والكُتل المُتكررة ويتخلص منها، مع تخزين مثيل واحد فقط من كل جزء فريد من المعلومات. لا يمكن أن يساعد هذا في توفير المال فحسب، بل يمكنه أيضًا المساعدة في تحسين أوقات النسخ الاحتياطي والاسترداد وذلك بسبب الحاجة إلى إرسال بيانات أقل عبر الشبكة.

ما المقصود بإلغاء تكرار البيانات؟

يمثل إلغاء تكرار البيانات عملية إزالة ملفات أو كُتل مُتطابقة من قواعد البيانات ومخزن البيانات. يمكن أن يحدث هذا على مستوى ملف تلو الآخر أو كتلة تلو الأخرى أو بايت فردي أو في موضع ما بين ذلك حسب ما تمليه الخوارزمية. يتم غالبًا قياس النتائج بما يسمى "نسبة إلغاء تكرار البيانات". بعد إلغاء التكرار، يجب أن يكون لدى المؤسسات مساحة أكبر، على الرغم من اختلاف مقدارها لأن بعض الأنشطة وأنواع الملفات أكثر عرضة إلى إلغاء التكرار من غيرها. في حين يجب على أقسام تكنولوجيا المعلومات التحقق بانتظام من التكرارات، فإن مزايا إلغاء التكرار المتكرر تختلف أيضًا على نطاق واسع وتعتمد على العديد من المتغيرات.

النقاط الرئيسة

  • يمثل إلغاء تكرار البيانات عملية مسح للبحث عن البيانات المتكررة والتخلص منها.
  • توفر أدوات إلغاء التكرار مجموعة من مستويات الدقة، بدءًا من ملف تلو الآخر وحتى مقطع الملف أو إلغاء تكرار الكتل.
  • كلما كانت عملية إلغاء التكرار أدق، زادت قوة الحوسبة التي تتطلبها.
  • بالنسبة إلى عمليات النسخ الاحتياطي والأرشفة، يمكن إجراء إلغاء التكرار قبل نقل البيانات أو بعده. يستخدم السابق عرض نطاق ترددي أقل، بينما يستهلك الثاني عرض نطاق ترددي أكبر لكنه يستهلك موارد محلية أقل.

شرح إلغاء تكرار البيانات

في عملية إلغاء تكرار البيانات، تمسح الأداة وحدات تخزين البيانات بحثًا عن بيانات متكررة وإزالة المثيلات المميزة بعلامة. للعثور على التكرارات، يقارن النظام المعرفات الفريدة، أو عمليات التجزئة المرتبطة بكل جزء من البيانات. في حالة العثور على تطابق، يتم تخزين نسخة واحدة فقط من البيانات، ويتم استبدال التكرارات بمراجع للنسخة الأصلية.

يبحث نظام إلغاء التكرار في المخزن المحلي، وفي أدوات الإدارة مثل كتالوجات البيانات، وفي مخازن البيانات ويمسح البيانات المُهيكلة وغير المُهيكلة. لفهم ما ينطوي عليه الأمر بشكل كامل، تعد المصطلحات والتعريفات التالية عامل أساس:

  • نسبة إلغاء تكرار البيانات: إنه مقياس يُستخدم لقياس نجاح عملية إلغاء التكرار. تقارن هذه النسبة حجم مخزن البيانات الأصلي بحجمه بعد إلغاء التكرار. في حين تشير النسبة العالية إلى عملية فعَّالة، يمكن للمتغيرات مثل تكرار إلغاء التكرار، ونوع البيانات، وعوامل أخرى أن تحرف النسبة النهائية. فعلى سبيل المثال، تنشئ تقنية المحاكاة الافتراضية أجهزة افتراضية يمكن نسخها احتياطيًا واستنساخها بسهولة، مما يوفر نُسخًا متعددة من البيانات. يُعد الاحتفاظ ببعض النُسخ أمرًا مهمًا للتكرار والاستعادة من فقدان البيانات.
  • الاحتفاظ بالبيانات: طول وقت الاحتفاظ بالبيانات في المخزن، والذي يتم تحديده عادةً بواسطة السياسة. يجب الاحتفاظ بالتقارير المالية لفترة أطول من رسائل البريد الإلكتروني على سبيل المثال. في العادة، كلما طالت فترة الاحتفاظ، زادت فرصة تكرار البيانات أثناء عمليات النسخ الاحتياطية أو عمليات النقل أو من خلال استخدام الأجهزة الافتراضية.
  • نوع البيانات: تنسيق البيانات التي يتم الاحتفاظ بها في المخزن. تمثل أنواع البيانات النموذجية ملفات تنفيذية ومستندات وملفات وسائط. يحدد الغرض من الملف وأهميته وتكرار الوصول وعوامل أخرى إذا كان متكررًا ومدة الاحتفاظ به.
  • تغيير المعدل: مقياس يقيس معدل تكرار تحديث الملف أو تغييره. يتم غالبًا تكرار الملفات ذات معدلات التغيير الأعلى بشكل أقل تكرارًا.
  • الموقع: هو مكان تخزين البيانات. تنشأ غالبًا الملفات المتكررة من نفس الملفات الدقيقة الموجودة في مواقع مُتعددة إما عن قصد، كما هو الحال مع النسخة الاحتياطية، أو عن غير قصد من خلال عملية القطع واللصق التي استخدمت عن طريق الخطأ عملية النسخ واللصق. في بعض الحالات، تحتوي الأجهزة الافتراضية المُخزنة في مواقع متعددة على ملفات متكررة.

لماذا يُعد إلغاء تكرار البيانات مُفيدًا؟

يمكن أن يساعد إلغاء تكرار البيانات في توفير مساحة تخزين الموارد وقوة الحوسبة والمال. تتمثل ميزة إلغاء تكرار البيانات، في أبسط صورها، في تقليص وحدات التخزين. لكن عندما ينتج كل جهاز كميات هائلة من البيانات ويتم مشاركة الملفات باستمرار بين الأقسام، فيكون لتأثير البيانات المتكررة عواقب بعيدة المدى؛ فيمكن على سبيل المثال أن يبطئ العمليات ويستهلك موارد الأجهزة وينشئ التكرار ويضيف اللبس عندما تستخدم فِرق مُتنوعة ملفات متكررة مُختلفة. يمكن أن تساعد تقنية إلغاء التكرار في الاعتناء بكل هذا، لهذا السبب تحتفظ العديد من المؤسسات بهذه التقنية في إيقاع مُجدول بانتظام باعتباره جزء من إستراتيجيات صيانة تقنية المعلومات الخاصة بها.

وقت استخدام إلغاء تكرار البيانات

نظرًا إلى أن إلغاء تكرار البيانات هو عملية إدارة بيانات كثيفة الاستخدام للموارد، يجب أن يعتمد التوقيت على عدد من المتغيرات، بما في ذلك تصميم الشبكة ووقت وصول الموظفين إلى الملفات. فيما يلي الحالات الأكثر شيوعًا التي يتم فيها استخدام إلغاء تكرار البيانات:

خوادم ملفات للأغراض العامة

توفر خوادم الملفات للأغراض العامة التخزين والخدمات لمجموعة واسعة من البيانات، بما في ذلك ذاكرات التخزين المؤقت للموظفين الفرديين للملفات ومجلدات الأقسام المُشتركة. نظرًا إلى أن هذه الأنواع من الخوادم تتمتع غالبًا بحجم كبير من المستخدمين ومجموعة مُتنوعة من أدوار المستخدمين، فتميل العديد من الملفات المتكررة إلى التواجد. تتضمن الأسباب النُسخ الاحتياطية من محركات الأقراص الثابتة المحلية وعمليات تثبيت التطبيقات ومشاركة الملفات وغير ذلك الكثير.

عمليات نشر البنية التحتية لسطح المكتب الظاهري (VDI)

توفر تقنية البنية التحتية الافتراضية لسطح المكتب استضافة مركزية وإدارة أجهزة الكمبيوتر المكتبية الافتراضية للوصول عن بُعد. تكمن المشكلة في أن محركات الأقراص الثابتة الافتراضية تكون غالبًا مُتطابقة، وتحتوي على ملفات متكررة تستنفذ مساحة التخزين. بالإضافة إلى ذلك، عندما يشغِّل عدد كبير من المستخدمين أجهزتهم الافتراضية دفعة واحدة، مثل بداية يوم العمل، يمكن لـ "عاصفة تشغيل VDI" التي تلت ذلك أن تجعل الأداء أبطأ، إن لم توقفه. يمكن أن تساعد ميزة إلغاء التكرار في التخفيف من ذلك من خلال استخدام ذاكرة تخزين مؤقت مُدمجة بالذاكرة لموارد التطبيقات الفردية عند الطلب.

أنظمة التخزين والنُسخ الاحتياطية

تنشئ النسخ الاحتياطية إصدارات متكررة من الملفات لسبب وجيه. مع ذلك، لا يلزم نسخ الملف نفسه مرارًا وتكرارًا بشكل دائم. بدلاً من ذلك، يضمن إلغاء تكرار البيانات وجود ملف نسخ احتياطي نظيف، مع وجود مثيلات أخرى في إصدارات النسخ الاحتياطي الأحدث تشير ببساطة إلى الملف الأساس. يتيح هذا بالتكرار مع تحسين الموارد ومساحة التخزين.

عمليات نقل البيانات

تعمل أدوات إلغاء التكرار في توفير عملية نقل بيانات أكفأ. بدلاً من إجراء الكتابة الفوقية من البداية إلى النهاية، تحدد أدوات إلغاء تكرار البيانات الملفات في المقاطع. بالنسبة إلى عملية نقل الملفات، تمسح الأدوات المقاطع المُحدَّثة وتنقل المقاطع حسب الحاجة فحسب. على سبيل المثال، إذا كان شخص ما يتلقى إصدارًا جديدًا من ملف كبير جدًا وكان الإصدار الجديد يحتوي على بضعة مقاطع فحسب من التعليمات البرمجية المُحدَّثة، فيمكن أن تكتمل عملية النقل/الكتابة الفوقية بسرعة عن طريق الكتابة فحسب إلى تلك المقاطع.

أنظمة الأرشفة

يتم غالبًا الخلط بين أنظمة الأرشفة والنسخ الاحتياطية، إذ يتم استخدامها لتخزين البيانات على المدى الطويل. لكن في حين تنشئ الأنظمة نُسخ احتياطية لأغراض إجراءات مواجهة الكوارث والتأهب لها، تستخدم المؤسسات أنظمة الأرشفة للحفاظ على البيانات التي لم تعد قيد الاستخدام النَشط. يمكن إنشاء التكرارات عند دمج وحدات تخزين أو إضافة مقاطع جديدة إلى نظام أرشفة. تزيد عملية إلغاء التكرار من كفاءة الأرشيفات إلى أقصى حد.

‎‏‎طريقة عمل إلغاء تكرار البيانات

من منظور شامل، تقارن أدوات إلغاء تكرار البيانات الملفات أو كتل الملفات لتكرار تحديد بصمات الأصابع، والمعروفة أيضًا باسم عمليات التجزئة. إذا تم تأكيد التكرارات، فيتم تسجيلها والتخلص منها. فيما يلي نظرة عن كثب على الخطوات المُحددة في العملية.

التقسيم

يشير التقسيم إلى عملية إلغاء تكرار تقسِّم الملفات إلى مقاطع، تسمى بالقطع. يمكن حساب حجم هذه المقاطع من خلال الخوارزمية أو تعيينها باستخدام الإرشادات المحددة. تكمن فائدة التقسيم في أنه يسمح بإلغاء تكرار أدق، على الرغم من أنه يتطلب المزيد من موارد الحوسبة.

عملية التجزئة

عند معالجة البيانات بواسطة أداة إلغاء التكرار، تُعيِّن خوارزمية التجزئة عملية تجزئة لها. ثم يتم التحقق من عملية التجزئة لمعرفة إذا كانت موجودة بالفعل في سجل البيانات التي تمت معالجتها. إذا كانت موجودة بالفعل، فيتم تصنيف البيانات على أنها مُتكررة وحذفها لتوفير مساحة التخزين.

الجداول المرجعية

يتم تخزين نتائج عملية إلغاء التكرار في جدول مرجعي يتتبع المقاطع أو الملفات التي تتم إزالتها وما تكررت. يوفر الجدول المرجعي الشفافية وإمكانية التتبع مع توفير أرشيف شامل للمصادر التي يشير إليها الملف عبر وحدة تخزين.

أساليب إلغاء تكرار البيانات

يمكن للمؤسسات الاختيار من بين العديد من أساليب إلغاء تكرار البيانات على أساس أفضل ما يناسب موازناتها وعرض النطاق الترددي واحتياجات التكرار. إن موقع المعالجة، ووقت المعالجة، ومدى دقة المعالجة—كل هذه مُتغيرات تنسيق ومزج تُستخدم لإنشاء حل مُخصص للمؤسسة.

هل يعمل إلغاء تكرار البيانات المُضمن أو ما بعد المعالجة بأفضل شكل لتلبية احتياجاتك؟ فيما يلي بعض إيجابيات كل منها وسلبياته.

مخطط إلغاء تكرار البيانات المُضمن مقابل ما بعد المعالجة:

إلغاء التكرار المُضمن:

  • يتخلص من البيانات المتكررة قبل كتابتها في التخزين.
  • يحدث تحسين خفض سعة البيانات قبل كتابة البيانات على القرص.
  • الايجابيات:
    • يقلل من احتياجات مساحة التخزين، مما يخفض التكاليف.
    • يقلل من حجم نقل البيانات، مما يحسِّن الأداء.
  • السلبيات:
    • وجود حاجة إلى المزيد من قوة المعالجة للتخلص من البيانات المتكررة على الفور.
    • إذا تم تنفيذه بشكل غير فعِّال، فقد تتباطأ العمليات.

إلغاء التكرار ما بعد المعالجة

  • يحدث بعد كتابة البيانات في المخزن.
  • أولاً تُكتب البيانات الأولية على القرص كما هي.
  • يحدث تحسين خفض سعة البيانات بعد كتابة البيانات على القرص.
  • الايجابيات:
    • يتطلب موارد أقل.
    • لا يؤثر على الأداء بسبب أن إلغاء التكرار عملية دفعية مُنفصلة.
  • السلبيات:
    • لا يتم التخلص من البيانات المتكررة على الفور، مما قد ينتج عنه المزيد من التبيانات.
    • قد تؤدي المعالجة الدفعية إلى تأخير تحديد البيانات المتكررة وإزالتها.

طُرق إلغاء التكرار

  • إلغاء التكرار على مستوى الكتل: تعمل أدوات إلغاء التكرار على مستوى الكتل من خلال مقارنة هذه المقاطع بحثًا عن فروق في بصمات الكتل وإزالة التكرارات. يتيح هذا إمكانية إلغاء البيانات المتكررة بشكل أدق، على الرغم من أن العملية تتطلب موارد كثيرة إلى حد ما وقد يصعب تطبيقها على كميات كبيرة من وحدات التخزين المادية.
  • إلغاء التكرار على طول المُتغير: يستخدم إلغاء التكرار على طول المُتغير خوارزمية لتحديد حجم مقاطع البيانات في ملف، ثم التحقق من التكرارات. تشبه هذه العملية تقنية إلغاء البيانات المتكررة على مستوى الكتلة، فهي توفر دقة جيدة لكن دون حجم ثابت للكتل الفردية.
  • إلغاء التكرار على مستوى الملف: بدلاً من إجراء إلغاء التكرار على مستوى الكتل، تتطلع الأدوات إلى اكتشاف التكرارات على أساس كل ملف على حدة. لا تعمل هذه الطريقة بنفس دقة إلغاء البيانات المتكررة على مستوى الكتل، على الرغم من أن المفاضلة هي عملية أسرع وأقل كثافة في الموارد ويمكن تطبيقها على التخزين بأي حجم.

نقاط إلغاء التكرار

  • إلغاء التكرار المصدر: تستخدم هذه الطريقة العميل المحلي باعتباره موقع لإلغاء تكرار البيانات. يوفر إجراء إلغاء البيانات المتكررة على العميل قبل إجراء النسخ الاحتياطي من عرض النطاق الترددي وتكاليف الإرسال، على الرغم من أنه يستخدم موارد العميل.
  • إلغاء التكرار الهدف: تنتظر هذه الطريقة حتى يتم إرسال نسخة احتياطية لتنفيذ إلغاء التكرار. في هذه الحالة، تكون المفاضلة في استخدام الموارد عكس المفاضلة في إلغاء التكرار المصدر: إذ تضع ضغطًا أقل على العملاء لكنها تضع طلبًا أكبر على عرض النطاق الترددي للشبكة والموارد المستهدفة.

توقيت إلغاء التكرار

  • إلغاء التكرار المُضمن: عند تنفيذ إلغاء التكرار المُضمن، يتم مسح البيانات بحثًا عن التكرارات على الفور أثناء تنفيذ العملية. تستخدم هذه الطريقة المزيد من موارد الحوسبة المحلية، على الرغم من أنها توفر مساحة تخزين ضخمة.
  • إلغاء تكرار ما بعد المعالجة: يُشغِّل إلغاء التكرار ما بعد المعالجة عمليات المقارنة والتخلص بعد إرسال البيانات إلى الهدف. تتطلب هذه الطريقة مساحة تخزين أكبر في الموقع الهدف لكنها تستخدم موارد محلية أقل قبل الإرسال.

مزايا إلغاء تكرار البيانات

مثلما يؤدي تعديل المستند إلى إزالة الكلمات أو العبارات المتكررة لجعل المحتوى أكثر إيجازًا، يُبسِّط إلغاء البيانات المتكررة من بيانات المؤسسة، مما يوفر مكاسب محتملة مثل انخفاض في تكاليف التخزين وانخفاض استهلاك النطاق الترددي وزيادة كفاءة النسخ الاحتياطي.

وفورات في التخزين

عند وجود ملفات أقل، تستخدم المؤسسات مساحة تخزين أقل. تلك هي واحدة من أكثر مزايا إلغاء البيانات المتكررة وضوحًا، وهي تمتد إلى أنظمة أخرى. تتطلب الشركات مساحة أقل للنسخ الاحتياطية وتستهلك موارد أقل للحوسبة/عرض النطاق الترددي لمسح البيانات ونسخها احتياطيًا.

التعافي من الكوارث

نظرًا إلى أن إلغاء البيانات المتكررة يقلل من عبء تشغيل النسخ الاحتياطية، يكون المنتج الثانوي الرئيس في التعافي من الكوارث أسرع وأسهل. يتم إنشاء نسخ احتياطية أصغر بكفاءة أكبر، مما يعني الحاجة إلى موارد أقل لسحبها لأجل أغراض الاستعادة.

نوافذ نُسخ احتياطية أصغر

باستخدام ميزة إلغاء البيانات المتكررة، تتقلص مساحة ملفات النسخ الاحتياطي، مما يؤدي إلى انخفاض استخدام الموارد أثناء عمليات النسخ الاحتياطي عبر مساحة التخزين والحوسبة ووقت المعالجة. يمنح كل هذا المؤسسات مرونة إضافية في طريقة جدولة النسخ الاحتياطية لديها.

كفاءة الشبكة

كلما قل عدد الملفات التي تحتاج إلى نقلها، انخفض عرض النطاق الترددي المطلوب، مما يعني أن النقل يستخدم موارد شبكة أقل. بالتالي، يمكن أن يحسِّن إلغاء تكرار البيانات إلى كفاءة في الشبكة من خلال تقليص الطلب في أي عملية نقل، بما في ذلك نقل النُسخ الاحتياطية للأرشفة واستدعاء النُسخ الاحتياطية للتعافي من الكوارث.

المزايا الاقتصادية

أدى الانفجار في أحجام البيانات إلى زيادة سريعة في الإنفاق على التخزين في المؤسسات من جميع الأحجام. يمكن أن يساعد إلغاء البيانات المتكررة في تحقيق وفورات في التكاليف من خلال تقليل مقدار التخزين اللازم للأنشطة اليومية وعمليات النسخ الاحتياطي أو عمليات الأرشفة. تأتي وفورات التكلفة الثانوية من انخفاض متطلبات الطاقة والحوسبة وعرض النطاق الترددي وتقليل الموارد البشرية اللازمة لإدارة الملفات المتكررة واستكشاف أخطائها وإصلاحها.

العيوب والمخاوف من إلغاء تكرار البيانات

يُعد إلغاء البيانات المتكررة أداة فعَّالة لزيادة استخدام الموارد إلى أقصى حد وخفض التكاليف. مع ذلك، تأتي هذه المزايا مع بعض التحديات، ويتعلق الكثير منها بقوة الحوسبة المطلوبة لإلغاء التكرار الدقيق. تشمل العيوب والمخاوف الأكثر شيوعًا المتعلقة بإلغاء تكرار البيانات ما يلي:

التكلفة الإضافية للأداء

تكون عملية إلغاء البيانات المتكررة كثيفة الموارد، خاصةً عند تنفيذها على مستوى الكتل. يجب أن تكون فِرق تكنولوجيا المعلومات متفهمة عند جدولة عمليات إلغاء البيانات المتكررة وتنفيذها، مع مراعاة عرض النطاق الترددي المُتاح والأنشطة والاحتياجات التنظيمية وموقع النسخ الاحتياطي والمواعيد النهائية وعوامل أخرى على أساس بيئاتها الفريدة.

اصطدامات التجزئة

تشير اصطدامات التجزئة إلى المثيلات عندما تُحدث تداخل بين قيم التجزئة التي يتم إنشاؤها عشوائيًا. عندما تستخدم عملية إلغاء البيانات المتكررة أسلوبًا على مستوى الكتل، يتم تعيين عمليات تجزئة إلى مجموعات بيانات، مما يثير احتمال حدوث اصطدامات تجزئة قد تتسبب في تلف البيانات. يتضمن منع اصطدامات التجزئة إما زيادة حجم جدول التجزئة أو تنفيذ طرق حل التصادم، مثل التسلسل أو العنونة المفتوحة. تتضمن عملية التسلسل تخزين عناصر مُتعددة بنفس مفتاح التجزئة في قائمة مرتبطة أو هيكل بيانات آخر، بينما تتضمن العنونة المفتوحة العثور على موقع بديل داخل جدول التجزئة لتخزين العنصر المتكرر. تحظى كل طريقة بمزايا وعيوب، لذلك؛ تحتاج فِرق تكنولوجيا المعلومات إلى النظر في طول خوارزمية التجزئة وتعقيدها مقابل استخدام الحلول البديلة.

سلامة البيانات

لا توجد عملية مضمونة، وخلال عملية إلغاء التكرار، توجد دائمًا إمكانية حذف البيانات أو تغييرها التي هي في الواقع فريدة وهامة. تشمل أسباب مشكلات السلامة اصطدامات التجزئة؛ أو كتل المصدر التالفة؛ أو العمليات المنقطعة من الأحداث غير المتوقعة مثل تعطلات القرص أو الخطأ اليدوي أو انقطاعات في التيار الكهربائي؛ أو هجوم إلكتروني ناجح؛ أو خطأ مشغل بسيط. على الرغم من أن مشكلات السلامة نادرة نظرًا إلى جودة أدوات وبروتوكولات إلغاء البيانات المتكررة للبيانات الحالية، إلا أنها تظل إمكانية وقد تتسبب في مشكلات خطيرة.

البيانات الوصفية المُضافة

تنشئ عملية إلغاء التكرار طبقة جديدة من البيانات الوصفية لسجلات التغيير والتوقيعات الرقمية المرفقة بكل كتلة تمت معالجتها. يُسمى هذا "ملف البصمة". لا تتطلب بيانات التعريف هذه مساحة تخزين فحسب، بل قد ينشئ عنها أيضًا مشكلات تكامل بالبيانات الخاصة بها. إذا أصبحت فاسدة على سبيل المثال، فتصبح عملية الاستعادة أصعب.

تكلفة التنفيذ

على الرغم من أن إلغاء البيانات المتكررة يوفر المال على المدى البعيد من خلال تقليل متطلبات المساحة، إلا أنها تتطلب استثمارًا مُقدمًا. تتضمن هذه التكاليف أداة إلغاء التكرار نفسها، والتي يتم تسعيرها عادةً بناءً على عدد السجلات، فضلاً عن الوقت اللازم لطاقم تكنولوجيا المعلومات في تصميم عملية إلغاء البيانات المتكررة وتنفيذها وإدارتها.

حالات استخدام إلغاء تكرار البيانات

كيف تعمل تقنية إلغاء تكرار البيانات في العالم الواقعي؟ من الناحية النظرية، إنه مفهوم علم البيانات بسيط: التخلص من البيانات المتكررة لتقليل استهلاك الموارد وتقليل الأخطاء التي تحدث عند وجود إصدارات متعددة لملف عائم. لكن تمتلك القطاعات والصناعات وحتى الإدارات المُختلفة بأهداف واحتياجات فريدة. فيما يلي بعض حالات الاستخدام الشائعة.

إدارة علاقات العملاء: داخل نظام إدارة علاقات العملاء، يمكن تسجيل سجلات العملاء ومعلومات الاتصال والصفقات باستخدام مصادر ومستويات تفاصيل وتنسيقات مُتعددة. يؤدي هذا إلى عدم اتساق البيانات، إذ قد يكون لدى أحد المديرين سجل مُختلف قليلاً عن الآخر؛ على سبيل المثال، إذا تم الاحتفاظ بسجل نقطة اتصال في مستودعات بيانات مُتعددة وتم تحديث سجل واحد فقط بعد مغادرة الشركة، فمن المحتمل أن يستمر بعض الموظفين في استخدام المعلومات القديمة. يمكن أن يساعد إلغاء تكرار البيانات في ضمان مصدر واحد لمعلومات العملاء الدقيقة، مما يسمح لكل فرد ومجموعة باستخدام أحدث البيانات لإنشاء التمثيلات المرئية أو تشغيل التحليلات.

تكامل البيانات: عند دمج مؤسستين سواء من خلال عملية استحواذ أو إعادة تنظيم داخلية، يمكن أن تنشئ البيانات المُضمنة في مثيلات مختلفة من نفس التطبيق سجلات مُتكررة. لنفترض أن شركة أكبر تشتري منافسًا أصغر مع تداخل بنسبة 40% في العملاء، وينعكس هذا في أنظمة ERP لديها. يمكن أن تقضي تقنية إلغاء البيانات المتكررة على هذا التكرار، مما يوفِّر مساحة تخزين مع ضمان عدم استخدام أي شخص داخل المؤسسة التي تم إنشاؤها حديثًا إلا أحدث إصدار من كل سجل.

الحوسبة الافتراضية: عند استخدام أجهزة الكمبيوتر المكتبية الافتراضية، مثل بيئات الاختبار أو الوصول الظاهري للتطبيقات المُتخصصة أو الأنظمة الداخلية، فيمكن أن يؤدي إلغاء التكرار إلى زيادة الكفاءة—خاصةً مع الحجم الثقيل للمستخدم. تحتوي غالبًا الأجهزة الافتراضية على بيانات مُتشابهة جدًا، مما يجعل العديد من الإصدارات المُتكررة من الملفات. يقضي إلغاء تكرار البيانات على إزالة هذه التكرارات للمساعدة في ضمان عدم تجاوز التخزين مع البيانات التي يتم إنشاؤها بواسطة الأجهزة الافتراضية.

الخدمات المصرفية: داخل أي مؤسسة مالية، قد تحتفظ أقسام أو فروع مُختلفة بسجلات مُتكررة لمعلومات العميل. يمثل كل سجل مُتكرر نقطة دخول محتملة للمجرمين لسرقة الهويات، وإجراء معاملات احتيالية، وتنفيذ أنشطة غير قانونية أخرى. ويتطلب فحص البيانات المكررة ومعالجتها للتحقق من الاحتيال المزيد من الموارد. يمكن أن يساعد إلغاء البيانات المُتكررة في تحسين الكفاءة والأمان للبنوك والاتحادات الائتمانية.

تُعد هذه مجرد عينة من حالات الاستخدام. يمكن لأي مؤسسة تنشئ الكثير من البيانات الاستفادة من إلغاء تكرار البيانات.

ما يجب مراعاته عند اختيار تقنية إلغاء تكرار البيانات

يقدم العديد من موفري الخدمات أدوات إلغاء تكرار البيانات، لكن ما المناسب لمؤسستك؟ فيما يلي العوامل الرئيسة التي يجب على الفِرق مراعاتها عند وضع قائمة قصيرة.

  • الأداء: تتطلب الأنواع المختلفة من إلغاء التكرار موارد مُختلفة. على سبيل المثال، تؤدي عملية إلغاء التكرار على مستوى الكتلة والتي يتم تنفيذها على المصدر عبر شبكة كبيرة إلى الحصول على موارد كبيرة مقارنةً بميزة إلغاء التكرار على مستوى الملف التي يتم تنفيذها على الهدف بنطاق محدود للغاية.
  • قابلية التوسع: تسير قابلية التوسع والأداء غالبًا مع بعضهما لأن العمليات التي تبتعد عن الأداء يصعب توسُّعها. ينطبق هذا على إلغاء التكرار، فكلما زادت كثافة الموارد في العملية، زادت صعوبة توسُّعها حسب الحاجة. يجب على المؤسسات التي تتطلب قابلية تطوير واسعة النطاق مراعاة هذه المفاضلات عند اختيارها لتقنية إلغاء تكرار البيانات.
  • التكامل: يمكن لمصادر البيانات غير المُتصلة تعقيد عملية إلغاء التكرار. على سبيل المثال، عندما وجود قواعد البيانات في مستودعات، يكون احتمال تكرار البيانات أعلى بكثير. في حالات أخرى، قد تتطلب الشبكة الكبيرة ذات مواقع عن بُعد متعددة بروتوكول أكثر صرامة للتنظيف والتحويل قبل إلغاء التكرار. يجب على المؤسسات تقييم حالة تكامل البيانات عند النظر في طريقة تنفيذ إلغاء تكرار البيانات.
  • التكلفة: تختلف أدوات إلغاء التكرار من جانب التكلفة على أساس عوامل مثل التعقيد والإمكانية. تزداد الأسعار على حسب حجم السجلات التي تمت معالجتها. يجب على المؤسسات إنشاء تقدير للموازنة استنادًا إلى معايير الصناعة والمعدلات المدرجة، ثم تقييم طريقة تعويض ذلك عن طريق الوفورات طويلة الأجل.

القضاء على الحاجة إلى إلغاء تكرار البيانات باستخدام Oracle HeatWave

أفضل طريقة لحل مشكلات إلغاء تكرار البيانات هي تقليلها في المقام الأول. تساعد Oracle HeatWave في ذلك من خلال الجمع بين المعاملات والتحليلات على الفور عبر مستودعات البيانات وبحيرات البيانات والتعلم الآلي والذكاء الاصطناعي التوليدي في خدمة سحابية واحدة. لا يحتاج عملاء HeatWave إلى تكرار البيانات من قاعدة بيانات المعاملات إلى قاعدة بيانات تحليلات مُنفصلة للتحليل، مما يوفر العديد من المزايا.

  • لا توجد حاجة إلى تخزين نفس البيانات في مخازن بيانات مُتعددة لأغراض مُختلفة.
  • لا تحتاج إلى عمليات استخراج وتحويل وتحميل مُعقدة ومستهلكة للوقت ومُكلفة ومُعرضة إلى الخطأ لنقل البيانات بين مخازن البيانات.
  • تصل استعلامات التحليلات دائمًا إلى أحدث البيانات، مما يؤدي إلى نتائج أفضل مقابل تحليل البيانات التي يمكن أن تكون قديمة بحلول الوقت المتاح في قاعدة بيانات تحليلات مُنفصلة.
  • يوجد خطر بسيط من تعرض البيانات للاختراق أثناء نقلها نظرًا إلى عدم نقل البيانات بين قواعد البيانات.
  • يتيح HeatWave Lakehouse للمستخدمين الاستعلام عن ما يصل إلى نصف بيتابايت من البيانات في مخزن الكائنات—ودمجها اختياريًا بالبيانات في قاعدة بيانات MySQL. يمكن للعملاء الاستعلام عن بيانات المعاملات في قواعد بيانات MySQL أو البيانات بتنسيقات مُختلفة في مخزن الكائنات أو مزيج من كليهما باستخدام أوامر MySQL القياسية، ودون نسخ البيانات من مخزن الكائنات إلى MySQL Database.

باستخدام HeatWave AutoML المُدمج، يمكن للعملاء إنشاء نماذج التعلم الآلي وتدريبها وشرحها في HeatWave مرة أخرى دون الحاجة إلى تكرار البيانات في خدمة تعلم آلي مُنفصلة.

يوفر HeatWave GenAI الذكاء الاصطناعي التوليدي المُتكامل والآلي والآمن مع نماذج اللغات الكبيرة داخل قواعد بيانات (LLM) ومخزن متجهات مؤتمت وداخل قاعدة البيانات ومعالجة المتجهات واسعة النطاق والقدرة على إجراء محادثات سياقية باللغة الطبيعية—مما يتيح للعملاء الاستفادة من GenAI دون خبرة في الذكاء الاصطناعي ودون نقل البيانات إلى قاعدة بيانات متجهة مُنفصلة.

من خلال التخلص من تكرار البيانات عبر العديد من الخدمات السحابية للمعاملات والتحليلات والتعلم الآلي وGenAI، إذ تتيح تقنية HeatWave للعملاء تبسيط البنى التحتية للبيانات واتخاذ قرارات أسرع وأكثر استنارة وزيادة الإنتاجية وتحسين الأمان وخفض التكاليف.

يمكن للذكاء الاصطناعي مساعدة مديري المعلومات التنفيذيين على تحليل البيانات لتحسين الإنفاق على السحابة واقتراح تعديلات على التعليمات البرمجية لتصميمها لتقليل الخروج. وتعرف على كيفية تسخير قوة الذكاء الاصطناعي الآن لمواجهة المواهب والأمان والتحديات الأخرى.

الأسئلة الشائعة حول إلغاء تكرار البيانات

ما المثال على إلغاء التكرار؟

من أمثلة إلغاء التكرار، تشغيل النُسخ الاحتياطية القائمة على الإصدار وأرشيفات بيانات المؤسسة. يحتوي كل أرشيف من هذه الأرشيفات على العديد من الحالات من نفس الملفات التي لم تُمس. باستخدام ميزة إلغاء التكرار، يتم تبسيط عملية النسخ الاحتياطي من خلال إنشاء إصدار جديد من الأرشيف دون تلك الملفات المُتكررة. بدلاً من ذلك، يحتوي الإصدار الجديد على مؤشرات إلى مصدر واحد، مما يسمح بوجوده داخل الأرشيف دون استخدام مساحة تخزين إضافية.

ما سبب إلغاء تكرار البيانات؟

تلتهم السجلات المُتكررة مساحة تخزين دون داعٍ. تنتهي مساحة التخزين الإضافية هذه بتناول المزيد من الموارد، بما في ذلك حجم التخزين وعرض النطاق الترددي للنقل وموارد الحوسبة، أثناء عمليات مثل عمليات مسح البرامج الضارة. تقلل ميزة إلغاء تكرار البيانات من حجم مساحة التخزين المُستخدمة وتقليص إجمالي استخدام الموارد، سواء ذلك من خلال عرض النطاق الترددي أو سعة التخزين.

ما المقصود بازدواجية البيانات؟

يمكن أن تظهر التكرارات من خلال كل من ازدواجية البيانات وتكرار البيانات. تشير ازدواجية البيانات إلى الحالات التي يقوم فيها المستخدم بإضافة ملف متكرر إلى النظام نفسه. يشير تكرار البيانات إلى الحالات التي يتم فيها دمج قواعد البيانات التي تحتوي على بعض الملفات أو السجلات المتداخلة لإنشاء تكرارات.

ما عيوب إلغاء التكرار؟

بإمكان تقنية إلغاء التكرار توفير مساحة للتخزين لتوفير قدر أكبر من الكفاءة والتوفير في التكاليف على المدى البعيد. مع ذلك، تتطلب العملية الفعلية لإلغاء تكرار البيانات موارد كثيرة ويمكن أن تؤدي إلى إبطاء تشغيل أجزاء مُختلفة من الشبكة، بما في ذلك أداء الحوسبة وعرض النطاق الترددي للنقل. يعني هذا أنه يجب على أقسام تكنولوجيا المعلومات التفكير بشكل استراتيجي في جدولة إلغاء التكرار.