Verilənlərin təkrarsızlaşdırılması və ya verilənlərin deduplikasiyası — məlumatların saxlanması və idarə olunması prosesində eyni və ya oxşar verilənlərin aradan qaldırılması texnologiyası. Bu üsul yaddaş həcmini optimallaşdırmaq, ehtiyat nüsxələrin saxlanması xərclərini azaltmaq və məlumatların idarə edilməsini sadələşdirmək məqsədi daşıyır. Dedupikasiya zamanı sistem eyni məzmunlu fayl və ya blokları aşkar edir, yalnız bir nüsxəsini saxlayır, digərini isə həmin nüsxəyə istinad kimi qeyd edir. Verilənlərin deduplikasiyası fayl səviyyəsində və ya blok səviyyəsində həyata keçirilə bilər. Fayl səviyyəsində sistem tamamilə eyni faylları müqayisə edərək yalnız bir nüsxəni saxlayır. Blok səviyyəsində isə fayl daxilində oxşar məlumat blokları analiz olunur və təkrarlanan hissələr çıxarılır. Bu yanaşma xüsusilə böyük həcmli korporativ məlumat anbarlarında və bulud mühitlərində geniş tətbiq olunur.[1][2]
Verilənlərin təkrarsızlaşdırılması ehtiyat nüsxələmə sistemlərində, bulud saxlama xidmətlərində, elektron poçt serverlərində, böyük məlumat bazalarında və virtual maşınların idarəetmə mühitlərində istifadə olunur. Bank sektoru, səhiyyə, telekommunikasiya və dövlət qurumları bu texnologiyadan aktiv şəkildə yararlanır.[3]
Dedupikasiya prosesi yüksək hesablama gücü və əlavə indeksləmə mexanizmləri tələb edə bilər. Şifrələnmiş məlumatlarda və ya tez-tez dəyişən fayllarda təkrarsızlaşdırma səmərəliliyi azalır. Hüquqi və məxfilik məsələləri də nəzərə alınmalıdır, çünki məlumatların dəyişdirilmiş strukturu bəzən məhkəmə-ekspertiza (ing. forensic) analizini çətinləşdirə bilər.[4]
Verilənlərin deduplikasiyası məlumatların təkrarlanan hissələrini aşkarlayaraq yalnız bir nüsxəsini saxlayır. Fayl səviyyəsində yanaşmada tamamilə eyni fayllar müqayisə edilir və artıq nüsxələr çıxarılır. Blok səviyyəsində yanaşma isə fayl daxilindəki oxşar məlumat bloklarını təhlil edir. Sistem unikal blokları saxlayır və təkrarlanan hissələrə göstərici əlavə edir. Hər blok üçün unikal identifikator (haş dəyəri) yaradılır. Bu identifikatorlar təkrarlanan blokları aşkar etmək üçün müqayisə edilir. Sistem eyni zamanda metaverilənləri və fayl strukturunu qoruyur.[5]
On-line (real vaxt) deduplikasiyada məlumat daxil olarkən yoxlanılır. Post-process (sonradan emal) yanaşmada məlumat əvvəlcə saxlanır, sonra təhlil edilir. Blokların və faylların müqayisəsi üçün effektli alqoritmlər tələb olunur. Proses yaddaş və hesablama resurslarını idarə etmək üçün optimallaşdırılır. Beləliklə, deduplikasiyanın işləmə prinsipi həm saxlama həcmini azaltmağa, həm də məlumat bütövlüyünü qorumağa xidmət edir.[6]
Dedupikasiya saxlama həcmini əhəmiyyətli dərəcədə azaldır. Bu, böyük məlumat anbarlarında xərcləri optimallaşdırır. Ehtiyat nüsxələmə proseslərinin sürətini artırır. Şəbəkə ötürülməsini və məlumatların kopyalanma vaxtını azaldır. Virtual maşınların idarə olunmasında resurs istifadəsini effektivləşdirir.[7] Fayl və blok səviyyəsində deduplikasiya məlumatın təkrar saxlanmasının qarşısını alır. Bərpa prosesləri daha sürətli həyata keçirilir. Bulud saxlama xidmətlərində istifadə xərclərini aşağı salır. Sistemdə məlumatların idarə olunması sadələşir. Ətraf mühitin qorunmasına da töhfə verir, çünki az disk və enerji sərf olunur. Təkrar məlumatların çıxarılması məlumatların aydın strukturunu təmin edir. Nəticədə, həm iqtisadi, həm də texniki səmərəlilik artır.
Dedupikasiya iki əsas kateqoriyaya bölünür: fayl səviyyəli və blok səviyyəli. Fayl səviyyəli yanaşma tam eyni faylları aşkarlayır. Blok səviyyəli yanaşma isə fayl daxilində oxşar və ya təkrarlanan məlumat hissələrini müəyyən edir. Hər iki üsul həm on-line, həm də post-process tətbiq oluna bilər. On-line deduplikasiya məlumat daxil olanda aparılır. Post-process deduplikasiya isə məlumat saxlanıldıqdan sonra həyata keçirilir. Hər üsulun üstünlükləri və məhdudiyyətləri mövcuddur.[8]
Fayl səviyyəli üsul sadədir, lakin blok səviyyəli qədər saxlama qənaəti vermir. Blok səviyyəli üsul daha çox resurs tələb edir, amma yüksək optimallaşdırma təmin edir. Dedupikasiya həm strukturlaşdırılmış, həm də yarı-strukturlaşdırılmış məlumatlarda tətbiq oluna bilər. Eyni zamanda fərqli fayl formatları və verilən tipləri üçün uyğun alqoritmlər seçilməlidir. Kateqoriyalara bölünmə texnologiyanın tətbiq sahəsini və səmərəliliyini müəyyən edir.[9]
Post-process deduplikasiya məlumatın əvvəlcə saxlanmasını, sonra isə təkrarlanan blokların çıxarılmasını nəzərdə tutur. Bu üsul sistem performansına minimal təsir göstərir. Lakin əlavə saxlama tələb edir, çünki məlumat əvvəlcə tam saxlanılır. In-line (real vaxt) deduplikasiya məlumat daxil olanda aparılır. Bu, saxlama ehtiyacını dərhal azaldır. Real vaxt rejimi performans tələbini artırır və hesablama resurslarını daha çox istifadə edir.[10]
Post-process üsulu böyük məlumat anbarlarında çevikliyi təmin edir. In-line üsulu isə bulud və virtual mühitlərdə effektivdir. Hər iki üsul təhlükəsizlik və məlumat bütövlüyü tədbirləri ilə tamamlanmalıdır. Seçim tətbiq olunan sistemin resurs imkanları və iş yükünə görə edilir. Tədqiqatlar göstərir ki, hibrid yanaşmalar daha balanslı nəticə verir. Bu üsullar məlumat idarəçiliyinin səmərəliliyini artırmaq üçün vacibdir.[11]
Dedupikasiya müxtəlif məlumat formatlarında tətbiq oluna bilər. Fayl formatları (məsələn, .txt, .csv, .pdf) sistem tərəfindən oxunaraq müqayisə edilir. Blok səviyyəli deduplikasiya isə faylın daxili strukturuna fokuslanır. Media faylları, şəkillər və video da deduplikasiya üçün uyğun texnikalardan istifadə edir. Bazalar və log faylları yüksək təkrarlılığa malik olduğundan səmərəli deduplikasiya təmin olunur. Şifrələnmiş məlumatlarda deduplikasiyanın səmərəliliyi azalır. Hər format üçün optimallaşdırılmış alqoritmlər tələb olunur. Fayl formatlarının müxtəlifliyi prosesi daha mürəkkəb edir. XML və JSON kimi yarı-strukturlaşdırılmış formatlar blok səviyyəsində təhlil olunur. Fayl metaverilənləri və atributları da deduplikasiya zamanı nəzərə alınır. Səmərəli nəticə üçün müxtəlif formatlarda test və monitorinq aparılır. Nəticədə, data formatlarına uyğun yanaşma deduplikasiyanın effektivliyini artırır.[2]
- ↑ "Understanding Data Deduplication". Druva (ingilis). 9 yanvar 2009. 6 avqust 2019 tarixində orijinalından arxivləşdirilib. İstifadə tarixi: 6 avqust 2019.
- ↑ 1 2 "SNIA Dictionary » Dictionary D". 24 dekabr 2018 tarixində arxivləşdirilib. İstifadə tarixi: 6 dekabr 2023.
- ↑ "The reflink(2) system call v5". lwn.net. 2 oktyabr 2015 tarixində arxivləşdirilib. İstifadə tarixi: 4 oktyabr 2019.
- ↑ Compression, deduplication and encryption: What's the difference? Arxivləşdirilib 2018-12-23 at the Wayback Machine, Stephen Bigelow and Paul Crocetti
- ↑ "In-line or post-process de-duplication? (updated 6-08)". Backup Central. 6 dekabr 2009 tarixində arxivləşdirilib. İstifadə tarixi: 6 dekabr 2023.
- ↑ "Inline vs. post-processing deduplication appliances". techtarget.com. 9 iyun 2009 tarixində arxivləşdirilib. İstifadə tarixi: 6 dekabr 2023.
- ↑ "ioctl_ficlonerange(2)". Linux Manual Page. 7 oktyabr 2019 tarixində arxivləşdirilib. İstifadə tarixi: 4 oktyabr 2019.
- ↑ Kazuki MATSUDA. "Add clonefile on Windows over ReFS support". GitHub. 13 yanvar 2021 tarixində arxivləşdirilib. İstifadə tarixi: 23 fevral 2020.
- ↑ An example of an implementation that checks for identity rather than assuming it is described in "US Patent application # 20090307251" Arxivləşdirilib 2017-01-15 at the Wayback Machine.
- ↑ "Windows Server 2008: Windows Storage Server 2008". Microsoft.com. 4 oktyabr 2009 tarixində orijinalından arxivləşdirilib. İstifadə tarixi: 16 oktyabr 2009.
- ↑ "Products - Platform OS". NetApp. 6 fevral 2010 tarixində orijinalından arxivləşdirilib. İstifadə tarixi: 16 oktyabr 2009.
- Biggar, Heidi(2007.12.11). WebCast: The Data Deduplication Effect
- Using Latent Semantic Indexing for Data Deduplication.
- A Better Way to Store Data.
- What Is the Difference Between Data Deduplication, File Deduplication, and Data Compression? - Database from eWeek
- SNIA DDSR SIG
- Doing More with Less by Jatinder Singh
- DeDuplication Demo