Çıxarış, transformasiya, yükləmə və ya ETL — (ing. Extract, Transform, Load) — verilənlər xəzinəsinin idarə edilməsində əsas proseslərdən biri.[1] ETL — verilənlərin bir mənbədən digərinə köçürülməsi ilə bağlı bütün prosesləri əhatə edən ümumi termindir (bu proseslə əlaqəli digər anlayışlar: eksport, import, məlumatların konvertasiyası, fayl parsinqi, veb-skrapinq və s.). ETL prosesi aşağıdakı mərhələləri özündə birləşdirir:[2]
- Verilənlərin çıxarılması — xarici mənbələrdən verilənlərin əldə edilməsi;
- Transformasiya — verilənlərin biznes modelinin tələblərinə uyğunlaşdırılması üçün onların çevrilməsi, təmizlənməsi və zənginləşdirilməsi;
- Yüklənmə — işlənmiş verilənlərin məlumat anbarına yerləşdirilməsi.
ETL prosesinin baxımından məlumat anbarının arxitekturasını üç əsas komponent şəklində təqdim etmək olar:
- Verilən mənbəyi — strukturlaşdırılmış verilənləri cədvəl, cədvəllər məcmusu və ya sadəcə ayırıcı simvollarla bölünmüş fayl şəklində saxlayan sistem;
- Aralıq sahə — verilənlərin yüklənməsi prosesini təşkil etmək üçün müvəqqəti və yalnız köməkçi məqsədlə yaradılan cədvəlləri ehtiva edən mühit;
- Verilən qəbuledicisi — çıxarılmış verilənlərin yerləşdirildiyi məlumat anbarı və ya verilənlər bazası.
Verilənlərin mənbədən qəbulediciyə ötürülməsi verilən axını adlanır. Verilən axınının təşkili üçün tələblər adətən analitik tərəfindən müəyyən edilir. ETL yalnız bir tətbiqdən digərinə verilən ötürmə prosesi kimi deyil, həm də verilənlərin təhlilə hazırlanması aləti kimi nəzərdən keçirilməlidir.[3][4]
ETL prosesinin ilkin mərhələsi verilənlərin mənbələrdən çıxarılması və onların transformasiya mərhələsinə hazırlanmasıdır. Verilənlərin çıxarılması prosedurunun hazırlanması zamanı ilk növbədə OLTP sistemlərindən və ya ayrı-ayrı mənbələrdən verilənlərin yüklənmə tezliyi müəyyən edilməlidir. Verilənlərin yüklənməsi müəyyən vaxt tələb edir və bu müddət yükləmə pəncərəsi (ing. load window) adlanır.
Verilənlərin çıxarılması prosesi iki üsulla həyata keçirilə bilər:
- Xüsusi proqram təminatı vasitəsilə verilənlərin çıxarılması;
- Verilənlərin saxlandığı sistemin daxili imkanlarından istifadə etməklə çıxarılması.
Çıxarılmış verilənlər sonradan aralıq sahəyə (ing. staging area) yerləşdirilir. Bu mərhələdə hər bir verilən mənbəyi üçün ayrıca cədvəl, fayl və ya hər ikisi yaradılır.
Bu mərhələnin məqsədi — verilənləri verilənlər xəzinəsində yerləşdirməyə hazırlamaq və onları sonrakı təhlil üçün daha əlverişli formaya salmaqdır. Bu zaman analitik tərəfindən irəli sürülən tələblər, xüsusilə də verilənlərin keyfiyyət səviyyəsinə dair tələblər nəzərə alınmalıdır.
Buna görə verilənlərin transformasiyası mərhələsində çox müxtəlif alətlərdən istifadə oluna bilər — ən sadə əl ilə üsullarından başlayaraq, mürəkkəb məlumat emalı və təmizləmə sistemlərinə kimi
ETL çərçivəsində verilənlərin transformasiyası zamanı adətən aşağıdakı əməliyyatlar yerinə yetirilir:
- Verilənlərin strukturunun transformasiyası;
- Verilənlərin aqreqasiyası (ümumiləşdirilməsi);
- Dəyərlərin transformasiyası (məsələn, format və ya vahidlərin dəyişdirilməsi);
- Yeni verilənlərin yaradılması;
- Verilənlərin təmizlənməsi.
Yüklənmə prosesi verilənlərin aralıq cədvəllərdən verilənlər xəzinəsinin strukturuna köçürülməsini nəzərdə tutur. Növbəti yüklənmə zamanı verilənlər xəzinəsinə mənbələrdəki bütün məlumatlar deyil, yalnız əvvəlki yüklənmədən sonra dəyişdirilmiş və ya əlavə olunmuş verilənlər ötürülür.
Bu mərhələdə iki əsas verilən axını fərqləndirilir:
- Əlavəetmə axını — verilənlər xəzinəsinə daha əvvəl mövcud olmayan, yeni verilənlərin ötürülməsi;
- Yeniləmə (tamamlama) axını — əvvəl mövcud olan, lakin dəyişdirilmiş və ya genişləndirilmiş verilənlərin ötürülməsi.
Yüklənən verilənlərin bu axınlar üzrə bölüşdürülməsi üçün verilənlərin idarəetmə vasitələrindən istifadə olunur. Bu vasitələr müəyyən vaxt nöqtələrində verilənlərin vəziyyətini qeydə alır və hansı verilənlərin dəyişdirildiyini və ya əlavə olunduğunu müəyyənləşdirir.
- ↑ Ralph., Kimball. The data warehouse ETL toolkit : practical techniques for extracting, cleaning, conforming, and delivering data. Caserta, Joe, 1965-. Indianapolis, IN: Wiley. 2004. ISBN 978-0764579233. OCLC 57301227.
- ↑ Denney, MJ. "Validating the extract, transform, load process used to populate a large clinical research database". International Journal of Medical Informatics. 94. 2016: 271–4. doi:10.1016/j.ijmedinf.2016.07.009. PMC 5556907. PMID 27506144.
- ↑ Zhao, Shirley. "What is ETL? (Extract, Transform, Load) | Experian". Experian Data Quality. 20 oktyabr 2017. İstifadə tarixi: 12 dekabr 2018.
- ↑ Pott, Trevor. "Extract, transform, load? More like extremely tough to load, amirite?". The Register. 4 iyun 2018. İstifadə tarixi: 12 dekabr 2018.
- David Loshin. ETL (Extract, Transform, Load) // Business Intelligence (2nd). Morgan Kaufmann. 2012. ISBN 978-0-12-385890-0.
- David Haertzen. ETL Tools // The Analytical Puzzle: Profitable Data Warehousing, Business Intelligence and Analytics. Technics Publications. 2012. ISBN 978-1-935504-20-7.
- Ralph Kimball, Joe Caserta. The Data Warehouse ETL Toolkit: Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data. John Wiley & Sons. 2004. ISBN 978-0-764-56757-5.