ETL Pipeline
Türkçeye veri işlem hattı olarak yerleşen ETL pipeline, farklı kaynaklardan elde edilen verinin kullanılabilir hale getirilme süreci olarak tanımlanır. Anlamı ve kullanılabilir hale dönüştürülen veri, analiz edilmek ve depolanmak için veri ambarına yüklenir. Bu süreci otomatikleştiren sistemin adı ise pipeline'dır. ETL ifadesinin açılımı ise Extract, Transform ve Load süreçleridir. ETL pipeline nedir, sorusunun yanıtı içinde yer alan tüm bu aşamaların detaylarını aşağıdaki tabloda görebilirsiniz.
ETL Sürecinin Aşamaları
- Extract: Süreç boyunca CRM sistemleri, ERP yazılımları, SQL veri tabanı, API’ler veya web siteleri gibi farklı kaynaklardan ham veri toplanır. Bu aşamada verinin nereden alınacağı, hangi sıklıkla çekileceği ve veri bütünlüğünün nasıl korunacağı belirlenir. Örneğin bir e-ticaret sitesinde kullanıcı sipariş verileri, ödeme sistemlerinden ve web analitik araçlarından düzenli olarak çekilebilir.
- Transform: Veri çıkarma aşamasının ardından verinin iş süreçlerine uygun hale getirilmesi gerekir. Bu aşamada veriler temizlenir, eksik veya hatalı kayıtlar düzeltilir, farklı formatlar standardize edilir ve birden fazla kaynaktan gelen veriler birleştirilir. Örneğin farklı ülkelerden gelen satış verilerinin para birimi tek bir standarda çevrilebilir veya tarih formatları uyumlu hale getirilebilir.
- Load: Son aşama olan load, yani yükleme aşaması, işlenmiş ve temizlenmiş verinin veri ambarına (data warehouse), veri gölüne (data lake) veya analiz sistemlerine aktarılmasını içerir. Bu aşamada veri, raporlama ve analiz araçları tarafından kullanılabilir hale gelir. Örneğin satış, müşteri ve trafik verileri, bir veri ambarına yüklenerek dashboard'lar üzerinden analiz edilebilir.