Oracle Experience: What Is the Benefits of Data Compression In Datawarehouses and Data Mining?

Veri Sıkıştırma

· Var olan verinin daha az yer kaplayacak şekilde yeniden düzenlenmesidir.
· Zaman ve boyuttan kazanım sağlar. Bu da doğrudan maliyete etki eder.
· İşlemci hızlarının artması sıkıştırma-açma süresini azalttığından, sıkıştırma popülerliğini arttırmıştır.
· Günlük hayatta sıkça kullanılan sıkıştırma programları ( ZIP, RAR ) bu esas ile çalışmaktadır.
· Sıkıştırılacak verinin özelliğine göre kayıplı ve kayıpsız olmak iki şekilde yapılabilir.
· Sıkıştırma-Açma işlemlerinin eşzamanlı çalışabilme özelliğine göre simetrik ve asimetrik olarak sınıflanabilir.
· Günümüzde olgunluğa ermiş birçok yöntem bulunmaktadır. (RLE, JPG, LZ)
· Sıkıştırma, bazı yöntemlerde şifreleme işlemi de yapar. (Ör; Huffman Encoding)
· Sıkıştırma, verinin tipi ve yapısına en uygun yöntemin seçilmesiyle en verimli yapılabilir.

Veri Madenciliği

· Bilginin kimi yöntemler ile analiz edilmesi ve çıkan sonuçların bir uzman gözüyle yorumlanmasıyla geçmiş verilerden gelecek tahminleri yapma işlemi veri madenciliği(data mining) olarak belirtilebilir.
· Veri içerisindeki örüntü bağlantı, değişim, düzensizlik, kural ve istatistiksel olarak önemli olan yapıların keşfedilerek ortaya çıkarılmasıdır.
· Asıl amaç, “veri” den “bilgi” ye ulaşmadır. Bu sayede veriler, değerli hal alır.
· “Çocuk bezi alan müşterilerin %25’i kolonyalı mendil de satın alır.” gibi bağıntılar(sepet analizi), “Zengin bayanlar cip tarzı yerden yüksek arabaları, zengin erkekler ise yere daha yakın arabaları tercih eder” gibi sınıflandırmalar, “Mortgage kredisi alıp da ilk 2 yılda 5 taksitten fazlasını geç ödeyen müşterilerin %30’u krediyi ödeyemiyor” gibi davranışlar Data Mining ile kullanılan yaklaşımlara örnek verilebilir.
· Finans, Haberleşme, Sağlık ve Devlet uygulamalarında kullanım alanları bulunmaktadır.
· Gerçek hayatta Data Mining in kullanım alanım bulduğu örnekler,
· GSM Operatörlerinin sahtecilik(fraud) yapan müşterilerini anında yakalayıp bunu önlemesi
· Bir bankanın, yapacağı kampanyanın olası müşterilerini önceden tahmin edip, reklam faaliyetlerini sadece o müşterilerine yapması.

Veri Ambarı

· Sorgulama amaçlı kullanılan bir ilişkisel veritabanıdır.
· Üzerinde OLTP den daha çok OLAP işlemleri yapılır.
· Birçok farklı veri kaynağından beslenebilir.
· İş kurallarının oluşmasına katkı sağlar.
· Data mining yapılacak veriler burada bulunur.
· Genellikle çok büyük miktarlı verilerden oluşur.
· Genel Özellikleri;
o Konu Odaklı (Ör: Kanser Verileri )
o Bütünleşik( Ör : XML, Flat File ve Veritabanından Alınan Veriler )
o Değişmeyen ( Ör: Update/Delete Yapılmaz )
o Zamana Bağlı ( Ör: Aylık-Günlük Satışlar )

Mining –Warehousing

· Veri ambarlarında bulunan veriler, çok büyük miktarlardadır.
· Bu da veri ambarlarında tutulan verilerde bazı optimizasyonlara gidilmesinin faydalı olacağını ortaya çıkarır.
· Bu sayede veri ambarlarının boyutlarından kaynaklanan depolama, bakım ve risk maliyetleri minimize edilmiş olur.
· Tam bu noktada veri sıkıştırma ile veri ambarcılığı arasındaki ilişki ortaya çıkmış olur.

Bir Örnek

· Büyük bir GSM Operatörünün, müşteri – konuşma özetlerinin bulunduğu bir ambar düşünün.
· Müşteri sayısının 50 milyon, ve her müşterinin günlük 5 konuşma özet bilgisinin olduğunu ve bunun 60 günlük tutulduğunu varsayın.
· Ortalama bir müşteri bilgisinin 2 KB, bir özet bilgisinin de 0.5 KB olduğuna göre toplam veri
50 milyon * ( 2 KB + 60 gün * 5 konuşma * 0.5 KB ) = 50 M * 152 KB = ~7 TB
· Eğer bu veri üzerinde %20 sıkıştırma yapacak bir sıkıştırma Huffman uygulanmış olsaydı bu veri ~1.5 TB ile saklanabilirdi.

Uygulamalardaki Durum

· İlişkisel Veri Tabanı Lideri Oracle, “Table Compression” ile, veri ambarları için kullanılan tablolarda sıkıştırma yapılabilmeyi olanaklı hale getirmiştir.
· Oracle’nin dışında DB2 ve ADABAS da veri sıkıştırmayı mümkün kılmaktadır.

Veri Sıkıştırma, Her Zaman İyi mi?

· Verilerin sıkıştırılarak ambarlarda saklanması, belirli bir sıkıştırma yükünü getirecektir. Bu da saklama işleminin daha uzun sürmesine neden olacaktır.
· Aynı şekilde, bu ambarlardaki veriler üzerinde çalışan raporların, önce eski hale getirilmesinden dolayı bir maliyet oluşturacaktır.
· Bu iki durum göz önüne alınarak sıkıştırma işlemine karar verilmelidir.

Sıkıştırma Algoritmaları Seçimi

· Veri sıkıştırmada kullanılan algoritma ve yöntemlerin, veri ambarlarında kullanılabilmesi için bazı özelliklerin bilinmesi gerekir.
· Örneğin bazı algoritmalar sıkıştırma işleminde uzun zaman alırken, açma işleminde çok kısa zaman almaktadırlar. ( LZ, Canonical Huffman gibi)
· Veri ambarlarında saklanan veriler, eğer üzerinde rapor, analiz, mining gibi işlemler ile kullanılacak ise, belirtilen özelliklerde algoritmaların kullanılması daha verimli olacaktır.
· Eğer sadece arşivleme amaçlı kullanılacak ise, sıkıştırma oranına bakılarak bir seçim yapılmalıdır.

Compression - Mining

· Veri Sıkıştırma, Veri Madenciliğinde “Data Preprocessing” konusu içinde değerlendirilir.
· Sıkıştırılmış bir veri üzerinde mining algoritmalarının çalışabilmesi için, verinin açılmış(decompression) olması gerekir. Sıkıştırılmış veri üzerinde kısıtlı sayıda mining işlemi yapılabilmektedir.
· Sıkıştırmanın, kayıpsız olarak yapılması birçok mining algoritması için gerekli bir şarttır.

Mining - Compression

· Bir başka bakış açısıyla mining, var olan verileri işleyerek bilgi haline getirmesiyle verilerin boyutunu küçülterek özet haline getirmektedir. Buradaki boyut azalımı bir bakıma sıkıştırma olarak değerlendirilebilir.
· Ama mining ile bilgiyi veriye dönüştürme imkanı tam olarak olmadığı için sıkıştırmadan bahsedilmeyebilir. ( Kayıplı sıkıştırma )
· Aynı şekilde Veri Madenciliği ile istenildiği takdirde özellik azaltma yapılabildiğinden, burada da bir sıkıştırmadan bahsedilebilir.
· Veri madenciliği ile oluşturulan cluster, karar ağacı, bağıntı kuralı yapıları ile verinin sıkıştırılmasından söz edilebilir.

Oracle Experience

Pages

04 January 2008

What Is the Benefits of Data Compression In Datawarehouses and Data Mining?