Yükleniyor

Aramak İçin Tıkla

Endüstri 4.0 Teknoloji

Big data Nedir?

Big Data kavramını şu şekilde açıklayalım; teknolojinin her geçen gün ilerlemesi, internetin hızlı gelişmesi ile günümüzde dijital ortamda bilgilerin, verilerin önemi büyük ölçüde arttı. Bu doğrultu da dijital ortamlarda bir çok kavram “bilgi kirliliği” olarak anılmakta. Bu kirlilikten anlamlı verilerin çıkabileceğini düşünen bazı yazılım şirketleri araştırmalarını bu alana yönelterek Big Data olarak adlandırılan kavramı ortaya çıkarttılar.

Big Data (Büyük Veri) Bileşenleri

Big Data (Büyük Veri) nin oluşumunda 5 bileşen vardır. Bu bileşenler sırasıyla; variety, velocity, volume, verification ve value ‘dir. Genel olarak 5v şeklinde adlandırılmaktadır.

Variety (Çeşitlilik): Variety kavramı farklı formattaki verileri temsil eder. Örneğin; coğrafi veri, 3D veri, ses ve video ve günlük dosyalar, sosyal medya gibi veriler. Tüm bu içeriklere bakıldığı zaman verilerin tek tipte olduğunu söylemek mümkün değildir.

Velocity (Hız): Big data üretimi her geçen gün hızına hız katmakta ve bu veriler saniyede inanılmaz boyutlara ulaşmaktadır. Örneğin, New York borsası her bir seansta 1 terabyte’lık ticari bilgiler içeren veri elde etmektedir. Hızlı büyüyen veri, o veriye muhtaç olan işlem sayısının ve çeşitliliğinin de aynı hızda artması sonucunu ortaya çıkartmaktadır ve hem yazılımsal hemde donanımsal olarak bu yoğunluğu kaldırabilmeliyiz.

Volume (Veri Büyüklüğü): Verinin miktarını temsil eder. Tipik bir bilgisayarın 2000 yılında 10 gigabayt depolama kapasitesi vardı. Bugün, Facebook her gün 500 terabayt yeni veri besliyor. Yani yüzlerce terabayt veriniz varsa verileriniz Big Data olma yolunda ilerliyor diyebiliriz.

Verification (Doğrulama): Bu kadar hızlı büyüyen verilerin akışı sırasında gelen verilerin güvenli olup olmadığını kontrol etmemiz gerektiği durumlarda da bir diğer veri bileşeni olarak Verification (Doğrulama) görülebilir. Bu veri doğru kişiler tarafından görülebilir veya saklı kalması gerekiyor olabilir.

Value (Değer): Belkide en önemli katmanlardan bir tanesi de “Değer” katmanıdır, verilerimiz yukarıdaki veri bileşenlerinden filtrelendikten sonra büyük verinin üretimi ve işlenmesi katmanlarında elde edilen verilerin şirketimiz için artı değer sağlıyor olması gerekiyor.

Big Data Kullanım Alanlarına Örnekler

İşletme: Müşteri analizi, dağıtım ve lojistik optimizasyonu, müşteri kişileştirme gibi durumlarda kullanılmaktadır.

Perakende Satış: İşçi geliri optimizasyonu, mağaza davranış analizi, müşteri ilişkileri analizi, ürün çeşitliliği ve fiyat optimizasyonu gibi durumlarda kullanılmaktadır.

Kamu: Verilere erişebilirlik sağlama, gizlilik ve şeffaflık oluşturma, uygun ürün ve hizmetler için eylem uygulama, risk ve sahtekarlığı azaltma gibi durumlarda kullanılmaktadır.

Teknoloji: Gerçek zamanlı analiz, hızlı cevap üretme, işlem süresini azaltma, riskleri azaltma konusunda otomatik sistemler ile karar verme gibi durumlarda kullanılmaktadır.

Eğitim: Eğitim sistemlerinin programlanması, öğrenci analizi, ders planlaması gibi durumlarda kullanılmaktadır.

Kişisel Konum Verileri: Bölgeye göre reklam hedefleme, akıllı yönlendirme, acil müdahale gibi durumlarda kullanılmaktadır.

Sağlık: Hastalık tespiti, hasta kontrolü, kişisel DNA analizi gibi durumlarda kullanılmaktadır.

Peki nedir bildiğimiz Relational DB’den farkı?

Relational DB’de veri bütünlüğü (Atomicity, Consistency, Isolation, Durability) dikkate alınarak çalışıldığı için Big Data çözümlerine göre çok daha yavaş çözümlerdir. Ayrıca relational DB’de gigabyte seviyelerinde işlem yapılırken Big Data ile petabyte seviyelerinde veri tutulmaktadır. Big Data çözümleri, dağıtık dosya sistemine* göre çalıştığı için veri bütünlüğü kuralları geçerli değildir. İlişkisel veritabanlarındaki gibi bir tablo yapısı olmadığı için veriler bütünleşik (denormalize) olarak saklanmaktadır. Çünkü büyük verinin tutarlılık (Consistency), müsaitlik (Availability) ve parçalanma payı (Partition tolerance) kurallarının hepsini sağlaması mümkün olmadığından bir kaç tane verinin doğru olmaması ya da kaybolması, veri büyüklüğünü dikkat aldığımızda önemli değildir. Bu nedenle, büyük veriyi dikey ölçeklemeyle çok pahalı olarak saklamak yerine, basit donanımların dağıtık dosya sistemleri ile birleşimi sonucu çok ucuza saklama yöntemi, büyük veri çözümlerini (NoSQL, Hadoop vs.) doğurmuştur. Bu veri çözümlerinden günümüzde en çok bilinenleri NoSQL – not only sql-  çözümleridir. NoSQL çözümlerinin hepsinin farklı bir amacı vardır. Bu nedenle direk karşılaştırmak doğru bir yöntem değildir, kullanacağınız amaca göre kendinize uygun olanı seçmelisiniz. Örneğin; MongoDB az veri ekleme çok veri okuma işlemi için uygun iken, Redis çok yazma, çok okuma olan ve veri kaybının geri planda olduğu bir sistem için tercih edilmelidir, Hadoop ise çok çok büyük veri ile kısa sürede işlem yapmanız gerektiğinde kullanılmalıdır.

Tagler