BÜYÜK VERİNİN ANALİZİ VE GÖRSELLEŞTİRİLMESİ

tarihinde yayınlandıVeri Analizi içinde yayınlandı
Facebooktwittergoogle_plusredditpinterestlinkedinmail

CITIES2

.43.000 yerleşim noktası ile oluşturulan Dünya haritası

 

Doç. Dr. Coşkun KÜÇÜKÖZMEN   @ckucukozmen

 

GİRİŞ

Teknolojinin ilerlemesi, internetin gelişmesi ve sosyal medya devrimi sayesinde bilginin gücünün öne çıkması iş yapma şeklimizi radikal bir şekilde gözden geçirmemizi ve konvansiyonel yapı ve yöntemlerden hızla uzaklaşmamızı gerektiriyor. Firmalar bir adım öne geçebilmek için fark yaratmak zorunda ve bunun için  en ufak bir bilginin bile ne kadar önem taşıdığı anlaşılmış durumda. Peki, bu kadar değerli olan bu veriler nasıl oluşuyor?

Aslına bakarsanız bu veriler iş yapma süreçleri içinde artık rutin olarak oluşuyor. Hatta biz hergün bunun bir parçası oluyoruz. İnternet kullanırken yaptığımız her tıklama çok önemli bir veri. Bunun dışında çevrelerinden sürekli veri toplayan aygıtlar giderek yaygınlaşıyor. Bu uygulamaların gelecekte daha yaygın olacağı kesin ve şimdiden bazı otomobiller sürüş istatistiklerini toplamaya başladılar bile. İşte bütün bunlar, finansal veriler, medikal veriler, hepsi birleştiğinde Büyük Veri yi oluşturuyor. Peki bu kadar çok veri nasıl saklanıyor?

VP-165023

Teknolojinin gelişmesi donanım fiyatlarının düşmesine sebep olduğu halde, saklanması gereken verilerin büyüklüğü ve çokluğu nedeniyle donanım maliyetlerini aşırı derecede yükseltebilir. Bu güne kadar büyüklük olçüsü olan Gigabyte (GB) Terrabyte (TB) büyüklüğündeki verileri saklayacak diskler ev kullanıcısına kadar inmişken büyük veri setleri için yeni sözcükler gerekiyor. Örneğin Twitter her gün 7 TB, Facebook 10 TB ve bazı kurumlar her gün her saat TB’larca veri saklıyor. Ancak yüksek maliyetli donanımlarla saklayabileceğimiz bu dev veriyi daha az maliyetli, basit donanımların açık kaynaklı dağıtık dosya sistemleri ile birleştirilmesiyle oluşan dev veri çözümlerinde saklamak mümkün. Yani günümüzde Büyük Veri yi saklamak bir sorun olmaktan çıkmış gibi. Peki, bu dev boyuttaki veriler nasıl işlenebilir ve içinde gizli olan bilgiler elde edilir?

Katma Değer Kaynağı Aktif Olarak Veri

Bu noktada akla şu soru gelebilir: Peki, veri nasıl değer yaratıyor ya da yaratmalı?Veriyi toplayan değil, ihtiyaca göre değerlendirebilenler bir katma değer yaratabilir. Gelişen teknolojinin imkânları ve fırsatları veri bilimlerini en aranan meslek ve insan grupları haline getirdi. Optimist Dergisi ABD’li matematikçi ChrisMcKinlay’ın evleneceği kadını bulmak için OkCupid sitesini hasıl hakladığını (hacking?) anlatırken veri analizinin önemini eğlenceli bir şekilde vurguluyor (http://www.wired.com/2014/01/how-to-hack-okcupid/). Neticede veri-bilimci olarak adlandırılan bu yeni meslek grubunu “bulunmaz Hint kumaşı” benzetmesiyle tanımlamak yerinde olacak. Harvard Business Review dergisi veri bilimciliğini“21’inci yüzyılın en seksi mesleği” olarak değerlendirirken McKinsey Global Institute, 2018’de ABD’deki 190 bin veri bilimcisi işgücü açığı öngörüyor. Bu meslek grubunun uzman açığı ile doğrudan alakalı kullanım sıkıntılarını açıklamak için şu örnek verilebilir. Gartner’ın 2013 raporuna göre ABD’deki şirketlerin yüzde 64’ü ya Büyük Veri’ye yatırım yaptı ya da yapmayı planlıyor. Ancak Büyük Veri’yi sadece yüzde 8’i verimli şekilde kullanıyor” (Optimist, Temmuz-Ağustos, 2014, sf.39).

FVP-155239

Veri Bilimi ve Veri Analitiği

Şirketler maalesef büyük veri analitiğine sıkça atıfta bulunarak katma değer ürettiklerini düşünüyorlar. Ancak uygulamada durum son derece farklı. Henüz emekleme aşamasında ve henüz verinin toplanması ve depolanmasının ötesine geçememiş durumda. Bu gidişle büyük veri yakın gelecekte etkisi azalarak yok olacak moda kavramlardan biri gibi duruyor. Artan veri hızına paralel olarak artmayan, yeterince gelişemeyen analiz yöntemleri büyük veriden ziyade büyük veri sorunlarının nasıl çözüleceğine odaklanacak.

Elde edilen verinin temizlenmesi, ayıklanması, sınıflanması oldukça önemli ve bir o kadar da uğraştırıcı. Ancak günümüz yazılım teknolojileri bu işi kolayca yapabiliyor. Ardından geçilen sorgulama süreci işin asıl para eden kısmı. Yani veriye soru sorma ve yanıtı alma maharet gerektiriyor. Söz konusu maharet başta teknik bilgi olmak üzere tüm bilim dallarından yararlanmayı gerektirebiliyor.

Büyük (Kompleks) Veriyi Terbiye Etmek

Finans sektöründen sağlığa, mobil iletişimden doğa bilimlerine kadar birçok alanda toplanan verilerle geçmişi anlamaya, geleceği de önceden görebilmeye çalışılıyor. Bu şekilde gerek yüksek kâr elde etme, gerekse felaketlerden dolayı maruz kalınabilecek zararı en aza indirmek amaçlanıyor. Büyük veri son teknoloji yazılımların pazarlama çalışmaları için tali bir yol. Gerçek bir enformatik analizi için veri büyük olabilir veya olmayabilir, genelde stratejik veri setleri sanıldığı kadar büyük değildir. Büyük veri KOMPLEKS olan veridir. Yani çinde gizli ve karmaşık ilişkiler barındırır. O halde ciddi bir analiz ve yorum yapmak için büyük veriden referans alma zorunluluğu yoktur. Önemli olan husus veriyi toplamak ve depolayabilmek değil karmaşık veri setlerinden anlamlı yorumlar çıkarabilecek ve anlamlı sonuçlar üretecek yöntem ve yazılımların geliştirilmesidir. Mevcut analiz yöntemlerinin büyük zafiyetleri var. Öyle olmasaydı bir küresel boyutta bir ekonomik ve finansal kriz yaşanır mıydı? Üzerinden yedi yıl geçmesine rağmen etkilerini her alanda görüyoruz. Hatta krizin üçüncü aşamasına girdiğimizi ve bu aşamada bizim gibi gelişmekte olan ülkelerde ciddi boyutta ekonomik durgunluklar ve kötüleşmeler olacağı dile getiriliyor.

INSAAT

Verinin Bilgiye Dönüştürülmesi

Bundan 50 yıl önce de günümüzde de enformatiğin temel problemi veriyi bilgiye dönüştürmek ve stratejik karar girdisi haline getirmek olmuştur. Zira veri hem zor elde edilen hem de dikkatle yorumlanması gereken bir hammaddedir. Veri analizinin günümüzün gelişmiş teknolojisini kullanarak daha hızlı ve etkili yapılabilmesi işin özünü değiştirmiyor. Davenport (2014) “önemli olan verinin hacmiyle büyülenmek değil, onu analiz edebilmek-onu içgörü, inovasyon ve işletme değerine çevirebilmektir” diyor. Biz de diyoruz ki, büyük veri çözümlemeyle ilgili analitik teknikler çok ileri düzeyde matematik ve istatistik bilgisi gerektiriyor, bu da söz konusu teknikleri sadece çok özel kişilerin ya da kurumların kullanabileceği ve yorumlayabileceği anlamına geliyor. Bu durum reklamı yapılan ürünlerin ve teknolojilerin yaygın kullanımını ve yararını engelliyor.O zaman akla şu soru geliyor: Bu sorun ya da durum nasıl aşılmalı?İşte bu noktada uzmanlık becerileri gerektirmeyen yazılımlardan yararlanma konusu ön plana çıkıyor. Tıpkı R ve SAS uygulamalarında olduğu gibi.

Verileri Görselleştirmek

Bu yazılımların katkısı çözümleri grafik olarak gösterebilme yeteneklerinden kaynaklanıyor. Bu grafikleri yorumlamak ileri düzeyde analitik beceriler gerektirmiyor. Konuyla ve sektörle ilgili ve makul seviyede profesyonel bilgisi olan herkes bu tür grafikleri üretme ve elde ettiği sonuçlardan analiz ve yorum yapabilme yeteneğine sahip oluyor. Böylece büyük veri veya herhangi bir veri setiyle ilgili sorun, uygun grafiklerin üretilebilmesine dönüşüyor.

DB-155318

Bugünün yazılım teknolojisi bu tür grafiklemeyi ileri düzeyde sağlıyor. Bu yaklaşıma yoğunlaşanların risk yönetiminde bir değil, birkaç adım önde olacağı kesin! Aksi takdirde günümüz uygulamaları veriyi toplama, depolama ve iletişimi üzerine yoğunlaşmış. Bu veri kütlesinden ne gibi yorumlar çıkartılabileceği yukarda değinilen uzmanlık gereksinmeleri yüzünden biraz gölgede kalmış. Yukarıda ifade edildiği üzere verinin yapılandırılması, analize elverişli hale getirilmesi ve elde edilen sonuçlardan işletmeye bir fayda sağlanması, bir değer elde edilmesi işin en önemli kısmını oluşturmaktadır.

Veri Analistleri Kritik Faktör

Söz konusu veri analistlerinin temel işlevi veriler içinde saklı olan gizemli ilişkileri yöneticinin kolayca anlayabileceği ve yorumlayabileceği bir formata dönüştürmek olacak. Bunun için en etkin yöntemin verileri çok boyutlu grafikler halinde yöneticilerin anlayabileceği şekle dönüştürmektir. Bu yaklaşım üst düzey matematik, istatistik ve enformatik becerilere olan gereksinimi de ortadan kaldıracaktır. Gerekli olan tek şey alışılan grafik tiplerinin dışındaki grafikleri (violin grafikler, radar grafikler, heatmap grafikler. matriks grafikler gibi) yorumlama becerileri edinmektir. Veri Analistleri, bu şekilde yaptıkları analizleri üst yönetim ile haberleşebilmek için ikna edici görselleştirmelere çevirmeli, gerekirse yeni iş metrikleri tanımlayarak performans ölçüm sistemlerini önerebilmelidir. Bunların yanında veri analistleri veriler ile yapılan iş arasında karar vericiye destek olacak önerileri sunabilecek işletmecilik becerilerine de sahip olmalıdır.

EXPCELIK

Geleceğin Yıldız Mesleği: Veri Analizi?

Veri görselleştirmenin dijital dünyada bir sonraki büyük şey olacağını düşünmemiz için birçok haklı nedenimiz var.  Karmaşık ve çok katmanlı zengin bilgiye bir bakışta ulaşılabilir ve görsel analiz doğru yapıldığında, gerçek zamanlı olarak sunulur ve güncellenebilir. Ayrıca, iletişimi de oldukça kolaydır. Ancak esas sorun karmaşık veri setlerinin görselleştirilmiş te olsa kimler tarafından nasıl yorumlanacağı. Yani bu tür bir yorum için ne tür bir becerinin gerektiği. Genel kabul görmüş yaklaşım veri analizi için çok üst düzeyde matematik, istatistik ve enformatik beceri ve deneyim gerektirdiği yönünde. Tabi ki tüm bu disiplinlerin tek bir kişide ya da yöneticide olması kolay değil. Bu nedenle yöneticiler ve veriler arasında bir ara yüz yani “Veri Analizi Uzmanlığı” gerekiyor.

Ücretsiz (licencefree) R yazılım Görselleştirmenin Merkezinde

Bu paragrafı CIO Dergisi’nin Nisan 2015 sayısına ayıralım. Dergide Martin Heller’in“R ile büyük veriyi harmanlamak” başlıklı bir yazısı var. Yazıda açık kaynak kodlu R programlama dili ile büyük veri üzerinde istatistikler ve grafiksel çıktılar alabilirsiniz deniliyor ve “R’nin gücü istatistiksel analizler gerçekleştirmek için aldatıcı biçimde basit gözüken çağrılarda yatıyor” deniliyor. Açık kaynak kodlu ve ücretsiz (licencefree) R yazılımı Excel ile karşılaştırıldığında R hatırı sayılır oranda daha fazla istatistik ve grafik gücüne sahip. Bilhassa özel gereksinimler için paketler ekliyorsanız formüllerle ve rakamlarla dolu bir tabloya nazaran R script’ini doğrulamak çok daha kolay deniliyor. İşin ilginç yanı R kodlarının anlaşılır bir biçimde okunabilmesi. Diğer yandan R’nin devasa gücü ve mevcut R paketlerinin çokluğu epey göz korkutucu bir öğrenme sürecini ortaya çıkartabilir. Ancak R’yi öğrenirken ve kullanırken biraz istatistiki bilgi ve birikime sahip olmanın çok faydası var. Diğer taraftan veri gorselleştirmesinde R nin bütün paketleri için bilgi sahibi olmak da gerekmiyor. Ggplot2 ve lattice gibi bazı ileri grafik paketlerini kullanmayı becermek yeterli olabiliyor.

TMAPDENSRATE

Yukarıdaki alıntıyı niçin yaptık? Zira veriye dayanan görselleştirme süreçleri için mutlaka bir model kullanmak gerekiyor. İşte bu modeli R yazılımı kullanarak oluşturmak mümkün.  Burada dikkat edilmesi gereken nokta analiz sonuçlarını doğru anlayıp, değerlendirebilen yöneticileri yetiştirmek.Ancak bu girişim kısa sürede sonuç verecek bir girişim değil. Üniversitelerin mutlaka Veri Analitiği alanına el atmaları gerekiyor. Dağınık bir yapıda da olsa bazı bölümlerden yapılacak ders ve hoca transferi ile lider bir akademisyen yönetiminde bu tür bölümlerin kurulması ve veri analistleri yetiştirmesi mümkün. Ülkemiz üniversitelerinin, buradaki hocaların ve yurtdışı bağlantılarının yeterli olduğu aşikâr, iş sadece orkestrasyona ve kolları sıvayarak işe başlamaya kalmıştır.

Sonuç Olarak Kültür Değişimi Gerekli

Neticede çok kısa sürede değişik senaryoları hızlı bir şekilde test edip, doğru soruları sorabilen, gerekirse hızlı bir şekilde yön değiştirebilen data kütlesindeki aksiyonları şirketin performansına entegre edebilen yöneticilerin yetiştirilmesi mümkün olabilecektir. Böyle bir gelişimin gerek akademik gerek iş dünyasında ciddi bir iş görme kültür değişimine neden olacağı da aşikâr. Bugün şirketlere ve CEO’lara profesyonel pencereden bakıldığında tepe yöneticilerinin (gençler dâhil) çoğunluğunun 20 yıl öncesinin yönetim anlayışı ve kültürünü halen sürdürmekte olduğu görülmekte. İşin ilginç yanı iyi eğitim almış olmalarına rağmen bu gözlem konvansiyonel anlayıştan uzaklaşmalarının zor olduğunu göstermektedir. Çözüm bilgi toplumunu yönetebilme farkındalığından geçiyor. Uzun vadede bu yeni kültürün vazgeçilmez bir rekabet avantajı haline geleceğinin görülebilmesi. Gerekli yeteneklere, yetkin ve gelişime açık yöneticilere sahip olmayan organizasyonların yaşama ve başarılı olma şansı hızla azalacak. Diğer taraftan veri bilimcilerin işletme ve finans alanında yüksek lisans ve benzeri eğitimler yoluyla yöneticiliğe giden yolda diğer bilim dallarından gelenlere oranla daha fazla şansı olacağı da bir diğer gerçek olarak karşımıza çıkmakta.

Facebooktwittergoogle_plusredditpinterestlinkedinmail