Data PreProcessing & Data Visualisation with R Software Training

Data PreProcessing & Data Visualisation with R Software Training

Veri madenciliği yönteminin herhangi bir çerçevede çıkardığı bilginin performansı ve kalitesi, yalnızca yöntemin tasarımına ve performansına bağlı olmakla kalmaz, aynı zamanda bu verilerin kalitesine ve uygunluğuna da bağlıdır. Ne yazık ki, gürültü, eksik değerler, tutarsız ve gereksiz veriler ve örneklerde ve özelliklerde büyük boyutlar gibi olumsuz faktörler, bilgiyi öğrenmek ve çıkarmak için kullanılan verileri oldukça etkilemektedir. Düşük kaliteli verilerin düşük kaliteli bilgiye yol açacağı iyi bilinmektedir. Başarılı bir veri ön işlem aşamasının uygulanmasından sonra, elde edilen nihai veri seti daha sonra uygulanan herhangi bir veri madenciliği algoritması için güvenilir ve en uygun bir kaynak olarak kabul edilebilir.

Veri ön işleme, verileri, her bir veri madenciliği algoritması tarafından ortaya konan gereksinimlere uyarlayabilmekte, aksi halde uygun olmayan verilerin işlenmesini mümkün kılmamaktadır.

Klasik istatistiksel uygulamalar ve veri madenciliği arasındaki en temel farklılık, veri kümesinin büyüklüğüdür. Bir istatistikçi için ‘büyük’ veri kümesi birkaç yüz veya bin veri içerir. Veri madenciliği ile uğraşan birileri için ise milyon veya milyarlık veri beklenmeyen bir sayı değildir. Bu tip büyük veri tabanları gerçek hayatta sıkça ortaya çıkmaktadır.

Veri madenciliğinde veri kümesinin büyüklüğünden kaynaklanan en fazla zaman alıcı aşama, verilerin ön işlemden geçirilmesi aşamasıdır. Bir veri projesinin %80’i veriyi toplamak ve analize hazır hale getirmektir. Kalan %20′ lik kısım ise analizdir.

Veri ön işleme çok fazla verinin bulunduğu veritabanı veya veri ambarlarındaki verileri analiz aşamasında önce istatistiksel olarak sağlıklı hale getirmeye amaçlamaktadır. Veriyi sağlıklı hale getirmek, eksik, yetersiz, tutarsız, aykırı özellikleri taşıyanları belirleyip uygun yöntemlerle bu sorunları çözüm bulmanıza yardımcı olacaktır.

Veri Bilimi yolculuğunuzun ilk adımı dediğimiz “Data PreProcessing & Data Visualisation with R Software Training” eğitimi ile Büyük Veri Ekosistemine korkusuzca adım atarak analitik teknolojinin getirdiği yenilikleri keşfederek, analitik yetkinliklerinizde fark yaratacağınızı düşünüyoruz.

Eğitim Programının Amacı

Günümüzün gerçek dünya verileri genellikle büyük olmaları, dağıtık olmaları ve heterojen veri kaynaklarından dolayı gürültülü verilerle, ya da unutulmuş verilerle ya da tutarsız veriler içermeye yatkındır. Tüm bunlar sonuçta verinin kalitesini düşüren unsurlardır. Düşük kalitede veri de düşük kalitede mining sonuçlarına yol açar.

Veriler verilerin kalitesini arttırmak için ve sonuç olarak mining in kalitesini arttırmak için nasıl bir işlemden geçmeli? ya da Veriler veri madenciliği sürecinin etkinliğini ve kolay olmasını arttırmak için nasıl bir ön işlemeden geçmelidir sorularının tüm cevapları bu eğitimin temel amacını taşımaktadır.

Eğitim Programının İçeriği
1. R İntrouction
  • paket yapısı
  • paketlerin nasıl araştırılacağı
  • paket ve çalışma alanı yönetimi için gerekli fonksiyonlar
  • R IDE leri
  • R STUDIO arayüzü
  • nesne yönetimi için gerekli fonksiyonlar
  • nesne ismi verme
  • operatörler
  • R’da özel sayılar
  • Uygulama
2. Data Storage
  • R’ da nesne tipleri
  • vektör
  • Matris
  • Array
  • frame
  • List
  • Factor
  • time series
  • bütün neslelerde subsetting
  • Uygulama
3.1.Basic Data Management
  • Değişken oluşturma
  • Değişken recoding basic ve paketlerle( within fonksiyonu, plyr, doBy, car paketleri ile)
  • Missing values – (missing value belirleme, R’da na action ları, modellerde na action farklılıkları –  regresyon icin – , tablolarda NA kullanımı, paketler ile NA örüntüsü ve görseleştirilmesi)
  • sorting data
  • R’da date values
  • type conversions
  • merging datasets
  • subsetting datasets
  • sql statements
  • Uygulama
3.2. Fuction
  • for
  • while
  • if else
  • switch
  • user defined functions
  • Uygulama
3.3. Mapping Function
  • apply
  • lapply
  • sapply
  • Uygulama
4. Basic Statistic
4.1. Base ve farklı paketlerde tanımsal istatistikler
4.2. Contingency tables
 4.3. Correlation
 4.4. Zaman Serileri
5. Input & Output
  • R’a veri çekme
  • Uygulama
6. Basic Graphics
  • R’da graph devices, grafik parametreleri, base paket ile temel grafikleri oluşturma, lattice ve ggplot2 farklı, grafikleri kaydetme
  • Uygulama
7. Reporting
  • R’da pivot table
  • R tablolarını MsWord’a aktarma
  • Uygulama
8. Data Visualisation

ggplot2 ve plotly ile interaktif grafik Uygulamaları

Hedef Kitle

Risk analizi konusunda çalışan yönetici ve uzmanlar, risk yönetimi uzman ve yöneticileri, analistler, aktüerler, sigorta uzman ve yöneticileri, karar destek uzman ve yöneticileri, risk analistleri, iş analistleri, finansal model geliştiriciler, tahmin uzmanları, tasarım mühendisleri, sistem mühendisleri, stratejik analistler, pazar ve müşteri analistleri, ekonomistler, akademisyenler ve öğrenciler

Bu eğitim sektöre özel değildir, veri sorunu olan her sektörden katılıma uygundur.

Donanım Gereği

Katılımcıların R Programlama Dili bilgisinin olması gerekmemektedir. Katılımcılara gerekli bütün programlar ve veri setleri USB’ye yüklenmiş olarak verilecektir.

Katılımcıların kişisel bilgisayarlarını birlikte getirmeleri gerekmektedir. Tercihen windows tabanlı bir bilgisayarın yanınızda olması daha uygun olacaktır.

Ön Kayıt İçin 

Bu eğitim bireysel ve genel katılıma açık bir eğitimdir.

http://datalabtr.com/index.php/kayit-formu/

Kurumsal Eğitim paketlerimizin süreleri Şirketlerin ihtiyacı ve  talebi doğrultusunda değişkenlik göstermekte.

Details

Starts On

2018-12-08 - 09:00

Ends On

2018-12-09 - 17:00

Event Categories

Data PreProcessing

Event Tags

#DataAnalytics, #DataLabTraining, #DataViz, DataLabTResearch, DataPreprocessing

Venue

Titanic City Hotel

Lamartin Cad. No 47 Taksim
Istanbul
Turkey
34437
P: 212 238 90 90