Veri İşleme ve Manipülasyon Teknikleri – Temiz, Anlamlı ve Hazır Veri ile Güçlü Modellerin Temeli
Süre: 2 gün (toplam 12 saat – 6 saat/gün)
Düzey: Orta – Python bilgisi olan başlangıç ve orta seviye kullanıcılar için uygundur
Eğitim Türü: Uygulamalı (Pandas, NumPy, Scikit-learn kullanılarak)
🗓 1. Gün: Veri Okuma, Anlama ve Temel Manipülasyon Teknikleri
📍 Modül 1: Veri ile Tanışma ve Keşifsel Veri Analizi (EDA) (1.5 saat)
-
Yapısal ve yapısal olmayan veri türleri
-
CSV, Excel, JSON ve veri tabanı bağlantılarından veri okuma
-
pandas.DataFrame
yapısı, sütun/indeks işlemleri -
.info()
,.describe()
,.value_counts()
gibi temel keşif yöntemleri -
Veri yapılarının uygunluğu ve modelleme açısından önemi
📍 Modül 2: Eksik ve Aykırı Verilerle Başa Çıkma (1.5 saat)
-
Eksik veri türleri: NA, null, NaN, özel işaretli değerler
-
Eksik veri tespiti ve görselleştirme (
missingno
,seaborn
,matplotlib
) -
Silme, sabit değer doldurma, istatistiksel doldurma yöntemleri
-
Outlier tespiti: Z-skoru, IQR, boxplot analizi
-
Uygulamalı örnekler: Eksik ve aykırı değer stratejilerinin karşılaştırılması
📍 Modül 3: Değişken Dönüşümleri ve Veri Tipleri (1.5 saat)
-
Kategorik verilerin sayısal hale getirilmesi: Label Encoding vs One-Hot Encoding
-
Sayısal verilerde log, root, box-cox dönüşümleri
-
Tarihsel verilerin ayrıştırılması: tarih-saat, yıl, ay, gün, hafta
-
Boolean, kategorik, ordinal veri yönetimi
-
Python uygulamaları: Encoding karşılaştırması ve görsel analiz
📍 Modül 4: Uygulamalı Proje I – Veri Temizliği ve Formatlama (1.5 saat)
-
Ham bir veri setiyle uçtan uca veri hazırlama
-
Eksik değerlerin doldurulması, yeni sütunlar oluşturma
-
Değişken türlerinin dönüşümü
-
Örnek proje: Müşteri davranışı veri seti üzerinde veri temizliği ve görselleştirme
-
Pandas + Matplotlib ile rapor üretme
🗓 2. Gün: Derinlemesine Ön İşleme ve Model Hazırlığına Veri Hazırlama
📍 Modül 5: Veri Standardizasyonu ve Normalizasyon Teknikleri (1.5 saat)
-
Ölçekleme ihtiyacı: Neden normalize ederiz?
-
Min-Max Scaling, StandardScaler, RobustScaler
-
Feature-wise normalization ve batch scaling farkı
-
Uygulamalı karşılaştırma: Doğrusal modellerde ölçeklemenin etkisi
-
Scikit-learn Pipeline ile otomatik ön işleme
📍 Modül 6: Özellik Seçimi ve Boyut Azaltma Teknikleri (1.5 saat)
-
Korelasyon analizi ve yüksek korelasyonlu değişkenlerin etkisi
-
Varyans eşiği ile filtreleme
-
SelectKBest, Recursive Feature Elimination (RFE)
-
PCA (Principal Component Analysis) ve uygulamalı görselleştirme
-
Uygulama: 30’dan fazla özelliği olan veri setinde azaltma deneyi
📍 Modül 7: Veri Zenginleştirme (Feature Engineering) (1.5 saat)
-
Yeni değişken oluşturma (örneğin: oranlar, farklar, kategorik kombinasyonlar)
-
Binning (aralıklandırma), Bucketing, Quantile kategorileştirme
-
Text verilerde temel ön işleme: kelime sayımı, metin uzunluğu
-
Domain-knowledge tabanlı türetme örnekleri
-
Python uygulaması: Perakende veri setinden yeni özellik çıkarımı
📍 Modül 8: Uygulamalı Proje II – Model Hazırlığı için Uçtan Uca Veri Hazırlama (1.5 saat)
-
Karmaşık veri setiyle uçtan uca veri işleme süreci
-
Hedef değişken analizi, outlier ve eksik verilerle mücadele
-
Encoding, ölçekleme, yeni özellik üretimi
-
Scikit-learn Pipelines ile model öncesi hazır veri üretimi
-
Ön işleme setinin .pkl (pickle) olarak dışa aktarımı
🎓 Eğitim Sonunda Katılımcılar:
-
Veriyi analiz edebilecek, temizleyebilecek ve dönüştürebilecek yetkinliğe ulaşır
-
Gerçek dünya veri setleri üzerinde eksiksiz ön işleme uygulamaları yapabilir
-
Modelleme öncesinde veriye yönelik stratejik kararlar alabilir
-
Sklearn, Pandas ve NumPy ile temel veri hazırlama akışlarını rahatlıkla uygulayabilir
📦 Katılımcıya Sunulanlar:
-
Eğitim slaytları (PDF)
-
Uygulamalı Notebook dosyaları (Jupyter)
-
Örnek veri setleri (CSV formatında)
-
Katılım belgesi (opsiyonel)
-
Ek okuma ve uygulama kaynak listesi
Değerlendirmeler
Henüz değerlendirme yapılmadı.