Tüm Merak Edilenleriyle: Convolutional Neural Network (CNN)

İÇİNDEKİLER

1. Convolutional Neural Network Nedir?
2. ConvNet Nasıl Çalışır?
3. CNN ve RNN Farkları

Convolutional Neural Network Nedir?

Görsel verilerin analizinde uzmanlaşmış bir derin öğrenme mimarisi olan convolutional neural network (CNN); nesne tanıma, süreç otomasyonu ve transfer learning gibi kritik alanlarda yüksek performanslı çözümler sunmaktadır. Okumaya devam ederek convolutional neural network nedir, nasıl çalışır, RNN ile farkları nelerdir ve ne gibi faydalar sağlar, sorularının cevabını bulmanız mümkün.

ConvNet nedir sorusuna en basit haliyle şu yanıt verilebilir: Convolutional Neural Network (CNN), özellikle görüntü, video ve görsel desen içeren verileri analiz etmek için geliştirilmiş bir derin öğrenme mimarisidir. Geleneksel Fully Connected (Tam Bağlantılı) ağların aksine bu mimari, veriyi bütünsel bir vektör olarak değil; öznitelik haritaları (feature maps) üzerinden yerel korelasyonları baz alarak işler. CNN mimarisini ayıran temel yetkinlik; girdi verisindeki düşük seviyeli (kenar, köşe) ve yüksek seviyeli (doku, nesne parçası) öznitelikleri, hiyerarşik katmanlar aracılığıyla otomatik olarak filtreleyebilmesidir. Bu sayede bir kedi fotoğrafını sadece renk değerlerine bakarak değil; önce çizgileri, sonra kulakları, gözleri ve en sonunda “kedi” kavramını öğrenerek tanımlar. Mimari merkezindeki "Convolution" (Evrişim) katmanı, belirli boyuttaki kernel (çekirdek) filtrelerin girdi matrisi üzerinde kaydırılmasıyla (stride) matematiksel bir öznitelik çıkarımı gerçekleştirir. Her filtre, belirli bir özelliği yakalamaya odaklanır. Giriş katmanları düşük seviyeli görsel öznitelikleri yakalarken, ağ derinleştikçe öznitelik haritaları daha kompleks ve soyut semantik temsillere dönüşür.

CNN yapılarında sıklıkla kullanılan bir diğer bileşen ise "pooling" katmanlarıdır. Pooling, görüntüden elde edilen özellik haritalarını özetleyerek boyutu küçültür. Bu işlem hem hesaplama maliyetini düşürür hem de modelin küçük konum değişikliklerine karşı daha dayanıklı olmasını sağlar. Özetle Convolutional Neural Network’ler, insan görme sistemine benzer şekilde çalışır: Önce küçük detayları algılar, sonra bu detayları birleştirerek büyük resmi anlamlandırır. Bu özellikleri sayesinde yüz tanıma, nesne tespiti, tıbbi görüntü analizi ve otonom araç sistemleri gibi pek çok alanda temel teknoloji haline gelmiştir.

CNN nedir, sorusuna verilen cevaba ek olarak bu sistemin nasıl çalıştığına dair ipuçlarını da ilerleyen bölümlerde öğrenebilirsiniz.

ConvNet Nasıl Çalışır?

ConvNet’lerin çalışma mantığı, bir girdiyi ham haliyle alıp onu, giderek daha anlamlı temsil katmanlarına dönüştürmeye dayanır. Bu süreçte model, neye bakması gerektiğini önceden bilmez; doğru özellikleri eğitim sırasında kendisi öğrenir. İşlem akışı şu şekildedir: Giriş katmanında (input layer) ham görüntü verisi, her biri piksel yoğunluğunu temsil eden çok boyutlu bir matris (tensor) olarak tanımlanır. Bu aşamada görüntü, model için yalnızca bir matristir. Ardından devreye convolution katmanları girer. Bu katmanlarda kullanılan küçük filtreler, görüntü üzerinde kaydırılarak uygulanır ve her uygulama sonucunda bir özellik haritası oluşturulur. Her özellik haritası, belirli bir desenin görüntü içindeki varlığını temsil eder. Evrişim katmanından elde edilen çıktılar, modele non-lineer (doğrusal olmayan) karakteristik kazandırmak amacıyla genellikle ReLU (Rectified Linear Unit) gibi bir aktivasyon fonksiyonundan geçirilir. Bu sayede ağ, karmaşık ve doğrusal olmayan veri örüntülerini yüksek doğrulukla modelleme yeteneği kazanır. Böylece sistem, sadece basit desenleri değil, daha karmaşık görsel ilişkileri de ayırt edebilir. Sonraki aşamada pooling katmanları devreye girer. Pooling, özellik haritalarının boyutunu küçülterek en baskın bilgiyi korur. Bu yöntemle modelin uzamsal değişimlere (spatial invariance) karşı toleransı artırılırken, hesaplama yükü optimize edilir ve overfitting (aşırı öğrenme) riski azaltılır. Bu convolution ve pooling döngüsü birden fazla kez tekrarlandıkça model, basit kenar ve çizgilerden başlayarak, giderek daha karmaşık yapılara odaklanır. En derin katmanlarda artık şekil, nesne veya sahne gibi yüksek seviyeli kavramlar öğrenilmiş olur.

Öznitelik çıkarımı tamamlandıktan sonra elde edilen veriler düzleştirilerek (flattening), sınıflandırma kararının verildiği tam bağlantılı (Fully Connected) katmanlara iletilir. Bu katmanlar, öğrenilen özellikleri birleştirerek nihai kararın verilmesini sağlar. Örneğin bir görüntünün hangi sınıfa ait olduğu bu noktada belirlenir. Kısacası ConvNet’ler, veriyi ham piksellerden alıp anlamlı ve ayırt edici temsillere dönüştürerek çalışır. Bu yapı, modelin hem yüksek doğrulukla öğrenmesini hem de yeni veriler üzerinde genelleme yapabilmesini mümkün kılar.

ConvNet’in çalışma süreci özetle şu adımlardan oluşur:

Giriş katmanına görüntü veya görsel veri aktarılır.
Convolution katmanları, görüntü üzerindeki yerel desenleri tespit eder.
Aktivasyon fonksiyonları, modele doğrusal olmayan öğrenme yeteneği kazandırır.
Pooling katmanları, özellik haritalarının boyutunu küçültür ve en önemli bilgiyi korur.
Bu katmanlar tekrarlanarak daha karmaşık görsel özellikler öğrenilir.
Öğrenilen özellikler tam bağlantılı katmanlara aktarılır.
Çıkış katmanında nihai sınıflandırma veya tahmin yapılır.

CNN ve RNN Farkları

Evrişimsel Sinir Ağları (CNN) ve Yinelemeli Sinir Ağları (RNN) arasındaki temel farkları aşağıdaki karşılaştırma tablosunda inceleyebilirsiniz. İşte, karşınızda CNN ve RNN farkları!

Özellik	CNN (Convolutional Neural Network)	RNN (Recurrent Neural Network)
Temel Amaç	Görsel ve uzamsal verilerdeki desenleri ve özellikleri tespit etmek	Sıralı ve zamana bağlı verilerdeki ilişkileri öğrenmek
Veri Türü	Görüntü, video kareleri, görsel matrisler	Metin, ses, zaman serileri
Çalışma Mantığı	Veriyi yerel bölgelere ayırarak filtreler üzerinden analiz eder	Önceki adımlardan gelen bilgiyi hatırlayarak ilerler
Bağımlılık Yapısı	Uzamsal bağımlılıklara odaklanır	Zamansal bağımlılıklara odaklanır
Hafıza Mekanizması	Geçmiş bilgiyi doğrudan saklamaz	Önceki girdileri belleğinde tutabilir
Paralel İşleme	Yüksek paralel işlem kapasitesine sahiptir	Sıralı yapı nedeniyle paralel işlem sınırlıdır
Yaygın Kullanım Alanları	Nesne tanıma, yüz tanıma, görüntü sınıflandırma	Dil modelleme, konuşma tanıma, makine çevirisi