ChatGPT Nasıl Eğitiliyor?

Bir yapay zeka modelinin sıfırdan kullanıma hazır hale gelmesi, aylar süren ve milyonlarca dolar maliyetli bir süreç. İşte bu yolculuğun detayları.

Aşama 1: Veri Toplama

İnternetin Tamamı

Büyük dil modelleri, internetin önemli bir kısmıyla eğitilir:

Kaynak	Boyut
Common Crawl	60TB+ metin
Wikipedia	20GB
Kitaplar	10GB+
Kod (GitHub)	50GB+
Akademik makaleler	10GB+

Toplam: Trilyonlarca kelime

Veri Temizliği

Ham veri doğrudan kullanılamaz:

Duplicate Removal: Tekrar eden içerikleri çıkar
Quality Filtering: Düşük kaliteli metinleri ele
Decontamination: Test verilerini ayır
Language Detection: Dil bazlı ayırma

Temizlik sonrası veri, orijinalin %10-20'sine düşebilir.

Aşama 2: Tokenization

Metni Sayılara Çevirmek

Bilgisayarlar kelimelerle değil, sayılarla çalışır.

"Merhaba dünya" → [15339, 42392]
"Hello world" → [9906, 1917]

BPE (Byte Pair Encoding)

En yaygın tokenization yöntemi:

Her karakter bir token
En sık yan yana gelen çiftleri birleştir
Vocabulary boyutuna ulaşana kadar tekrarla

Sonuç: 50.000-100.000 unique token

Aşama 3: Pre-training

Next Token Prediction

Modelin temel görevi basit:

Verilen metin dizisinde, sıradaki kelimeyi tahmin et.

Girdi: "Bugün hava çok"
Hedef: "güzel"

Bu basit görev, milyarlarca örnek üzerinde tekrarlandığında, model dili "anlamaya" başlıyor.

Hesaplama Kaynakları

GPT-4 boyutunda bir model için:

Kaynak	Miktar
GPU (A100/H100)	10.000-25.000
Eğitim süresi	3-6 ay
Elektrik	Megawatt'larca
Maliyet	$50-100M+

Loss Fonksiyonu

Model ne kadar iyi öğreniyor?

Cross-Entropy Loss = -Σ log(P(doğru_token))

Bu değer düştükçe, model daha iyi tahmin yapıyor.

Aşama 4: Fine-tuning

SFT (Supervised Fine-Tuning)

Pre-trained model ham haliyle kullanışlı değil. İnsan etiketli örneklerle eğitilir:

Soru: "Python'da liste nasıl oluşturulur?"
Cevap: "Python'da liste oluşturmak için köşeli parantez kullanabilirsiniz: my_list = [1, 2, 3]"

Veri Miktarı

Pre-training: Trilyonlarca token
Fine-tuning: Milyonlarca örnek
RLHF: Yüzbinlerce karşılaştırma

Aşama 5: RLHF

İnsan Geri Bildirimi ile Öğrenme

En kritik aşama. Model, insanların tercihlerini öğrenir.

Süreç:

Model 2 farklı yanıt üretir
İnsan değerlendirici birini seçer
Bu tercihler bir "reward model" eğitir
Ana model, reward'ı maksimize edecek şekilde güncellenir

PPO (Proximal Policy Optimization)

RLHF'de kullanılan algoritma:

Modelin çok hızlı değişmesini engeller
Stabil öğrenme sağlar
Reward hacking'i minimize eder

Aşama 6: Değerlendirme

Benchmark'lar

Test	Ölçtüğü
MMLU	Genel bilgi
HumanEval	Kod yazma
GSM8K	Matematik
TruthfulQA	Doğruluk

Red Teaming

Güvenlik testleri:

Zararlı içerik üretme denemeleri
Jailbreak testleri
Bias (önyargı) analizi

Maliyet Özeti

GPT-4 Tahmini Maliyetler

Kalem	Maliyet
Hesaplama	$50-80M
Veri hazırlama	$5-10M
İnsan etiketleme	$10-20M
Değerlendirme	$2-5M
Toplam	$70-120M

Zaman Çizelgesi

Ay 1-2: Veri toplama ve temizleme
Ay 3-5: Pre-training
Ay 6: Fine-tuning
Ay 7: RLHF
Ay 8: Değerlendirme ve güvenlik
Ay 9+: Deployment

Sonuç

ChatGPT gibi bir model:

Trilyonlarca kelimeyle eğitilir
Milyarlarca parametre içerir
Aylar sürer
Milyonlarca dolar maliyetlidir

Ve tüm bu sürecin sonunda elde edilen şey: size saniyeler içinde yanıt verebilen bir sistem.

Teknolojinin bu noktaya gelmesi, onlarca yıllık araştırmanın ve milyarlarca dolarlık yatırımın sonucu.

ChatGPT ve Büyük Dil Modelleri Nasıl Eğitiliyor?