Yapay zekâ modelleri, son yıllarda yalnızca metin üretmekle kalmıyor; aynı zamanda akıl yürütme, problem çözme ve karar verme gibi karmaşık bilişsel süreçlerde de insan benzeri çıktılar verebiliyor. Bu gelişimin arkasındaki en önemli tekniklerden biri ise Chain-of-Thought Prompting. Bu yöntem, büyük dil modellerine bir soruya doğrudan cevap vermek yerine, cevaba ulaşmak için gerekli mantıksal adımları düşünerek sıralamasını öğretmeyi amaçlıyor. Peki, yapay zekâya “düşünmeyi öğretmek” gerçekten mümkün mü?
Chain-of-Thought Prompting (CoT) Nedir?
Chain-of-Thought Prompting (Düşünce Zinciri Yönlendirmesi), büyük dil modellerine (LLM – Large Language Models) yalnızca cevap değil, cevaba giden mantıksal adımları da üretmeyi öğretme tekniğidir. Bu yöntemle modelden, sonuca doğrudan ulaşmak yerine, problemi insan gibi adım adım analiz etmesi beklenir.
Klasik bir prompt örneğinde modelden şu şekilde doğrudan bir yanıt istenir:
- Soru: Bir trende 10 vagon var. Her vagonda 12 yolcu varsa toplam kaç yolcu vardır?
- Cevap: 120
Chain-of-Thought yaklaşımıyla aynı soru şu şekilde yönlendirilir:
- Soru: Bir trende 10 vagon var. Her vagonda 12 yolcu varsa toplam kaç yolcu vardır?
- Cevap: Her vagonda 12 yolcu var. 10 vagon olduğu için 12 × 10 = 120 yolcu vardır.
Buradaki temel fark, modelin sadece sonucu vermesi değil; nasıl düşündüğünü göstermesi ve bu sayede daha karmaşık görevleri daha güvenilir şekilde tamamlamasıdır. Özellikle matematiksel akıl yürütme, çok adımlı mantık problemleri ve mantıksal çıkarım gerektiren görevlerde CoT Prompting, modelin doğruluk oranını anlamlı şekilde artırabilir.
Chain-of-Thought Prompting Nasıl Çalışır?
Chain-of-Thought Prompting, bir dil modelinin yalnızca son cevabı üretmesi yerine, o cevaba nasıl ulaştığını da açıklamasını sağlar. Bu yöntem, modeli adım adım düşünmeye teşvik eder ve özellikle çok adımlı problem çözme, mantıksal çıkarım veya matematiksel hesaplama gibi görevlerde daha doğru sonuçlar elde etmeyi amaçlar.
Bu yaklaşımda modelden, sorunun çözümünü birden fazla mantıksal adıma bölerek yazması istenir. Bu yönlendirme iki şekilde uygulanabilir:
1. Zero-shot Chain-of-Thought
Hiçbir örnek verilmeden, doğrudan bir komutla modelin düşünce zinciri üretmesi sağlanır. Örneğin:
- Ali’nin 12 kırmızı ve 8 mavi kalemi var. Kırmızı kalemlerin yarısını Ahmet’e verirse Ali’nin kaç kalemi kalır? Lütfen adım adım düşünerek çöz.
Modelin yanıtı:
- 12 kırmızı kalemin yarısı 6’dır. Ali 6 kırmızı kalemi verirse geriye 6 kırmızı kalemi kalır. 8 mavi kalemi hâlâ duruyor. Toplamda 6 + 8 = 14 kalemi kalır.
- Cevap: 14
2. Few-shot Chain-of-Thought
Modele önce birkaç örnek soru ve çözüm adımı gösterilir, ardından benzer yeni bir soru çözmesi istenir. Bu, modelin kalıbı öğrenmesini ve daha tutarlı zincirler kurmasını kolaylaştırır. Özellikle karmaşık görevlerde zero-shot yöntemine göre daha başarılı sonuçlar verir.
Chain-of-Thought, modelin cevap üretirken nasıl düşündüğünü görünür kılar. Bu hem daha güvenilir çıktılar alınmasını sağlar hem de modelin açıklanabilirliğini artırır.
CoT Prompting Hangi Modellerde Daha Etkilidir?
Chain-of-Thought Prompting, yalnızca dil modeliyle değil, modelin ölçeği ile de doğrudan ilişkilidir. Özellikle büyük parametreli modeller, bu teknikte anlamlı bir fark yaratır. Bunun nedeni, bu modellerin yalnızca dili değil; aynı zamanda çok adımlı mantıksal yapıları, sayısal ilişkileri ve bağlam geçişlerini daha başarılı bir şekilde öğrenmesidir. 2022 yılında Google araştırmacıları tarafından yapılan bir çalışma, bu durumu açıkça ortaya koymuştur.
- PaLM 8B gibi orta ölçekli modeller, Chain-of-Thought yapılarını kullansa bile anlamlı bir performans artışı gösteremedi.
- Buna karşılık PaLM 62B modeli, yalnızca tek adımlık cevaplarla %17 başarı gösterirken; CoT prompting uygulandığında doğruluk oranı %58’e çıktı.
Bu fark, sadece daha fazla parametre değil; aynı zamanda modelin akıl yürütme biçimlerini temsil edebilme kapasitesiyle ilgilidir. CoT prompting, yüzeysel bilgi çağırmaktan ziyade sezgisel çıkarım ve nedensel akış üretmeyi gerektirdiği için küçük modellerde sınırlı kalır. Bu da neden CoT’un özellikle GPT-4, PaLM 2, Claude 2 gibi yüksek kapasiteli modellerde öne çıktığını açıklar.
- GPT-3.5 / GPT-4 (OpenAI): CoT yapılarıyla sorulan mantık sorularında çok daha tutarlı ve doğru yanıtlar üretebilir. Özellikle GPT-4, detaylı düşünce adımlarını daha tutarlı şekilde sürdürebilir.
- PaLM / PaLM 2 (Google): CoT prompting ile eğitildiğinde matematik, mantık ve commonsense reasoning görevlerinde önemli performans artışı gösterir.
- Claude 2 (Anthropic): Özellikle güvenlik ve şeffaflık odaklı geliştirilen bu model, adım adım akıl yürütme taleplerine daha isabetli yanıt verir.
- Gemini (eski adıyla Bard): CoT yapılarını destekler, ancak bazı sürümlerinde tutarsızlıklar gözlemlenmiştir. Geliştirme süreci devam etmektedir.
- Mistral, DeepSeek, LLaMA gibi açık kaynak modeller: CoT performansları, model büyüklüğüne ve nasıl fine-tune edildiklerine göre değişir. Özellikle instruction-tuned versiyonlarında daha başarılıdırlar.
CoT prompting, modelden sadece bir çıktı değil; bir düşünce süreci üretmesini bekler. Bu da:
- Daha fazla bağlam tutma kapasitesi,
- Karmaşık mantıksal yapıları çözebilme yeteneği,
- Dilin yapısal ve anlamsal inceliklerini işleyebilme gücü gerektirir.
Bu yetenekler, küçük modellerde genellikle yeterli düzeyde gelişmemiştir.
Chain-of-Thought Kullanımının Sınırları ve Zorlukları
Chain-of-Thought Prompting, özellikle karmaşık görevlerde modelin performansını artırsa da her durumda ideal sonuçlar vermez. Bu yöntemin etkili olabilmesi için hem modelin kapasitesine hem de kullanılan prompt yapısına dikkat edilmelidir. Aksi takdirde “düşünce zinciri” yarar sağlamaktan çok hataya neden olabilir.
Model Kapasitesi Sınırlıysa Etkisi Azalır
CoT prompting, belirli bir bilişsel karmaşıklık seviyesini simüle etmeyi amaçlar. Ancak küçük veya eğitimi zayıf modeller, akıl yürütme zincirlerini doğru şekilde sürdüremez. Sonuçta:
- Ara adımlar yüzeysel ya da hatalı olabilir,
- Çözüm süreci mantıksal olarak tutarsız hale gelebilir.
Tutarsızlık ve Halüsinasyon Riski
Dil modelleri, bazen sonuca giden düşünce adımlarını uydurabilir. Bu duruma “halüsinasyon” denir. Özellikle açık uçlu sorularda veya sayısal hassasiyet gerektiren görevlerde:
- Model mantıklı gibi görünen ama gerçekte yanlış olan adımlar kurabilir,
- Her adım doğru olsa bile nihai sonuç hatalı olabilir.
Aşırı Uzun veya Karmaşık Zincirler Verimsizleşebilir
Bazı görevlerde düşünce zinciri uzadıkça:
- Model bağlamı kaybedebilir,
- Gereksiz tekrarlar oluşabilir,
- Cevap üretimi yavaşlar veya yanlış yöne sapar.
Bu durum özellikle uzun context window’lu modellerde bile dikkat edilmesi gereken bir faktördür.
Prompt Kalitesine Bağımlılık
CoT prompting’in etkili olabilmesi için iyi yapılandırılmış örnekler gerekir. Özellikle few-shot CoT uygulamalarında:
- Yanlış seçilmiş örnekler modelin düşünme şeklini bozabilir,
- Örneklerdeki mantık hataları, yeni sorulara da yansıyabilir.
Her Görev için Uygun Değildir
CoT, en çok mantık ve hesaplama gerektiren görevlerde etkilidir. Ancak:
- Bilgi çağırma (fakt retrieval),
- Dil üretimi (metin tamamlama, özetleme gibi),
- Duygu analizi gibi görevlerde ekstra düşünce adımları modeli gereksiz yere yavaşlatabilir ve doğruluğu artırmayabilir.
Sonuç olarak Chain-of-Thought güçlü bir tekniktir, ancak her durumda uygulanabilir değildir. En iyi sonuç; doğru model, uygun görev tipi ve iyi tasarlanmış prompt birleştiğinde elde edilir.