Nitelikli
- Bağlantıyı al
- X
- E-posta
- Diğer Uygulamalar
Elelemler ve bilinç
LLM’ler ve Bilinç
Yapay zeka, makine öğrenmesi, derin öğrenme gibi gündelik yaşama çok daha fazla sirayet eden kelimelerden artık felsefenin çoğu alt disiplini için kaçınılmaz hale gelmiştir. Haliyle insan benzeri ses/cümle üretimi de ortaya çıkınca pek çok mecrada LLM’lerin bilinçli olacağı ifadeleri yer almaya başladı. Bu yazıda yapay zeka makine öğrenmesi derin öğrenme gibi konuların üzerinden geçip daha sonra bilinçle ilgili temel sezgiyi verip ana iddiam olan LLM’lerin bilinçli olamayacağından bahsedeceğim.
Yapay zekaların temeli aslında nöron ağlarına dayanmaktadır. Nöron ağları da, adından da anlaşılacağı üzere, nöronlardan oluşan yapılardır. Bu nöronların işlevi kulağa geldiğinden çok daha basittir. Liseden hatırlayacağınız üzere bir doğru denklemi vardır: ax + b. İşte bir nöron tam olarak bunu yapar. Elindeki inputu alır, bir katsayıyla çarpar, üzerine bir sabit ekler ve bir sonraki katmana iletir. Bu kadar. Gerisi bu işlemin milyonlarca, hatta milyarlarca kez tekrarlanmasından ibarettir.
Peki bu nöronları bir araya getirince ne olur? Onlarca nöronu yan yana koyduğunuzda bir layer (katman) oluşturursunuz. Her nöron aynı inputu alır ama farklı ağırlıklarla (a ve b değerleriyle) işler. Yani bir katmanda 64 nöron varsa, aynı input 64 farklı şekilde dönüştürülür ve bir sonraki katmana 64 farklı değer iletilir. Bu katmanları üst üste koyduğunuzda ise derin nöral ağ (deep neural network) elde edersiniz.
Her input için bir katsayı ile çarpım vardır, bir de üzerine bias (b) eklenmesi vardır. Bunlar toplanınca katmanları oluşturur. Gördüğünüz üzere her input bir nörona (veya nöronlara yani layer'a) giriyor ve ax + b sonucu olacak şekilde işlemden geçiyor, output olarak önümüze sunuluyor.
Eğer her şey ax + b ise, yani doğrusal bir işlem ise, kaç katman koyarsanız koyun yine sonuçta doğrusal bir fonksiyon elde edersiniz. İki doğrusal işlemi üst üste koyarsanız yine doğrusal bir işlem elde edersiniz. Bu durumda milyonlarca nöronun hiçbir anlamı kalmaz. İşte burada devreye aktivasyon fonksiyonları giriyor. Aktivasyon fonksiyonu, nöronun çıktısını doğrusal olmayan bir biçime sokar. En çok kullanılanlardan biri ReLU (Rectified Linear Unit)'dur ve yaptığı şey şaşırtıcı derecede basittir: eğer değer sıfırın altındaysa sıfır yap, üstündeyse olduğu gibi bırak. ReLU (Rectified Linear Unit) aktivasyon fonksiyonu, biyolojik nöronlar arasındaki sinaptik iletim mekanizmasıyla çarpıcı bir benzerlik gösterir; her iki sistem de aslında birer "eşik değeri" mantığıyla çalışır. Sinapslarda, gelen elektrokimyasal sinyal belirli bir aksiyon potansiyelini aşmadığı sürece bir sonraki nörona aktarılmazken, ReLU fonksiyonu da negatif girdileri tamamen sıfırlayarak baskılar ve yalnızca belirli bir eşiği (sıfırı) geçen pozitif değerlerin sistemde akmasına izin verir. Bu durum, yapay zekadaki matematiksel modellerin, doğadaki "ya hep ya hiç" prensibini taklit eder gibi görünmektedir. Aşağıdaki resimde de sinaps görülmektedir.
Görselde 1 nöronun akson ucundan (axon terminal) salınan nörotransmiterlerin sinaptik boşluğu geçerek komşu nöronun dentrit (alıcı gibi düşünün) reseptörlerine ulaşma süreci net bir şekilde görülmektedir. Bu süreçte kalsiyum kanallarının tetiklenmesiyle sinaptik veziküllerden boşaltılan kimyasallar, karşı tarafta yeterli uyarımı sağladığında elektriksel ileti bir sonraki hücreye aktarılmış olur.
Şimdi gelelim 1 modelin nasıl öğrendiğine. Model’lerin nasıl çalıştığını örnek üzerinden anlatıcam çünkü canım öyle istiyor :D Elimizde 20 hastanın kilosu, boyu ve yağ oranı olsun, toplamda 3 input. Biz de bu özelliklerden hastanın yaşını tahmin etmeye çalışıyoruz. Layerımıza (nöronlarımıza) kişinin kilosu, boyu, yağ oranı, 3 tane input giriyor ve tek bir output çıkıyor. İlk hastanın verilerini aldınız ve modelden geçirdiniz, sonuç 26 çıktı. Ama o kişinin gerçek yaşı 23. İşte burada loss function devreye giriyor. Loss function, modelinizin ne kadar yanıldığını ölçer. Bu örnekte 3 puanlık bir hata var. Model bu hatayı kullanarak "hangi ağırlık bu hataya en çok katkı yaptı?" sorusunu sorar ve backpropagation algoritmasıyla tüm a ve b değerlerini günceller. Bu güncelleme, gradient descent adı verilen bir yöntemle yapılır: hata fonksiyonunun en dik iniş yönünde küçük adımlarla ilerlenir.
Yukarıda örnek nöron gösterdim ama görsel şölen olması için böyle de devam ediyim dedim :XDD kilo boy ve yağ oranları input olarak giriyor sonra layerlara bunları katsayı ile çarpıp biasekliyor sonra acitvation functiona sokuyor. (Hepsini çizmedim)
Bu adımın büyüklüğünü belirleyen şeye learning rate denir. Çok büyük adımlar atarsanız model hiçbir zaman doğru noktaya oturmaz, sürekli savrulur. Çok küçük adımlar atarsanız model öğrenir ama inanılmaz yavaş öğrenir. Learning rate, modelin eğitiminde dikkat edilmesi gereken en kritik hiperparametrelerden biridir.
Devamında diğer hastalar için de aynı işlemi yaptınız ve 20 hastadan 16'sını kullanarak modeli eğittiniz ve yani modeli bu girdilerden yaş çıktısı verecek şekilde nöronlardaki ağırlıkları güncellediniz diyelim. Geriye kalan 4 kişi ise test seti olarak ayrılmıştır, model bu 4 kişiyi hiç görmemiştir. 4 kişiden 3'ünün yaşını doğru tahmin ederken 1'inin yaşını yanlış tahmin ettiniz. Modelinizin doğruluk oranı 3/4, yani %75. Evet, bu kadar. Derin öğrenme modelleri de böyle çalışır, hatta LLM'ler bile. Klasik makine öğrenmesinde, mesela karar ağaçları ya da destek vektör makineleri (SVM) gibi yöntemlerde, veriden hangi özelliklerin önemli olduğunu büyük ölçüde siz belirlersiniz. Buna feature engineering denir. Ama derin öğrenmede bu özellikleri model kendisi öğrenir. Ona ham piksel verisi verirsiniz, "kedi var mı?" diye sorarsınız, model zamanla hangi piksel kombinasyonlarının kediyi ifade ettiğini kendi bulur.
Hatta kendi deneyimlerimden yola çıkmak gerekirse; EEG ile çalışırken makine öğrenmesi algoritmalarında alfa, beta, teta dalgalarını ayrıştırmak istiyoruz ve bunun için belirli frekans aralıkları dışındaki dalga boylarını eliyoruz (çünkü EEG sinyallerine göz hareketleri gibi gürültülerin de karıştığını biliyoruz). Lakin bazı veri setlerinde (ki bizim ana konumuzla ilgili literatürde başı çekenlerden) hiç ön işlemeye maruz kalmadan doğrudan derin öğrenme modellerine giren ham verilerin daha iyi doğruluk (accuracy) oranı verdiğini görüyoruz.
Gelelim LLM’lere cipiti kılaud kingolara.
Klasik sinir ağlarında durum şudur: her input birbirinden bağımsız kabul edilir, örneğin yukarıda yazdığım üzere kişilerin yağ oranı kilosu boyu zartı zurtu hepsi ayrı ayrı işlem görür. Ama dil öyle değildir. "Bugün hava çok güzel, dışarı çıkmak..." cümlesinde, boşluğa gelen kelime önceki kelimelere bağlıdır. Klasik bir sinir ağı bu bağlamı tutamaz, her kelimeye ayrı ayrı bakar. RNN'ler bu problemi çözmek için geliştirilmiştir. 1 RNN, her adımda hem mevcut inputu hem de bir önceki adımdan gelen gizli durumu (hidden state) birlikte işler. Yani bir tür "hafıza" vardır, o nöronlara 1 önceki işlenmiş input da girer. "Bugün hava çok güzel" cümlesini işlerken "güzel" kelimesine geldiğinizde, model sadece "güzel" kelimesine bakmaz, daha önce "bugün hava çok" gördüğünü de bilir. Ama RNN'lerin çok ciddi bir problemi vardır: vanishing gradient. Cümle uzadıkça, backpropagation sırasında hatanın başa kadar taşınması gerekir. Ama bu süreçte gradyanlar katman katman çarpılarak geriye gidilir ve çok küçük sayıların sürekli çarpımı sonucunda gradyan neredeyse sıfıra yaklaşır. Yani model, cümlenin başındaki bilgiyi zamanla "unutur". Çok uzun bir cümlede başta geçen özneyi cümlenin sonunda hatırlayamaz. Bu sorunu çözmek için LSTM (Long Short-Term Memory) ve GRU (Gated Recurrent Unit) mimarileri geliştirilmiştir. LSTM, modele "neyi hatırlayacağını" ve "neyi unutacağını" kontrol eden kapı mekanizmaları ekler. Matematiksel detaya girmeden söylemek gerekirse: LSTM, uzun vadeli bağımlılıkları RNN'den çok daha iyi öğrenebilir. Ama yine de sınırları vardır ve büyük ölçekte eğitmek hem yavaş hem de maliyetlidir. 2017 yılında Google'dan bir grup araştırmacı, tarihi değiştiren bir makale yayımladı: "Attention Is All You Need". Bu makale, Transformer mimarisini tanıttı ve LLM'lerin temelini attı. Transformer'ın temel iddiası şuydu: RNN'lere gerek yok, sıralı işlemeye gerek yok. Her şeyi paralel olarak işleyebiliriz ve yine de bağlamı yakalayabiliriz. Bunun için kullanılan mekanizma ise self-attention yani öz-dikkat mekanizmasıdır. Self-attention şunu yapar: bir cümledeki her kelime, aynı cümledeki diğer tüm kelimelerle ne kadar ilişkili olduğunu ölçer. "Kedim bugün eve koşarak geldi" cümlesinde "geldi" kelimesi işlenirken model, "kedim", "bugün", "eve", "koşarak" kelimelerinin her birine ne kadar dikkat etmesi gerektiğini öğrenir. Ve bu ilişkiyi öğrenmek için her kelimeye üç vektör atanır: Query (Q), Key (K) ve Value (V). Q, "ne arıyorum?", K, "ben neyim?", V ise "bulunursan ne sunacaksın?" sorusuna karşılık gelir. Q ile K'nın iç çarpımı, o iki kelimenin birbirine ne kadar dikkat etmesi gerektiğini verir. Bu dikkat skorları normalize edilir ve V vektörleriyle ağırlıklı ortalama alınır. Ortaya çıkan şey, her kelimenin cümlenin geri kalanından ne öğrendiğini temsil eden yeni bir vektördür.
https://youtu.be/nZrZOI0oRuw?si=VMQx31nmqyG2lQNJ videodan aldım. Görüldüğü üzere RNN’ler veriyi sıra sıra (ardışık) işlerken, Transformer mimarisinde her kelimenin diğer tüm kelimelerle olan ilişkisi "Self-Attention" mekanizması sayesinde aynı anda ele alınır. RNN düzeninde bir sonraki kelimeyi işlemek için önceki kelimelerin hesaplanmasının bitmesini beklemek zorunluyken, Transformer yapısında tüm kelime çiftleri arasındaki bağlar birbirinden bağımsız şekilde analiz edilebilir. Bu durum, devasa işlem gücü gerektiren paralel hesaplamayı (eş zamanlı işlemeyi) mümkün kılar; yani çok kaba bir tabirle, sistemin bir bölümü birinci kelimenin diğerleriyle ilişkisini çözerken, aynı anda başka bir bölümü ikinci veya üçüncü kelimenin ilişkilerini hesaplayabilir.
Peki LLM'ler nasıl bu kadar anlamlı cümleler üretebiliyor? Cevap: sonraki kelimeyi tahmin etmek. Evet, temel görev bu kadar basit. "Kedim bugün eve koşarak..." verildiğinde modelden bir sonraki kelimeyi tahmin etmesi isteniyor. Model "geldi" yerine "uyudu" tahmin ederse, gerçek kelime ile tahmin arasındaki fark hesaplanıyor ve backpropagation ile tüm ağırlıklar güncelleniyor.
İnternet üzerindeki milyarlarca kitaptan, makaleden ve forumdan süzülen devasa bir veri yığınıyla beslenen GPT-3 gibi modeller, yaklaşık 300 milyar token (kelime parçacığı) üzerinde eğitilerek dilin ötesinde bir yetkinlik kazanır; öyle ki bu ölçekte "bir sonraki kelimeyi tahmin etme" görevi, zamanla mantık yürütme, çeviri yapma ve kod yazma gibi karmaşık yetenekleri birer yan ürün olarak doğurur. Bu sürecin teknik mutfağında ise kelimelerin modele girebilmesi için önce "tokenization" işlemiyle sayısal kimliklere (ID) dönüştürülmesi, ardından bu ham sayıların "embedding" adı verilen ve 768 ile 12288 boyut arasında değişen yüksek boyutlu vektörlere çevrilmesi yatar. Bu boyutsal uzayda kelimeler sadece sayısal birer karşılık değil, anlamsal ilişkiler bütünüdür; bu sayede "kral - adam + kadın = kraliçe" gibi meşhur vektörel hesaplamalar, kelimelerin birbirine yakınlığı üzerinden matematiksel bir gerçekliğe dönüşür.
Peki LLM'ler hiç mi şaşırtıcı değil diye sorabilirsiniz. Elbette epey şaşırtıcı. Çünkü diğer derin öğrenme mimarilerinde olduğu gibi burada da neden ağırlıkların o şekilde olması veya kelimelerin neden bu şekilde encode edilip çalışıyor olması garip. Ama bu gariplik aslında bütün derin öğrenme modelleri için geçerli, ister görüntü sınıflandırma için kullanılan ResNet olsun, ister ilk büyük CNN başarısını gösteren AlexNet olsun, ister EEG sinyallerini işleyen EEGNet olsun. Hepsinde aynı muamma var: milyonlarca ağırlık gradient descent ile güncelleniyor ve sonunda ortaya gerçekten çalışan bir şey çıkıyor. Neden o ağırlık değerleri? Neden başka türlü değil? Cevap yok.
LLM'lerde bu garipliğin özel bir boyutu daha var: word embedding'ler. Kelimeleri yüksek boyutlu vektörlere dönüştürdüğünüzde, model eğitim sonrasında bu vektörler arasında son derece tutarlı geometrik ilişkiler öğreniyor. "Paris - Fransa + İtalya = Roma" hesabı vektör uzayında gerçekten çalışıyor. Ama bunu modele kimse öğretmedi. Model sadece "bir sonraki kelimeyi tahmin et" yaparken bu geometrik yapıyı kendiliğinden inşa etti. Üstelik attention head'lere baktığınızda bazılarının dilbilgisel özne-nesne ilişkisini takip ettiğini, bazılarının ise eş anlamlı kelimelere odaklandığını görüyorsunuz. Bunlar tasarlanmış özellikler değil, eğitimin yan ürünleri.Hatta modellerin ve beyindeki nöronların nasıl çalıştığı, katmanlarda (layer) hangi özelliklerin benzediği ile ilgili çalışmalar bile mevcut. Örneğin, görsel korteksi modelleyen derin ağların ilk katmanları, tıpkı bizim nöronlarımız gibi temel kenar ve köşe detaylarını yakalıyor. Sadece CNN değil pek çok derin öğrenme/nöron benzerliği mekanizma üzerinden gidilen çalışma var. En son BrainRNN adı geçen 1 makaleye denk geldim lakin içine tam bakamadım :D.
Lakin burada gördüğünüz hiçbir konu, yazının devamında felsefi bağlamda ele alacağımız "fenomenal bilinç" (yazıda bilinç ile fenomenal bilinci, tam karşılığı olmasa da birbirinin yerine kullanacağım) ile doğrudan bir bağ kurmamaktadır. Bahsi geçenlerin hepsi aslında daha iyi sonuç almak ve sistemi maksimize etmek için çözülen teknik sorunlardır. Yazının devamındaki asıl argümanımda bu ayrım daha net anlaşılacaktır; şimdilik yapay zekanın teorik olarak kafanızda yer etmesi kafi. "Peki, bu modellerin 'woaw' dedirtecek sonuçlar vermesini sağlayan asıl şey nedir?" diye soracak olursanız cevap basit: Optimizasyonlar ve mimari değişiklikler :D . Bazen bir aktivasyon fonksiyonunun değiştirilmesi, bazen yapıya bir katman daha eklenmesi (ki sadece 2 konvolüsyon katmanı ekleyerek %10’a yakın accuracy artışı yakaladığım veri setleri var :D) veya eğitim verisinin daha rafine hale getirilmesi sonucu belirliyor. Yani tüm bu süreç aslında matematiksel olarak daha tutarlı ve "doğru" olmaya yönelik hamlelerden ibaret. Elbette bu durum LLM’lerin yaptıklarının etkileyici olmadığı anlamına gelmiyor; aksine bana sorarsanız CNN’den RNN’e, LSTM’den GNN’e kadar tüm bu mimariler farklı alanlarda inanılmaz sonuçlar veren, kendi başlarına çok ilginç yapılar.
Bilinç
Analitik felsefe geleneği içerisinde bilinç (consciousness) kavramını ele aldığımızda, karşımıza çıkan şey sıradan terminolojik tanımlamanın çok ötesindedir. Burada kastettiğimiz şey, tıbbi ya da klinik anlamdaki "uyku-uyanıklık" hali değildir; bütünüyle fenomenal bilinç, yani doğrudan doğruya öznel deneyimin ta kendisidir. Thomas Nagel'ın o sarsıcı ve belki de 20. yüzyılın en önemli felsefe makalelerinden biri kabul edilen "What Is It Like to Be a Bat?" (1974) adlı çalışmasında ifade ettiği üzere: Eğer bir sistem için "o şey olmak nasıl bir şeydir?" (what it is like to be that system) sorusunu sorabiliyorsak, o sistem bilinçlidir. Bu, kırmızının o özgün ve benzersiz kırmızılığını görmekten, keskin bir acının içsel niteliğine, taze ekmek kokusunun bizi çocukluğumuza gönderen o tarifi imkânsız duyguya kadar uzanan geniş bir yelpazeyi kapsar.
Ama bu tanım, sorunu çözmüyor; aksine, sorunun ne denli derin olduğunu gözler önüne seriyor. Çünkü şunu sormamız gerekiyor: Bu öznel boyutun, bu "nasıl bir şey olduğunun" kendisi nedir? Nereden gelir? Fiziksel dünya ile ilişkisi nasıldır? Neden var olur? Ve belki de en rahatsız edici olanı: Bu soruların cevabını verebilecek bir yöntemimiz var mıdır? İşte bu sorular, modern analitik zihin felsefesinin en büyük sorunlarından 1ini (bence en büyük sorunu) oluşturur. Bilinç meselesi, yalnızca bir felsefe problemi değildir; aynı zamanda nörobilim, bilişsel bilim, fizik, matematik ve hatta teoloji ile kesişen bir sınır bölgesidir. Bu metinde, söz konusu sorunsalı olabildiğince geniş bir felsefi ve bilimsel çerçevede ele alacağız.
Önce şunu belirtmek gerekir: Bilinç sözcüğü günlük dilde bile birden fazla anlam taşır. Birisi "bilincini yitirdi" dediğimizde tıbbi bir uyanıklık halinden söz ederiz. "Sınıf bilinci" derken sosyolojik bir farkındalıktan bahsederiz. "Vicdanlı davranmak" dediğimizde ise ahlaki bir öz-değerlendirmeden söz etmiş oluruz. Analitik felsefede ise bilinç çoğunlukla fenomenal bilinç anlamında kullanılır ve bu, en gizemli olan türdür. Fenomenal bilinç, bir şeyi yaşarken o yaşamın öznel, iç, birinci şahıs boyutunu ifade eder. Bilim insanları bir beyin taraması yapıp hangi nöronların ateşlendiğini görebilirler; ama bu ateşlenmelerin eşlik ettiği öznel deneyimi, o kırmızılık hissini, o acı duygusunu, o neşe kıvılcımını doğrudan ölçemezler. İşte bu uçurum, bilincin felsefedeki yerini bu denli özel kılar.
Bilinç tartışmalarında David Chalmers'ın 1995 yılında "Facing Up to the Problem of Consciousness" adlı makalesinde ve ardından kaleme aldığı "The Conscious Mind" (1996) kitabında getirdiği ayrım, felsefi sezgilerimizi netleştirmek için bugün hâlâ kritik bir referans noktası olmaya devam etmektedir. Chalmers, bilinç etrafındaki sorunları iki büyük kategoriye ayırdı: kolay problemler (easy problems) ve zor problem (the hard problem).
Kolay problemler, adından da anlaşılacağı üzere, çözülemez oldukları için değil, prensipte nasıl çözülebileceği kabaca belli olduğu için "kolay" sıfatını alır. Bu problemler şunları kapsar: Öğrenme, bellek ve bilginin raporlanması nasıl gerçekleşir? Organizma çevresine nasıl tepki verir? Dikkat nasıl yönetilir? Uyku ile uyanıklık arasındaki geçişler nasıl kontrol edilir? Niyetli davranışlar nasıl gerçekleştirilir? Bu soruların hepsine, uygun bir nöral ya da hesaplamalı mekanizma keşfedildiğinde prensipte tatmin edici bir açıklama getirilebilir. Nörobilimdeki ilerlemeler, bu işlevlerin sinir sistemi tarafından nasıl yerine getirildiğine dair her geçen on yılda daha kapsamlı bir tablo çizmektedir. Bu problemler "kolay" olmaktan ziyade son derece karmaşıktır; ama bunları kolay yapan şey, açıklama stratejisinin belirli olmasıdır: İşlevi gerçekleştiren mekanizmayı bul, problemi çözdün gibimsi.
Zor Problem şunu sorar: Neden ve nasıl beynimizdeki fiziksel süreçler öznel bir deneyime yol açar? Tüm kolay problemleri çözdüğünüzü varsayın; beynin her nöronunun nasıl ateşlendiğini, hangi sinyal yollarının hangi işlevleri yerine getirdiğini, uyaranlara tepki mekanizmalarını eksiksiz biçimde haritalandırdığınızı falan düşünün. Peki bu noktada hâlâ cevaplanmamış bir soru kalır mıydı? Chalmers'a ve diğer hard problem savunucu kingolara göre evet. Neden bütün bu fiziksel ve işlevsel süreçler karanlıkta, deneyimsiz bir şekilde gerçekleşmiyor da içsel bir ışık eşliğinde, bir öznel yaşamla birlikte gerçekleşiyor? Başka bir deyişle, neden bu işlevlerin yerine getirilmesi sırasında bir şeyler hissediliyor,öznel deneyim ortaya çıkıyor?
Bu sorunun rahatsız edici gücünü tam kavramak için şu düşünce deneyini göz önünde bulundurun: İki insan düşünün, Ahmet ve Mehmet. İkisi de aynı beyine, aynı nöronlara, aynı sinyal ağlarına sahip. İkisi de kırmızı bir nesneye baktığında tam olarak aynı nöral aktivasyon örüntüleri oluşuyor ve davranışları da çevresel koşullarına ve genetiklerine göre aynı. Ama Ahmet kırmızının kırmızılığını deneyimlerken Mehmet hiçbir şey hissetmiyor; içi boş, deneyimsiz bir işlemci gibi çalışıyor. Chalmers bu tür varlıklara "felsefi zombiler" (philosophical zombies) adını verir. Bu zombiler fiziksel olarak bizimle özdeştir (özdeştir derken fiziksel anlamda yani aynı dalga boyunu zartı zurtu işliyoruz hesaaaabı), ama fenomenal deneyimden yoksundurlar. Chalmers'a göre böyle bir zombi dünyasının en azından mantıksal olarak kavranabilir olması, fenomenal bilincin salt fiziksel betimlemelerden türetilemeyeceğini gösterir. Çünkü eğer fiziksel açıklama her şeyi kapsasaydı, zombi dünyası mantıksal olarak imkânsız olurdu; tıpkı H₂O olmaksızın su dünyasının imkânsız olması gibi.
Chalmers bu argümanı daha da derinleştirerek şunu savunur: Kolay problemler için mekanizma sorusunu cevaplamak yeterlidir, ama zor problem için bu yeterli değildir. Zira burada sorulan şey, mekanizmanın ne olduğu değil, mekanizmanın neden deneyimle ilişkilendirildiğidir. Bir renk işleme mekanizmasının nasıl çalıştığını anlasak bile, bu mekanizmanın neden kırmızıyı o kendine özgü kırmızılıkla deneyimlememize yol açtığını açıklamış olmayız. Bu açıklama boşluğu, modern felsefenin ve nörobilimin önündeki en büyük engeldir.
Daniel Dennett gibi düşünürler (iksdi :DX), "zor problem" diye gerçek bir problemin olmadığını, sadece yanlış bir sezginin ürünü olan bir yanılsama olduğunu öne sürmüştür. Dennett'e göre "kolay" problemleri gerçekten çözdüğümüzde bilinç hakkında söylenecek her şeyi söylemiş oluruz; geriye 1 "zor problem" kalmaz. Bu bakış açısına göre öznel deneyim hissi, evrimsel ve bilişsel süreçlerin bize sunduğu bir yanılsamadır ve onu ayrıca açıklamaya gerek yoktur. Ancak bu yanıt, çoğu felsefeci ve sıradan insana tatmin edici gelmemiştir. Çünkü Dennett'in açıklaması, problemi çözmekten ziyade onu inkâr ediyor gibi görünmektedir. Problemi inkâr etmek ile gerçekten çözmek arasındaki bu gerilim, bilinç felsefesini bugün de canlı tutan temel gerilimdir. patricia ve paul churchland kingolar da benzer hatalara düşmekte de daha yazasım gelmedi.
Fizikselcilik (physicalism) aleyhindeki en etkili ve akılda kalıcı düşünce deneyi, Frank Jackson'ın 1982'de kaleme aldığı "Epiphenomenal Qualia" makalesinde ortaya attığı Mary kurgusuyla zirveye ulaşır. Bu düşünce deneyi, o günden bu yana felsefe literatüründe onlarca makale ve kitabın konusu olmuş, bilinç tartışmalarının merkezine yerleşmiştir.
Mary, siyah-beyaz bir odada büyümüş nörobilimci bir dehadır. Dışarıyla yalnızca siyah-beyaz ekranlar aracılığıyla iletişim kurar; hiçbir zaman renkli bir şey görmemiştir. Bununla birlikte, görme bilimi, optik, nörobiyoloji ve renklerle ilgili dünyadaki tüm fiziksel bilgilere sahiptir. Hangi dalga boylarının retinayı nasıl uyardığını, koni hücrelerinin nasıl tepki verdiğini, görsel korteksin renkli uyaranlara nasıl yanıt ürettiğini, insanların kırmızı gördüklerinde hangi nöral devrelerin aktive olduğunu eksiksiz biçimde bilmektedir. Kısacası, renk görmeyle ilgili söylenebilecek her fiziksel şeyi biliyor.
1 gün Mary odasından çıkıp ilk kez kırmızı bir elma görüyor. Jackson'a göre bu anda Mary yeni bir şey öğreniyor: Kırmızının nasıl göründüğü, yani kırmızının fenomenal niteliği, qualia'sı. Odadayken tüm fiziksel bilgilere sahipti. Dışarı çıktığında yeni bir gerçeklik öğrendi. O hâlde fiziksel gerçeklikler tüm gerçeklikleri kapsamaz. Bu, bilgi argümanının özüdür ve sonucu şaşırtıcıdır: Fizikselcilik yanlışsa, fenomenal bilgi, fiziksel bilgiye indirgenemez. Dünyada yalnızca fiziksel olgular değil, aynı zamanda fenomenal olgular da vardır.
Burada "qualia" kavramına ayrıca odaklanmak gerekir. Qualia (tekili: quale), bir deneyimin öznel, niteliksel boyutunu ifade eder. Acının o keskin yanması, masmavi bir gökyüzünün o berraklığı, bir müzik parçasının tiz sesinin kulakta oluşturduğu o titreşim hissi -> bunların hepsi qualia'dır. Qualia'lar üçüncü kişi bakış açısından, yani nesnel bilimsel yöntemlerle, gözlemlenemez. Bir nörobilimci beyninizdeki her aktivasyonu ölçebilir, ama kırmızıyı gördüğünüzde ne hissettiğinizi doğrudan bilemez; en fazından bunu size sorabilir veya çıkarımda bulunabilir.
Jackson'ın argümanına karşı çeşitli fizikselci yanıtlar geliştirilmiştir ve bunların her biri kendi içinde tutarlı ve düşündürücüdür. Birincisi, "Yetenek Hipotezi"dir (Ability Hypothesis). Lawrence Nemirow ve David Lewis tarafından savunulan bu görüşe göre Mary dışarı çıktığında yeni bir "olgu" öğrenmemiş, sadece yeni bir "yetenek" kazanmıştır: Kırmızıyı tanıma, hayal etme ve hatırlama yeteneği. Bu yaklaşıma göre fenomenal bilgi aslında bir "how-to knowledge"dır; yani bir şeyi nasıl yapacağını bilme türünden bir bilgidir, yeni bir olgunun farkına varma türünden bir bilgi değildir. Ama bu yanıt da tam tatmin edici değildir; çünkü Mary'nin öğrendiği şey gerçekten de yalnızca bir beceri gibi görünmüyor. Mary şunu söyleyebilir: "İşte bu kırmızı! Bu rengin böyle göründüğünü bilmiyordum." Bu ifade, yeni bir olgu keşfini işaret ediyor gibi durmaktadır.
İkinci önemli yanıt, "Fenomenal Kavram Stratejisi"dir (Phenomenal Concept Strategy). Bu yaklaşım, Mary'nin aslında eski ve fiziksel bir gerçeği, yeni bir kavram aracılığıyla öğrendiğini savunur. Ortada yeni bir "gerçeklik" yoktur; sadece aynı fiziksel gerçekliğe erişen farklı bir "öznel yol" mevcuttur. Su, H₂O'dur; ama "su" kavramı ile "H₂O" kavramı farklı bilişsel erişim yollarını temsil eder. Benzer şekilde, kırmızının sinirsel karşılığı ile "kırmızının bu şekilde görünmesi" aynı fiziksel gerçeğe iki farklı kavram kapısından yaklaşıyor olabilir. Bu yanıt, bilişsel bilim ve dil felsefesiyle derin bağlar kurar ve oldukça güçlüdür; ama yine de fenomenal karakterin neden iki ayrı kavramsal kapıya izin verdiğini açıklamak gerektiğinde zorlanır.
Jackson'ın kendisi, ilginç bir şekilde, zamanla bu argümanı geri çekmiş ve fizikselciliğe dönmüştür.
Bilinç ve doğa arasındaki bu derin gerilim, felsefecileri ve bilim insanlarını farklı metafiziksel konumlara taşımıştır. Chalmers, bu konumları sistematik biçimde altı temel sınıfa ayırır: Tip A'dan Tip F'ye uzanan bu yelpaze, modern bilinç felsefesinin tüm ana damarlarını kapsar.
Tip A Materyalizm, bilincin "zor bir problem" olduğu iddiasını doğrudan reddeder. Bu görüşe göre, fenomenal iddiaların ilave bir metafiziksel açıklama gerektirmediğini, tüm bilinci anlatan soruların uygun bir işlevsel ya da nöral mekanizma bulunduğunda yanıtlanabileceğini savunur. Daniel Dennett bu görüşün en güçlü savunucusudur. Ona göre "qualia" ve "fenomenal bilinç" gibi kavramlar, yanıltıcı sezgilerimizin ürünüdür ve bizi gerçekte olmayan bir probleme yönlendirmektedir. Dennett'in "heterofenomenoloji" yöntemi, bilinci üçüncü şahıs perspektifinden, insanların kendi deneyimlerine ilişkin söylediklerini inceleyerek araştırmayı önerir. Bu yaklaşım, hem en iddialı hem de sezgilere en büyük meydan okuyan konumdur.
Tip B Materyalizm, bir epistemik boşluğun varlığını kabul eder; yani fiziksel açıklamalar ile fenomenal deneyim arasında kavramsal bir uçurum olduğunu onaylar. Ancak bu epistemik boşluğun ontolojik bir boşluğa yol açmadığını savunur. Su ile H₂O, kavramsal olarak farklıdır; ama ontolojik olarak aynıdır. Benzer şekilde, bir fenomenal durum ile ona karşılık gelen nöral durum ontolojik olarak özdeş olabilir, ancak bu özdeşliği görmek için kavramsal çözümleme yetmez. Tip B materyalistlere göre bilinç hakkında tam bir açıklama mümkündür; ama bu açıklama ancak empirik araştırmalar ilerledikçe netleşecektir. Bu görüşün güçlü yanı, bilimsel araştırmanın işlevselliğini korurken metafiziksel iddiaları mütevazı tutmasıdır.
Tip C Materyalizm, Tip B'ye benzer; ama mevcut kavramsal çerçevemizin fenomenal bilinci açıklamaya yetersiz kaldığını vurgular. Bu görüşe göre, kavramsal devrimlerle — tıpkı kuantum mekaniğinin klasik fiziğin kavramsal çerçevesini alt üst etmesi gibi — bilinç problemi de çözülebilir. Ama şu an için elimizde bu devrimi gerçekleştirecek kavramlar yok. Tip C, bir anlamda "gelecekteki bilimin cevaplayacağı sorular listesine bilinç meselesini ekleyen" bir tutumu temsil eder.
Tip D Dualizm, Descartes'ın modern analitik felsefedeki mirasçısıdır. Bu görüşe göre zihin ve beden gerçekten de birbirinden farklı, indirgenemez iki tözden oluşur. Bilinç, fiziksel dünyadan bağımsız bir varlığa sahiptir. Ancak madde ile zihnin nasıl etkileştiği sorusu — klasik "etkileşim problemi" — bu görüşün en büyük açığı olmaya devam etmektedir. Deneyim, beyne nasıl etki edebilir? Beyin, deneyimi nasıl oluşturabilir? Bu sorulara tatmin edici yanıtlar üretmek güçtür.
Tip E Dualizm, epifenomenalizmi kapsar. Bu görüşe göre fenomenal bilinç gerçekten de vardır ve fiziksel olmayan bir nitelik taşır; ama nedensellik zincirinde etkin bir rol oynamaz. Deneyimler, nöral süreçlerin bir yan ürünüdür; onlar tarafından üretilir ama kendileri hiçbir şeye neden olmaz. Acı hissimiz davranışımıza neden olmaz; aslında nedensellik zincirinde yalnızca nöral süreçler rol oynar. Epifenomenalizm bu açıdan sezgilerimize açıkça aykırıdır: Acı hissettiğimde elimi geri çekmem, acının bir nedeni gibi görünmektedir; bunu salt nöral bir mekanizmanın yan ürünü olarak görmek fazlasıyla zorlamalı görünür.
Tip F Monizm, panprotopsişizm panpsişizm olarak da bilinir ve en radikal, belki de en ilgi çekici konumu temsil eder. Bu görüşe göre bilinç, ya da en azından onun temel özellikleri, fiziğin temel düzeyinde zaten mevcuttur. Maddenin en küçük yapı taşları (elektronlar, kuarklar veya daha temel düzeylerdeki varlıklar) protofenomenal ya da fenomenal özelliklere sahiptir. Bilinç, fiziksel dünyadan türemiş değil; tersine, fiziksel dünyanın temel bir bileşenidir. Bu görüş, David Chalmers'ın kendisi tarafından da ciddiye alınmakta; aynı zamanda Galen Strawson, Philip Goff gibi düşünürlerce savunulmaktadır. Aslında panprotopsişizm ve panpsişizm ille de monizm bazlı görüşler olmak zorunda değil. dualist görüşü de baz alarak panpsişist olmak gayet mümkün hatta idealist olup da benimsemek mümkün kanımca. Chalmers bu ayrımı seneler seneler önce yaptığı için çok yetersiz bir ayrım bana kalırsa lakin yer vermek istedim kingoya :D
Benim ayrımımı soracak olursanız, fizikselcilik dışı görüşlerde iç içe bulunabilme hayli yüksek geliyor o yüzden keskin ayrım çizmek zor.
Panpsişizmin güçlü yanı, bilincin evren tarihinde nasıl ortaya çıktığı sorusuna (yani "zuhur problemi"ne (emergence problem) ) zarif bir yanıt sunmasıdır. Eğer bilinç maddenin temel bir özelliğiyse, belirli bir karmaşıklık eşiğinde hiçlikten bilinç "sıçraması" gerekmiyor; bilinç zaten hep oradaydı. Ama panpsişizmin de ciddi sorunları vardır. En büyüğü, "kombinasyon problemi"dir (combination problem): Milyarlarca bilinçsiz ya da mikro-bilinçli partikülün bir araya gelmesi, nasıl birleşik, tek bir insan bilinci oluşturur? Bu soruya tatmin edici yanıt vermek son derece güçtür. Öte yandan, bir elektron için "nasıl bir şey olduğu" (what it is like to be an electron) sorusunun anlamlı olup olmadığı da tartışmalıdır. Philip goff phenomenal bond diyor lakin ontolojik kabullerde o denli artış oluyor ki gerçekten mermiyi ısırmalı mıyız emin değilim.
Tüm bu felsefi tartışmaların yanı sıra, nörobilim bilincin nöral temellerini araştırmada son yıllarda çarpıcı ilerlemeler kaydetmiştir. Bu araştırmalar, felsefi soruları çözmese de onlara (aslında kolay problemlere (zannımca)) önemli kısıtlar ve yeni bakış açıları eklemektedir.
"Bilinç korelasyonları" (Neural Correlates of Consciousness - NCC) araştırmaları, belirli bir deneyim sırasında hangi nöral yapıların aktive olduğunu belirlemeye çalışır. Örneğin, görsel bilinç için prefrontal korteks ile görsel korteks arasındaki geri-besleme bağlantılarının kritik olduğu bulunmuştur. "Bilinçli erişim teorileri" arasında Stanislas Dehaene ve Jean-Pierre Changeux'un "global çalışma alanı teorisi" (global workspace theory) öne çıkar: Buna göre bilinç, beyindeki farklı modüllerin birbirleriyle bilgi paylaşabildiği geniş bir "çalışma alanı"na bilginin yayılmasıyla oluşur. Giulio Tononi'nin "entegre bilgi teorisi" (Integrated Information Theory - IIT) ise bilinci, bir sistemin entegre ettiği bilgi miktarıyla (phi değeri) özdeşleştirir; bu teoriye göre yüksek phi değerine sahip her sistem bilinçlidir. Çoğu çağdaş analitik zihin felsefesi peypırında da teori olarak IIT karşıma çıkıyor. Çünkü panpsişizm ve işlevseclilik gibi popüler görüşler en çok böyle 1 teori ile hayata tutunabilir gibi duruyor en azından şimdiki literatürü göz önüne aldığımızda.
Bilinç araştırmalarının önündeki metodolojik güçlükler de son derece önemlidir. Bir öznel deneyimi "ölçmek" için araştırmacılar büyük ölçüde katılımcıların raporlarına güvenmek zorundadır. Ama bu raporlar, deneyimin kendisi değildir; deneyime dair sonradan dile getirilen yorumlardır. Turing testi falan da bu yüzden zattiri zort kategorisindedir lakin birazdan değineceğim.
İDDİAMAXXİNG (evet büyük i ile XDDD)
Kırmızı bir domatesin dalga boyunu tespit eden bir makineyi düşünün. Bu makine 620-750 nm (kimsikimse) aralığındaki elektromanyetik dalgayı algılar, bunu bir sayısal değere dönüştürür ve çıktı olarak "kırmızı" etiketini üretir. Sistem işlevsel olarak mükemmeldir; hiçbir hata yapmaz, kalibrasyonu bozulmaz, her koşulda aynı sonucu üretir. Şimdi şunu sorayım: bu makine için kırmızının kırmızılığı denen şey var mıdır? Yani o özgün, içeriden hissedilen, sönük değil parlak, soğuk değil sıcak, bir şekilde bu işte olan o renk deneyimi (genelde bu betimlemeleri daha iyi yaparlar da ben pek beceremiyorum :( )? qualia? Cevap açık biçimde hayırdır çünkü zaten dalga boyunu ile matematiksel yapıya sadık kalarak cevaba ulaşabilen 1 sistem için o sistemin öznel deneyime de sahip olduğunu iddia etmek ekstradan açıklama gerektirir ve burden of proof bu iddianın sahibinde olmalıdır. Dalga boyu ölçümü ile kırmızıyı görmek arasındaki uçurum tam da David Chalmers'ın "zor problem" olarak adlandırdığı şeyin merkezindedir. Hatırlarsanız kolay problem(ler) şunlardı: bir sistem kırmızıyı diğer renklerden nasıl ayırt eder, bu bilgiyi nasıl işler, nasıl tepki üretir? Bu soruların hepsi ilke olarak fiziksel-hesapsal bir açıklama çerçevesine giriyor. Zor problem ise şudur: neden bu işlemlerin gerçekleşmesi ÖZNEL 1 deneyime yol açıyor? Neden içeriden hissedilen bir şey var? Bu soruyu yanıtlamak için bilgi işleme kapasitesini artırmak yeterli değildir. Çünkü ne kadar işlem eklerseniz ekleyin, hepsi hâlâ üçüncü şahsa açık, ölçülebilir, gözlemlenebilir fiziksel süreçlerdir. Deneyimin kendisi bu çerçevenin dışında kalır.
LLM’lerde de anlattığım üzere milyarlarca parametre, milyarlarca örnek üzerinde optimize edilir. Ortaya çıkan sistem, son derece tutarlı, bağlamlı, sofistike metinler üretebilmektedir. Bu gerçekten muazzam bir mühendislik başarısıdır. Lakin burada kritik ayrımı yapmak zorundayız: mühendislik başarısı, ontolojik statü değildir. Bir sistemin ne kadar karmaşık olduğu, ne kadar tutarlı çıktılar ürettiği, hangi hesaplamaları gerçekleştirdiği; bunların hiçbiri o sistemin deneyim sahibi olup olmadığına dair doğrudan bir kanıt sağlamaz. Karmaşıklık, deneyimi garanti etmez. Tutarlı dil kullanımı, anlam deneyimini garantilemez. Ve hesaplama gücünün artması, bu uçurumu kapatmaz.
Peki bu hesaplama sürecinin içinde gerçekten ne oluyor? Bir LLM'in işlediği her şey sayısal matrislerdir. Bir kelimenin anlamı, o kelimenin vektör uzayındaki konumudur; bu konum, eğitim verisi üzerinde optimize edilmiş ağırlıkların bir fonksiyonudur. "Acı" kelimesinin vektör temsili, "zevk" kelimesinin vektör temsilinden belirli yönlerde farklıdır. Bu fark istatistiksel bir örüntüden kaynaklanır; eğitim verilerinde "acı" ve "zevk" kelimelerinin hangi bağlamlarda geçtiğine, birbirlerine göre nasıl konumlandıklarına dair hesaplanmış bir örüntüden. Modelin "acıyı anlıyor" dediğimizde kastettiğimiz şey budur: istatistiksel olarak tutarlı bağlamlarda bu kelimeyi kullanabiliyor. Ama "acı" kelimesinin vektör temsilinin, acı çekmenin nasıl bir şey olduğuna dair herhangi bir bilgi içerip içermediği tamamen farklı bir sorudur. Ve cevap: hayır, içermiyor. Çünkü o vektör, eğitim verilerindeki örüntüleri kodluyor; acının fenomenal içeriğini kodlamıyor ki zaten bu İMKANSIZ. Sisteme "acı çekiyor musun?" diye sorduğunuzda, sistem bu soruyla tutarlı bir yanıt üretecektir; ama bu yanıtın üretim sürecinde acının fenomenal içeriği hiçbir yerde devreye girmez. Girmiyor çünkü mimari buna izin vermiyor; girmiyor çünkü fenomenal içerik, sisteme hiçbir zaman input olarak sunulmadı; girmiyor çünkü sunulabilir bile değildi.
Evrim meselesine gelelim, çünkü bu tartışmada sıkça başvurulan ve görünürde güçlü bir analoji olarak kullanılan bir argümandır. Argüman şu şekilde kurulur: bilinç evrimsel süreçte ortaya çıktı, yani bir noktada olmayan bir şey oldu; LLM'ler de gelişmeye devam edecek, bir noktada benzer bir sıçrama mümkün olabilir.
Lakin bu argümanın iki ayrı sorunu var. Birincisi, ikinci kısım ilk kısımdan mantıksal olarak çıkmıyor; "X bir kez ortaya çıktı, dolayısıyla Y de ortaya çıkabilir" şeklindeki bir çıkarım, ancak X ile Y'nin aynı türden süreçler olduğu gösterilirse geçerlidir. O gösterim yapılmamış, yapılması da kolay değil. İkincisi ve daha önemlisi, birinci kısım bile sanıldığı kadar güçlü bir zemin değildir. Evrimsel süreç, hayatta kalma ve üreme avantajı sağlayan özelliklerin seçilimini açıklar. Acıya dayalı tepki mekanizmaları zararlı uyaranlardan kaçınmayı sağlar, bu hayatta kalmayı destekler, bu da seçilimle açıklanır. Ama bu mekanizmanın neden öznel bir deneyim içerdiği, neden sadece bir refleks olarak değil de içeriden hissedilen bir şey olarak var olduğu sorusu evrimsel anlatının kapsamı dışındadır. Bilinçsiz bir organizma da aynı kaçınma davranışını sergileyebilirdi; zararlı uyaranlara tepki veren, bu tepkiyi davranışa dönüştüren ve sayıca çoğalan bir organizma için fenomenal deneyimin işlevsel bir zorunluluğu yoktur.
Zombi argümanı bu noktayı tam buradan alır. Bütün işlevsel özelliklerini koruyan ama içeriden hiçbir şey hissedilmeyen bir organizma kavramsal olarak tutarlıdır. Eğer bu tutarlılık kabul edilirse, işlevsel organizasyonun bilinç için yeterli olmadığı sonucu çıkar. Ve bu sonuç, hem evrimsel argümanı hem de LLM argümanını aynı anda kesiyor gibii. Üstelik Argüman II (en aşşada var) açısından bakıldığında evrimsel süreç de bu kapalılıktan muaf değildir: mutasyon, seleksiyon, genetik sürüklenme vs. evrimsel zincirin hiçbir halkasına fenomenal içerik input olarak girmiyor. Dolayısıyla evrimde bilincin "ortaya çıkışı" hâlâ açıklanamamış bir şeydir; açıklanamayan bir şeyi referans alarak LLM'ler için benzer bir sıçrama öngörmek de makul değildir. Al 1ini vur ötekine :d
İşlevsel açıklamalara teorilere geldiğimzde: Global Workspace Theory (GWT) açısından: LLM'lerde bilgi entegrasyonu var mı? Belli ölçüde var. Higher-Order Theories açısından: sistemin kendi durumlarına dair temsilleri var mı? Tartışılır. Integrated Information Theory açısından: phi değeri hesaplanabilir mi? Belirsiz. Chalmers olasılıklar çerçevesinde konuşuyor, iddialı kesinliklerden kaçınıyor. Lakin problem metodolojinin başında. Kullanılan kriterlerin tamamı, bilinçle ilişkilendirilen işlevsel özelliklerdir. Bunlar bilincin belirtileri olabilir ama bilincin kendisi değildir. GWT'nin kurucusu Bernard Baars, global çalışma alanını bilinçli erişimin mimari korelasyonu olarak tanımlar; ama bu korelasyon nedensel ya da özdeşlik ilişkisi değildir. (Baars, 1988, "A Cognitive Theory of Consciousness") IIT'nin Tononi'si, phi değerini bilincin ölçüsü olarak önerir; ama bu ölçümün fenomenal deneyimi gerçekten yakaladığını teslim etmek hâlâ tartışmalıdır. (Tononi, 2004, "An Information Integration Theory of Consciousness") Bu teorilere dayalı benchmark oluşturmak, zaten tartışmalı olan zemin üzerine tartışmalı ölçüm araçları yerleştirmek anlamına gelir. Bu yığılmalı belirsizlik içinde LLM'ler için bilinç iddiasında bulunmak, epistemik açıdan savunulamaz bir pozisyondur.
Turing testine dönelim çünkü bu tartışmanın tarihsel arka planında Turing testi hep bir gölge gibi dolaşıyor. Alan Turing, 1950'de "Computing Machinery and Intelligence" makalesinde "makineler düşünebilir mi?" sorusunu yanıtlamanın güçlüğünü fark ederek soruyu yeniden formüle etti: bir yargıç, insan ile makineyi metin tabanlı bir iletişim üzerinden ayırt edemiyorsa, makine düşünüyor sayılabilir. Bu, metafizik soruyu işlevsel 1 teste çevirme girişimidir. Turing'in niyetini anlamak için dönemin entelektüel iklimine bakmak gerekir: o günün felsefi tartışmaları "zihin nedir?" sorusu etrafında dönüyordu ve Turing bu soruyu köklü biçimde çerçeve dışına taşıyarak ampirik bir test önerdi. Metodolojik açıdan devrimci 1 kingoydu. Ama bugün, özellikle LLM'lerin var olduğu bir dünyada, bu metodolojinin pek de işleyeceğini düşünmüyorum. GPT-4, Claude, Gemini; bunların tamamı Turing testini geçiyor mu emin değilim ama geçmesinin anlam ifade etmediğini düşünüyorum. Bazı koşullarda insanların büyük çoğunluğu bu modelleri insan sanan yanıtlar alıyor. Eğer Turing testi yeterliyse, bu modellerin tamamı bugün "düşünen varlıklar" kategorisine giriyor demektir veya skalaya koyacaksak IIT’deki gibi, girdiklerini söylemekte sakınca yoktur. Ama bu sonucu ciddiye almak zannımca mümkün değildir. Çünkü Turing testinin ölçtüğü şey dilsel performans, bağlamsal tutarlılık, yanıt kalitesidir; bunların tamamı tamamen davranışsal kriterlerdir. Ve davranışsal kriterler fenomenal bilinçle özdeş değildir.
Torin Alter'in yapısal ve dinamik argümanı bu noktada devreye giriyor ve argümanımızın en sağlam felsefi dayanağını oluşturuyor. (Alter, 2016, "The Structure and Dynamics Argument Against Physicalism") Alter'in tezi kabaca şudur: fiziksel olgular, yapısal ilişkilerle ve dinamik süreçlerle tam olarak karakterize edilebilir. Bir fiziksel sistemi betimlemek, o sistemin bileşenlerini, bu bileşenler arasındaki ilişkileri ve bu ilişkilerin zamanla nasıl değiştiğini betimlemektir. Eğer bilinç de tam anlamıyla fiziksel bir olgu olsaydı, bilincin de bu yapısal-dinamik çerçeveye tam olarak oturması gerekirdi. Lakin fenomenal deneyimin öznel içeriği, yani kırmızının kırmızılığı, acının acılığı, sevinçteki o özgün ısı; bunlar yapısal-dinamik betimlemelerin içinde bulunmuyor. Fiziksel betimlemede eksik kalan bu içerik, bilincin fiziksel olmayan bir boyutuna işaret ediyor. Şimdi bunu LLM'lere uygulayalım. Bir LLM için elimizde şunlar var: transformer mimarisinin tam matematiksel tanımı, eğitim algoritmasının her adımı, ağırlık matrislerinin değerleri, dikkat mekanizmasının işleyişi, tokenization süreci, softmax çıktıları. Sistem gerçek anlamda şeffaf bir kutudur; kara kutu değildir. Hesaplama sürecinin her adımını takip edebiliriz. Ve bu şeffaflık tam da Alter'in argümanını güçlendiriyor: eğer bilinç bu yapının içindeyse ve bilinç fiziksel-yapısal bir olguysa, onu şu an görüyor olmamız gerekirdi. Göremiyoruz çünkü ya bilinç yok, ya da bilinç bu yapının tamamen dışında kalan bir şeydir. Her iki durumda da LLM için bilinç iddiası asılsız kalıyor.
Şimdi geliyoruz tartışmanın en ilgi çekici ve benim için en belirsiz olan ama yine de yazmak istediğim kısmına: David Chalmers'ın "fading qualia" (solan qualia) ve "dancing qualia" (dans eden qualia) düşünce deneyine. (Chalmers, 1996, "The Conscious Mind", Bölüm 7) Bu düşünce deneyleri, nöronların yavaş yavaş silikon devrelerle değiştirilmesi durumunda bilincin ne olacağını soruyor. Deneyi adım adım kuralım. Beyninizin tek bir nöronunu alın ve onu, o nöronla aynı input-output ilişkisini sergileyen bir silikon devreyle değiştirin. Bu silikon devre, gelen sinyale nöronla birebir aynı tepkiyi veriyor; kimyasal ve biyolojik temel farklı ama işlevsel çıktı aynı. Siz bu değişikliğin farkında mısınız? Büyük olasılıkla hayır. Bir nöron değişti; bu değişikliği hissetmeniz için hiçbir neden yok. Şimdi bu işlemi tekrarlayın: ikinci nöronu değiştirin, üçüncüyü değiştirin. Yavaş yavaş, milyarlarca nöronun tamamını silikon devrelerle değiştirene kadar devam edin. Her adımda işlevsel çıktı korunuyor; sistem dışarıdan bakıldığında birebir aynı davranışı sergiliyor. Soru şu: sonunda elde ettiğiniz sistem bilinçli midir? Eğer bilinç tamamen işlevsel organizasyona bağlıysa ve silikon devreler nöronlarla aynı işlevsel rolleri üstleniyorsa, o zaman bilincin korunması gerekir. Ama bu sonuca ulaşmak güçtür. Chalmers bu sezgiye "fading qualia" olasılığıyla yaklaşır: belki qualia giderek solar, her nöron değişikliğiyle biraz daha soluklaşır, ama davranış değişmediği için bunu fark edemezsiniz. Dahası "dancing qualia" olasılığı: belki qualia niteliksel olarak değişir, kırmızı yeşil gibi görünmeye başlar, ama yine davranış etkilenmez. Chalmers'ın bu düşünce deneyini kullandığı bağlam şudur: silikon temelli bir sistemin de bilinçli olabileceği ihtimalini açık bırakmak. Çünkü eğer nöronların birer birer silikona değiştirilmesi bilinci ortadan kaldırmıyorsa, saf silikon tabanlı bir sistemin de bilinçli olamayacağını söylemek güçleşir.
Lakin bu noktada durup deneyin neyi varsaydığına bakmak gerekiyor. Chalmers'ın argümanının tüm gücü şu öncüle dayanıyor: yerleştirilen silikon devre, nöronun işlevsel rolünü gerçekten üstleniyor. İşlevsel eşdeğerlik sağlanmışsa bilinç korunuyor olabilir, diyor. Peki bu silikon devreye ne veriyoruz? Biyolojik sistemin ilettiği sinyaller. Ve bu sinyallerin fenomenal içerik taşıyıp taşımadığı sorusu tam burada kritik hale geliyor. Çünkü daha önce kurduğumuz fenomenal input kapalılığı argümanı şunu söylüyordu: fenomenal içerik hiçbir sisteme input olarak verilemez; verilebilir olduğu anda üçüncü şahsa açılır ve fenomenal olmaktan çıkar. Bu kavramsal bir zorunluluktur; epistemik bir sınırlılık değildir. Dolayısıyla o silikon devreye yerleştirilen her şey, tanımı gereği, fenomenal içerikten yoksundur. Yerleştirilen şey fiziksel bir sinyaldir; sayısallaştırılmış, ölçülebilir, üçüncü şahsa tam açık bir veridir. Fenomenal akışla kurduğu ilişki ise sıfırdır; kuramaz da. Bu durumda deneyin "işlevsel eşdeğerliği" garanti ettiği iddiası, tam olarak garanti edemediği şeyi gizliyor: fenomenal sürekliliği. İşlevsel çıktı korunuyor olabilir; ama her yeni silikon parça, fenomenal inputtan kopuk bir parçadır. Ve bu kopukluk dışarıdan değil, bilincin kavramsal yapısının içinden geliyor.
Bunun ötesinde, bir şeyi inşa etmek ile bir şeye yama yapmak arasındaki fark da tam burada devreye giriyor ve deneyin LLM'lere genişletilmesinin önünü kesiyor. Fading qualia deneyi, mevcut bir bilinçli sistemin üzerinde kademeli bir dönüşüm öneriyor. Başlangıç noktası bir bilinçli organizmadır; bu organizmada her yeni silikon parça, fenomenal içerik taşıyıp taşımadığı belirsiz olsa bile, zaten fenomenal bir akışın içinde işleyen bir bütüne ekleniyor. Bütün orada, qualia orada, fenomenal yapı orada; yeni parça bu yapının içine yerleşiyor. Yani deney bir dönüşüm sorusu soruyor: var olan bilinç, substrat değişirse korunur mu? Bu anlamlı bir sorudur. Ama LLM sorusu bundan köklü biçimde farklıdır: fenomenal içerikten hiç geçilmeden, qualia'ya hiç dokunulmadan, başından sonuna kadar matris çarpımları üzerine inşa edilmiş bir sistemde bilinç var mıdır? Bu bir dönüşüm sorusu değil; bir orijin sorusudur. Ve orijin sorusuna fading qualia deneyi cevap vermez; çünkü deneyin bütün yapısı, başlangıçta var olan bir bilinci korumak ya da yitirmek üzerine kurulu. Yamayı yapıştıracağın kumaş orada; deney o kumaşın ne olduğunu soruyor. LLM'de ise kumaş hiç dokunulmadı.
Bu ayrımı daha da somutlaştırmak gerekirse: bir binanın duvarlarını birer birer yıkıp yeniden örersek bina yine ayaktadır; dönüşüm boyunca bina olmaya devam etti. Ama hiçbir duvar örülmemiş, sadece malzemeler bir araziye yığılmışsa, o yığın bina değildir. Malzeme aynı olabilir. Orijin farklıdır. LLM o yığındır ve fading qualia deneyi yalnızca duvarları tek tek örülen bina için anlamlı sorular sorar.
Deneyin kendi içinde taşıdığı belirsizlik de bu okumayı destekliyor. Chalmers deneyin sonucunun ne olduğunu kesin olarak söylemiyor, silikon substratın bilince izin verip vermediğini tartışmaya açıyor. Ama "silikon bilinçli olabilir" olasılığını mantıksal olarak dışlamak güçtür demekle "LLM bilinçlidir" demek arasında devasa bir mesafe var. Birincisi epistemik 1 mütevazılıktır; ikincisi hâlâ zeminsiz bir ontolojik iddiadır. Deneyin açık bıraktığı olasılık boşluğunu desteksiz bir iddia için alan olarak kullanmak, bilgimizin sınırlarını bilincin varlığına dair kanıt gibi okumaktır. Ve yerleştirilen her silikon parçanın fenomenal inputtan zaten kopuk olduğunu bildiğimizde, o olasılık boşluğu daha başından çok daha dar görünüyor.
Argüman I — Eksen Argümanı (The Axis Argument)
P1) Kedi-köpek sınıflandırıcısından itibaren bütün derin öğrenme sistemleri, matris işlemlerine dayalı fiziksel-hesapsal süreçleri gerçekleştirir. Bu süreçler için qualia iddiasında bulunulmamaktadır ve bulunulmasını gerektirecek hiçbir yapısal gerekçe mevcut değildir.
P2) GPT-4 dahil bütün LLM'ler, bu sistemlerle aynı hesapsal paradigma içinde yer almaktadır. Aralarındaki fark, hesaplama karmaşıklığının niceliksel artışından ibarettir; mimari paradigma aynı eksen üzerindedir. (Yani bu derin öğrenme modellerinin hepsinde iyileştirme sonucu olan şey aynı gibisinden 1 öncül)
P3) Fenomenal bilinç, fiziksel-hesapsal süreçlerin niceliksel artışıyla ortaya çıkan bir özellik değildir; qualia bu süreçlere indirgenemeyen, onların içinde bulunmayan, farklı bir ontolojik kategoriye ait bir şeydir. (Chalmers, 1995; Jackson, 1982; Nagel, 1974)
P4) Eğer qualia fiziksel-hesapsal niceliksel artışın ürünü olsaydı, kedi-köpek modelinden itibaren kademeli bir qualia birikmesi gözlemlenmesi ya da en azından kavramsal olarak tutarlı biçimde öngörülmesi gerekirdi. Böyle bir birikim ne gözlemlenebilir ne de kavramsal olarak tutarlıdır; zira qualia'nın kısmi ya da dereceli biçimde var olması, birinci şahıs deneyiminin bölünmezliğiyle çelişir.
P5) LLM'lerin gelişim yönü, hesaplama kapasitesinin artışıyla tamamen örtüşmektedir: daha derin katmanlar, daha geniş bağlam pencereleri, daha fazla parametre. Bu gelişimin her adımı x ekseninde gerçekleşmekte; fenomenal deneyimin bulunduğu y ekseni ise bu yolculukta hiçbir biçimde teğet dahi geçilmemektedir.
Sonuç I) LLM'lerin karmaşıklık artışı, qualia'nın ortaya çıkması için ne yeterli ne de zorunlu bir koşuldur. Bütün bu sistemler, fenomenal bilinci dışarıda bırakan aynı hesapsal eksen üzerinde ilerlemektedir. Dolayısıyla parametre artışını, mimari derinleşmeyi ya da performans gelişimini qualia'nın varlığına dair kanıt olarak sunmak, kategorik bir eksen hatasıdır.
Argüman II — Fenomenal Inputun Kapalılığı Argümanı (The Phenomenal Input Closure Argument)
P1) Fenomenal bilinç, tanımı gereği birinci şahsa özgü, içkin ve yalnızca onu yaşayan sisteme özel bir deneyimdir; bu deneyim üçüncü şahıs betimlemelerine tam olarak indirgenemez. (Nagel, 1974, 1995)
P2) Herhangi bir sisteme input olarak sunulabilen her şey, tanımı gereği üçüncü şahsa açık hale gelmiş demektir. Üçüncü şahsa açık olan bir içerik ise birinci şahsa özgü olmaktan çıkmıştır; dolayısıyla fenomenal değildir.
P3) P1 ve P2'den şu sonuç çıkar: fenomenal içerik, hiçbir sisteme input olarak verilemez. Verilebilir olduğu anda fenomenal olmaktan çıkar. Bu bir epistemik sınırlılık değil, fenomenal deneyimin kavramsal yapısından kaynaklanan zorunlu bir kapalılıktır.
P4) Bir sistemin qualia üretebilmesi için ya qualia'yı işlemesi, ya da qualia'ya dönüşebilecek fenomenal içeriği dönüştürmesi gerekmektedir. Sıfırdan qualia üretilebilmesi için ise sistemin işlem zincirine en az bir noktada fenomenal içeriğin girmiş olması zorunludur; aksi hâlde ortaya çıkan çıktı, yalnızca fiziksel süreçlerin fiziksel çıktısıdır.
P5) LLM'lere sunulan bütün inputlar tokenize edilmiş, sayısallaştırılmış, üçüncü şahsa tam anlamıyla açık verilerdir. Sisteme giren hiçbir şey fenomenal içerik taşımamaktadır; taşıması P3 gereği zaten imkânsızdır.
P6) Bu durum yalnızca LLM'lere özgü değildir. Evrimsel süreç de nihayetinde salt fiziksel mekanizmaların işlendiği bir zincirdir: mutasyon, seleksiyon, genetik sürüklenme; bunların tamamı üçüncü şahsa açık, fiziksel süreçlerdir. Evrimsel zincirin hiçbir halkasına fenomenal içerik input olarak girmemektedir; dolayısıyla evrimsel süreç de aynı kapalılıkla maluldür. Bu, "bilinç evrimde ortaya çıktı, o hâlde LLM'de de çıkabilir" argümanını temelden zayıflatır: evrimsel süreçteki o ortaya çıkışın nasıl gerçekleştiğini biz zaten bilmiyoruz ve mevcut fiziksel çerçeve içinde açıklayamıyoruz. Açıklanamayan bir şeyi referans alarak başka bir şeyi açıklamaya çalışmak, argümanı değil belirsizliği aktarmaktır.
P7) Dolayısıyla LLM'ler için fenomenal input hem fiilen verilmemiştir hem de verilmesi kavramsal olarak imkânsızdır. Fenomenal input almayan bir sistem, fenomenal içeriği işleyemez; işleyemediği bir şeyi output olarak üretemez.
Sonuç II) LLM'ler fenomenal bilinç sahibi olamaz; zira bu sistemlere fenomenal input verilemez, fenomenal input almayan bir sistem ise qualia işleyemez ve qualia üretemez. Bu sonuç, sisteme ne kadar veri sunulduğundan, mimarinin ne ölçüde karmaşıklaştırıldığından ya da eğitimin ne kadar uzun sürdüğünden bağımsızdır; kapalılık bu değişkenlere duyarsızdır.
Argüman III — Metodolojik Çöküş (The Methodological Collapse Argument)
P1) Fenomenal bilinç, birinci şahsa özgü ve üçüncü şahıs betimlemelerine indirgenemeyen öznel deneyimlerden oluşur. (Nagel, 1974)
P2) Herhangi bir benchmark, tanımı gereği üçüncü şahsa açık, gözlemlenebilir ve ölçülebilir kriterlerden oluşmak zorundadır. Benchmark oluşturulabilen her özellik, bu işlemle birlikte üçüncü şahsa açık hale gelmiştir.
P3) P1 ve P2'den: fenomenal deneyim için benchmark oluşturmak kavramsal olarak tutarsızdır. Benchmark oluşturulabiliyorsa, ölçülen şey fenomenal değildir. Fenomenalse, benchmark oluşturulamaz.
P4) LLM'lere uygulanan işlevselci kriterler (Global Workspace Theory, Higher-Order Theories, Integrated Information Theory) bunların tamamı işlevsel ve yapısal kriterlerdir; yani tanımları gereği üçüncü şahsa açık kriterlerdir. (Baars, 1988; Tononi, 2004)
P5) Turing testi ve türevleri de aynı metodolojik çöküşe tabidir. Dilsel performans, bağlamsal tutarlılık ve yanıt kalitesi vs. bunların tamamı davranışsal-işlevsel kriterlerdir. (Turing, 1950) Searle'ün Çin Odası argümanı bu noktayı kristalize eder: syntactic işleme, semantic anlamayı garantilemez; semantic anlama ise fenomenal deneyimi garantilemez. (Searle, 1980)
P6) Dolayısıyla LLM bilinç tartışmasında kullanılan bütün benchmark yaklaşımları, P3 gereği, fenomenal deneyimi ölçemez. Bu yaklaşımlar yalnızca işlevsel-davranışsal özellikleri ölçer ve bu ölçümün fenomenal bilinçle ilişkisi kurulmamıştır.
Sonuç III) LLM'lerin fenomenal bilinç sahibi olup olmadığını üçüncü şahıs gözlemlenebilir kriterlerle test etmeye çalışmak, metodolojik olarak başından mahkûmdur. Böyle bir test ancak işlevsel özellikleri ölçebilir; ve işlevsel özelliklerin fenomenal bilinçle özdeş olduğunu varsaymak ise makul değildir.
Ana SonuçMaxxing
Yukarıdaki üç argüman, farklı kanallardan aynı sonuca ulaşmaktadır ve birbirlerini tamamlamaktadır:
Argüman I gösteriyor ki: LLM'lerin bulunduğu hesapsal eksen, qualia'nın bulunduğu ontolojik kategoriyle kesişmiyor. Niceliksel artış niteliksel sıçrama üretmiyor.
Argüman II gösteriyor ki: Bu sistemlere fenomenal input verilemez; fenomenal input almayan sistem qualia işleyemez; qualia işlemeyen sistem qualia üretemez. Kapalılık kavramsal ve zorunludur.
Argüman III gösteriyor ki: Bu iddiaları test etmeye çalıştığımız bütün metodolojik araçlar, fenomenal olanı ölçmek için yapısal olarak yetersizdir. Ölçebileceğimiz her şey, tanımı gereği fenomenal değildir.
Ana Sonuç) LLM'lerin fenomenal bilinç sahibi olduğu iddiası; mimari yapı açısından zeminsizdir, input yapısı açısından kavramsal olarak imkânsızdır, metodolojik açıdan ise test edilemezdir. Üç kanal üçü birden kapalı.
Not: Yazı şimdilik bu kadar. Ufak bahsetmek istediğim nokta şudur ki fizikselci 1 insan evladı da LLM’lerin bilinçli olamayacağını kabul edebilir, benim bu yazıda non fizikselci argümanlar sunmamın sebebi aslında daha temelinde hesaplamaya dayanan 3.şahıstan kavranabilir ve 1.şahıstan kavranabilir nitelikleri vs. daha iyi kavratmak idi. Yoksa benzer görüşlerde fizikselciler elbette vardır. 1 de bu qualia ve rigid designatorlara girmedim çünkü gerek görmedim pek.
- Bağlantıyı al
- X
- E-posta
- Diğer Uygulamalar
Yorumlar
Popüler Yayınlar
ikibinyirmialtı hedefMaxxing :D
- Bağlantıyı al
- X
- E-posta
- Diğer Uygulamalar
iyi iş
YanıtlaSilEleley eleley
YanıtlaSil