Veri Denizinde Akıl Yürütme: Büyük Dil Modelleri ve İnsan Beyni Arasındaki Şaşırtıcı Benzerlik
- Hüseyin GÜZEL
- Feb 25
- 4 min read
Yeni bir çalışma, LLM’lerin baskın dillerindeki verileri yalnızca yüzeysel olarak değil, altta yatan anlam ve nedenlere göre farklı veri türleri şeklinde temsil ettiğini ortaya koyuyor...

Erken dil modelleri yalnızca metin işleyebilirken, günümüzün büyük dil modelleri artık farklı veri türleri üzerinde çeşitli görevleri yerine getirebiliyor. Örneğin, LLM’ler birden fazla dili anlayabilir, bilgisayar kodu üretebilir, matematik problemlerini çözebilir ve hatta görüntü veya sesle ilgili soruları yanıtlayabilir.
MIT araştırmacıları, bu modellerin çeşitli verileri nasıl işlediğini daha iyi anlamak için iç mekanizmalarını inceledi ve bunların insan beyniyle bazı benzerlikler taşıdığına dair kanıtlar buldu.
Sinirbilimciler, insan beyninin ön temporal lobunda, görsel veriler ve dokunsal girdiler gibi farklı modalitelerden gelen anlamsal bilgileri bütünleştiren bir “anlamsal merkez” bulunduğuna inanıyor. Bu merkez, bilgileri işleyen ve ona aktaran modaliteye özgü “konuşmacılar” ile bağlantılıdır.
MIT araştırmacıları, LLM’lerin de benzer bir mekanizma kullandığını keşfetti. Çeşitli kaynaklardan gelen verileri merkezi ve genelleştirilmiş bir şekilde soyutlayarak işleyen bu modeller, baskın dillerine dayalı bir süreç izler. Örneğin, ana dili İngilizce olan bir model, Japonca girdileri anlamlandırmak veya aritmetik, bilgisayar kodu gibi konular üzerinde akıl yürütmek için İngilizceyi merkezi bir referans noktası olarak kullanır.
Ayrıca araştırmacılar, bir model başka dillerde veri işlese bile, baskın dilindeki metni kullanarak modelin anlamsal merkezine müdahale edebileceklerini ve çıktıları değiştirebileceklerini gösterdi.
Bu bulgular, bilim insanlarının farklı veri türlerini daha etkin işleyebilen gelecekteki LLM’leri geliştirmelerine yardımcı olabilir.
“LLM’ler büyük birer kara kutu. Son derece etkileyici bir performans sergiliyorlar, ancak iç işleyişleri hakkında çok az şey biliyoruz, Umarım bu çalışma, onların nasıl çalıştığını daha iyi anlamak için bir başlangıç olur, böylece modelleri geliştirebilir ve gerektiğinde daha iyi kontrol edebiliriz.” diyor elektrik mühendisliği ve bilgisayar bilimi (EECS) yüksek lisans öğrencisi ve araştırmaya dair makalenin baş yazarı Zhaofeng Wu.
Çalışmanın ortak yazarları arasında Güney Kaliforniya Üniversitesi’nde (USC) yüksek lisans öğrencisi Xinyan Velocity Yu, USC’de doçent Dani Yogatama, Apple’da araştırma bilimcisi Jiasen Lu ve MIT’de EECS yardımcı doçenti ve Bilgisayar Bilimi ve Yapay Zeka Laboratuvarı (CSAIL) üyesi olan kıdemli yazar Yoon Kim yer alıyor. Araştırma, Uluslararası Öğrenme Temsilleri Konferansı’nda sunulacak.
Farklı Verileri Entegre Etme
Araştırmacılar, bu yeni çalışmayı, İngilizce merkezli LLM’lerin farklı dillerde akıl yürütme süreçlerini yürütürken İngilizceyi temel aldığını öne süren önceki araştırmalara dayandırdı.
Wu ve ekibi, LLM’lerin farklı veri türlerini işleme mekanizmalarını daha ayrıntılı inceleyerek bu fikri genişletti.
Bir LLM, birbirine bağlı birçok katmandan oluşur ve giriş metnini kelimelere veya alt kelimelere karşılık gelen belirteçlere ayırır. Model, her belirteçe bir temsil atayarak bunlar arasındaki ilişkileri öğrenir ve sırasıyla bir sonraki kelimeyi tahmin eder. Görüntü ve ses verileri söz konusu olduğunda ise belirteçler, bir görüntünün belirli bölgelerini veya bir ses kaydının farklı bölümlerini temsil eder.
Araştırmacılar, modelin ilk katmanlarının, insan beynindeki modaliteye özgü konuşmalar gibi, verileri kendi dil veya modalitelerinde işlediğini tespit etti. Ardından, LLM, beynin anlamsal merkezinin çeşitli bilgileri nasıl bütünleştirdiğine benzer şekilde, iç katmanlar boyunca bu veriler üzerinde akıl yürüyerek belirteçleri modalite bağımsız temsillere dönüştürüyor.
Model, görüntüler, ses, bilgisayar kodu ve aritmetik problemler gibi farklı veri türlerine rağmen, benzer anlamlara sahip girdilere benzer temsiller atar. Örneğin, bir resim ve onun metin başlığı farklı veri türleri olsa da, aynı anlamı paylaştıkları için LLM onlara benzer temsiller verir.
Örneğin, İngilizce baskın bir LLM, Çince bir çıktı oluşturmadan önce İngilizce'de bir Çince metin girişi hakkında "düşünür". Model, bilgisayar kodu, matematik problemleri ve hatta çok modlu veriler gibi metin dışı girişler için benzer bir akıl yürütme eğilimine sahiptir.
Bu hipotezi test etmek için araştırmacılar, model aracılığıyla aynı anlama sahip ancak iki farklı dilde yazılmış bir çift cümle geçirdiler. Modelin temsillerinin her cümle için ne kadar benzer olduğunu ölçtüler.
Daha sonra, Çince gibi farklı bir dilde İngilizce baskın bir model metni besledikleri ve iç temsilinin Çince'ye karşı İngilizce'ye ne kadar benzer olduğunu ölçtükleri ikinci bir deney seti yaptılar. Araştırmacılar diğer veri türleri için de benzer deneyler yaptılar.
Sürekli olarak modelin temsillerinin benzer anlamlara sahip cümleler için benzer olduğunu buldular. Ek olarak, birçok veri türünde, modelin dahili katmanlarında işlediği belirteçler, giriş veri türünden çok İngilizce merkezli belirteçlere benziyordu.
Wu, "Bu giriş veri türlerinin çoğu dilden son derece farklı görünüyor, bu nedenle model, örneğin matematiksel veya kodlama ifadelerini işlediğinde İngilizce belirteçleri araştırabildiğimize çok şaşırdık." diyor.
Semantik Merkezden Yararlanma
Araştırmacılar, çeşitli verileri işlemenin ekonomik bir yolu olduğu için LLM'lerin bu anlamsal merkez stratejisini eğitim sırasında öğrenebileceğini düşünüyor.
“Dışarıda binlerce dil var, ancak sağduyu bilgisi veya olgusal bilgi gibi bilgilerin çoğu paylaşılıyor. Modelin bu bilgiyi diller arasında çoğaltmasına gerek yok" diyor Wu.
Araştırmacılar ayrıca diğer dilleri işlerken İngilizce metni kullanarak modelin iç katmanlarına müdahale etmeye çalıştılar. Bu çıktılar başka dillerde olmasına rağmen model çıktılarını tahmin edilebilir bir şekilde değiştirebileceklerini buldular.
Bilim adamları, modeli çeşitli veri türlerinde mümkün olduğunca fazla bilgi paylaşmaya teşvik etmek ve potansiyel olarak verimliliği artırmak için bu fenomenden yararlanabilir.
Ancak diğer yandan, kültürel olarak özel bilgi gibi diller veya veri türleri arasında çevrilemeyen kavramlar veya bilgiler olabilir. Bilim adamları, LLM'lerin bu gibi durumlarda bazı dile özgü işleme mekanizmalarına sahip olmasını isteyebilirler.
"Mümkün olduğunda maksimum olarak nasıl paylaşırsınız ve aynı zamanda dillerin bazı dile özgü işleme mekanizmalarına sahip olmasına izin verirsiniz? Bu, model mimarileri üzerine gelecekteki çalışmalarda araştırılabilir," diyor Wu.
Ek olarak, araştırmacılar bu içgörüleri çok dilli modelleri geliştirmek için kullanabilirler. Çoğu zaman, başka bir dil konuşmayı öğrenen İngilizce baskın bir model, İngilizce'deki doğruluğunun bir kısmını kaybedecektir. Bir LLM'nin anlamsal merkezinin daha iyi anlaşılmasının, araştırmacıların bu dil müdahalesini önlemesine yardımcı olabileceğini söylüyor.
"Dil modellerinin diller ve yöntemler arasında girdileri nasıl işlediğini anlamak, yapay zekada önemli bir sorudur. Bu makale, sinirbilimle ilginç bir bağlantı kuruyor ve önerilen 'anlamsal merkez hipotezinin', modelin ara katmanlarında farklı veri türlerinin anlamsal olarak benzer temsillerinin oluşturulduğu modern dil modellerinde geçerli olduğunu gösteriyor," diyor Tel Aviv Üniversitesi Bilgisayar Bilimleri Okulu'nda yardımcı doçent Mor Geva Pipek, bu çalışmaya dahil değildi.
Ve devamında, "Hipotez ve deneyler, önceki çalışmalardan elde edilen bulguları güzel bir şekilde bağlar ve genişletir ve daha iyi çok modlu modeller oluşturma ve bunlar ile insanlarda beyin fonksiyonu ve biliş arasındaki bağlantıları inceleme konusundaki gelecekteki araştırmalar için etkili olabilir."diye ekliyor.
Bu araştırma kısmen MIT-IBM Watson AI Lab tarafından finanse edilmektedir.
by Adam Zewe | MIT News
bos288, slot thailand, bos288, bos288, bos288, bos288, bos288, bos288,
slot gacor, bos288, slot88, bos288, bos288, slot gacor, slot gacor, slot qris,
link slot, raja168, slot gacor, raja168, slot, slot gacor, slot, raja168, raja168,
slot gacor, raja168, raja168, slot deposit dana, raja168, situs toto, situs slot gacor,
raja slot, situs toto, slot deposit qris, slot gacor, slot gacor, raja168, slot, raja168, slot dana,