İstatistiksel Öğrenme ve Dil Edinimi

Öz: İnsanın dil edinimi sürecinin en önemli besleyicisi dış dünyadır. Bu yönüyle insanlar, sonsuz veri akışını örtük ya da açık bağlamlarda bilişsel olarak depolayan ve elde ettikleri bu deneyimleri davranış ya da söyleme dönüştüren canlılardır. Aslına bakılırsa her insan, isteyerek veya istemeyerek maruz kaldığı uyaranların algoritmik sonuçlarını hayatı boyunca yaşamaktadır. Nitekim son yarım asırda makinelerin de öğrenebileceğinin keşfedilmesi, dil bilimi alanında önemli bir paradigma değişikliğine yol açmıştır. Böylelikle dilin istatistiksel bir alan olduğunu savunan yeni yaklaşımlar, onlarca yıldır dilin kökeni tartışmalarının en büyük açıklayıcılarından biri olan “evrensel dil bilgisini” de derinden sarsmıştır. Çünkü evrensel dil bilgisi, dil edinimini doğuştan getirilen bir yeti olarak görmektedir. Kısacası, öğrenme ve dil edinimini yoğun veri akışına bağlayan istatistiksel öğrenme kuramı, çocukların örtük veya doğrudan uyaranlardan elde ettikleri bilgilerin çok daha zengin öğrenmeler inşa ettiğinin saptanmasıyla, dil bilimi alanında 21. yüzyılın başat aktörü hâline gelmiştir.İşte bu makalede, zamanla etki alanını genişleterek “dil edinimi ve dilin kökeni” tartışmalarının yeni bir boyutu hâline gelen istatistiksel öğrenme kuramı, evrensel dil bilgisi ile karşılaştırmalı olarak tartışılmaktadır.

Anahtar kelimeler: İstatistiksel öğrenme kuramı, evrensel dil bilgisi, yapay zekâ bağlamında dil, makine dili.

Makalenin künyesi

Künye: Kılıç, Ensar (2020). “Yapay Zekâ Evreninde Doğal Dili Tanımlamak: İstatistiksel Öğrenme ve Dil Edinimi”. Simit Çay Betik, S. 2, s.45-55. | Doktora [Anadolu Üniversitesi].
Makalenin basılı formatına ulaşmak için tıklayınız.

DEFINING NATURAL LANGUAGE IN THE ARTIFICIAL INTELLIGENCE UNIVERSE: STATISTICAL LEARNING AND LANGUAGE ACQUISITION

Abstract: The outside world is the most important feeder of human language acquisition process. In this respect, human are a living being that cognitively store the endless stream of data in implicit or explicit contexts and transform these experiences into behavior or discourse. In fact, every person experiences the algorithmic consequences of the stimuli they are exposed to throughout their life. As a matter of fact, the discovery that machines can learn in the last half century has led to an important paradigm change in the field of linguistics. Thus, the new approaches that defend language as a statistical field have deeply shaken the “universal grammar” which is one of the biggest explanations of the debate on the origin of language for decades. Because universal grammar sees language acquisition as an innate skill.

The statistical learning theory, which connects learning and language acquisition to intensive data flow, has become the leading actor of the 21st century in the field of linguistics, with the determination that the information obtained by children from implicit or direct stimuli builds much richer learning. In this article, the statistical learning theory, which has become a new dimension of the “language acquisition and the origin of language” discussions by expanding its domain over time, is discussed in comparison with universal grammar.

Keywords: Statistical learning theory, universal grammar, language in the context of artificial intelligence, machine language.

Giriş

İnsanlık tarihi, tabiatın ve doğalın taklidi üzerine kurulmuştur. Heykeller, resimler, fotoğraflar ve hatta helikopter gibi ileri teknoloji ürünleri hep bu yönelimin bir sonucudur. Ancak geldiğimiz bu yeniçağda insanoğlu, binlerce yıllık kadim geçmişi boyunca çözümleyemediği muammaları çözmek için “yapay” olanla iş birliği yapmak zorundadır. Teknolojinin geldiği yeni boyut ve büyük veri havuzlarının kıymetinin keşfedilmesi, yalnızca mühendislik alanında değil dil alanında da “makine evreni”ni yeni bir olgu olarak karşımıza çıkarmıştır. Çeyrek asrı aşkın bir süredir insanoğlu yapay sistemlere etkili ve güçlü doğal dil ara yüzleri yüklenebilmektedir (Guida & Tasso, 1982: 417). Böyle bir çağda bilim, fütüristlerin “Makineleşmek istiyorum!” söylemine “Belki de siz zaten makinesiniz.” diye yanıt vermek üzeredir.

Powers ve Turk doğal dilin yapay zekâ ve bilişsel psikolojinin bir konusu hâline gelme serüvenini şu şekilde anlatmaktadır (2012: 1):

Bize göre doğal dil, insan beyninde daha derin ve temelde yatan bilişsel bir sürecin yüzeysel bir ifadesi veya gizil bir gerçek değildir. Dil bilişin bizzat kendisi için oldukça temeldir ve yaygındır. Bu nedenle, dilin dil bilimcilerin yegâne alanı olmadığını, dünya ile tüm etkileşimlerimizde, bilimimizde ve düşüncemizde çok önemli olduğunu düşünüyoruz. Dil, bu ilkeye göre, insanlara ait tüm entelektüel disiplinlerin merkezindedir. Öğrenilir ve bu yüzden psikologlar tarafından incelenir. Beynimizin bir işlevidir ve bu nedenle nörologlar tarafından analiz edilir. Kendi başına basitliği ve karmaşıklığı birleştiren güçlü bir yapıdır ve bu nedenle ortak noktaları yüzyıllar boyunca matematikçilerimize ve filozoflarımıza meydan okumuştur. Ancak bu elektronik çağda dil, her biçimini ve temsilini kaydeden, ileten, simüle eden ve analiz eden bilişsel psikoloji ve yapay zekâ alanlarında çalışanların gittikçe ilgisini çeken bir alandır.

1. Evrensel Dil Bilgisi ve İstatistiksel Öğrenme Rekabeti

Dilin istatistiksel bir alan olduğunu savunan yeni yaklaşımlar, onlarca yıldır dilin kökeni tartışmalarının en büyük açıklayıcılarından bir olan “evrensel dil bilgisini” de derinden sarsmıştır. Çünkü evrensel dilbilgisi, dil edinimini doğuştan getirilen bir yeti olarak görmektedir (Nowak vd. 2001: 114). Bu yüzden kuramın köklerini atan Chomsky, dilin nasıl edinildiği üzerinde yoğunlaşmış ve bunun için ilk aşamada dil bilgisinin içeriğinin ne olduğunu saptamak istemiştir (White, 1989: 18). Dolayısıyla ona göre dil bilgisi; evrensel dil bilgisi içeriğini, doğuştan gelen evrensel ilkeleri ve bu ilkelerin yardımıyla elde edilen dile özgü bilgileri içermektedir (White, 1989: 18). Ancak çocukların örtük veya doğrudan uyaranlardan bir nevi veri depolama yöntemiyle elde ettikleri bilgilerin çok daha zengin öğrenmeler inşa ettiğinin saptanması; evrensel dil biliminin karşısında yapay zekâ ile eş güdümlü ilerleyen istatistiksel öğrenme kuramını ön plana çıkarmıştır (Lidz & Gagliardi, 2015: 333).

İstatistiksel öğrenme, zamanla bir bilişim kuramı olmaktan çıkmış; diğer alanlara genişlemiştir.

Başlangıçta veri havuzlarındaki bilgiden yeni sonuçlar çıkarabilme amacıyla bilişim alanında kullanılan bu kuram, zamanla etki alanını genişleterek “dilin kökeni” tartışmalarının yeni bir boyutu hâline gelmiştir (Vapnik, 1999: 988). Çünkü istatistik öğrenme kuramı yapay zekâ ile alakalı çalışmalar çerçevesinde geliştikçe yalnızca teorik analiz için bir araç olmaktan çıkmış, aynı zamanda çok boyutlu fonksiyonları tahmin etmek için pratik algoritmalar sunmaya başlamıştır (Vapnik, 1999: 988).[1]

Dil Chomsky’nin iddia ettiği gibi doğuştan gelen bir yetinin sonucu mudur? Yoksa hayatın sıradan değişkenlerinin özel formlarda depolandığı biyolojik bir “büyük veri” örüntüsü müdür?

Daha önce de belirttiğimiz üzere, dil edinimini biyolojik mekanizmanın ağırlıklı bir çıktısı olarak gören evrensel dil bilgisi, son zamanlarda ağır eleştirilere maruz kalmıştır. [2] Hatta Evans ve Levinson evrensel dil bilgisinin ölümünü ilan etmiştir (2009: 429). Bu araştırmacılar dünyada 6000 ila 8000 arasında dil bulunduğunu ve bu diller arasında büyük farklılıklar olduğuna vurgu yaparak aslında dillerin çok sınırlı sayıda evrensel ortaklık taşıdığı kanısını yinelemiştir (2009: 429).

Yenidoğanlar üzerinde yapılan birçok çalışma aslında dil ediniminin hem biyolojik hem de tıpkı yapay zekâ uygulamalarında olduğu gibi istatistik bir bağlamda gerçekleştiğini ortaya koymaktadır. Saffran ve arkadaşları, yalnızca sekiz aylık bebeklere 2 dakika boyunca birtakım kelimeleri içeren bir metin okunduğunda, bu bebeklerin komşu konuşma sesleri arasındaki istatistiklere dayanarak bir söz dizimindeki kelimeleri ayrı ayrı algıladığını tespit etmiştir (Saffran vd. 1996: 1926).[3] Yani küçük yaşlardan itibaren dil öğrenen insanlar, sürekli konuşmadaki kelimeleri keşfetmek için hece dizilerinin istatistiksel özelliklerini algılayıp kullanmaktadır (Saffran vd. 1999: 27). Bu keşif, dilin kökenine dair tartışmalarının “makine öğrenimi” ile aynı düzlemde tartışılmasının yolunu açmıştır. Zamanla istatistik öğrenme kuramının yanına örtük öğrenme de dâhil edilerek 21. yüzyılda doğal dillerin veri tabanlı izahı daha güçlü bir kuramsal altyapıya kavuşturulmuştur (Perruchet & Pacton, 2006: 233).

Bazı araştırmacılar evrensel gramerle istatistiksel kuramı uzlaştırma çabasındadır.

Evrensel dil bilgisi her ne kadar 21. yüzyılda istatistiksel bakış açısına karşı kan kaybetmiş olsa da temelde dili anlamanın tek başına “istatistik” ve “veri” ile mümkün olmadığını savunan yaygın bir görüş daha vardır. Bu görüşe göre insanlar çevresel uyaranlardan aldıkları sonsuz sayıdaki veriden tabii olarak etkilenmektedir. Ancak bu verinin anlamlı davranış ve iletişime dönüştürülmesi için insanoğlunda mutlak surette doğuştan getirilen bir bilişsel altyapı vücut olmalıdır. Bu açıdan bakıldığında “makineye bile dil öğretilebilirken ve birçok dil birbirinden çok farklı özelliklere sahipken dil edinimini bilişsel ve evrensel bir altyapı çerçevesinde tartışmayı yersiz bulan” görüşün de düştüğü bazı açmazlar vardır. Dolayısıyla dil edinimi ancak evrensel dil bilgisi ve istatistiksel öğrenme kuramlarının uzlaştırılmasıyla açıklanabilir. Yang bu konudaki fikrini şu şekilde açıklamaktadır (2004: 452):

Dil öğrenimiyle ilgili tartışılmaz iki gerçek vardır. Birincisi, sadece bir insan yavrusu dil öğrenebilir. Bir kedi yavrusu öğrenemez. Öyleyse, biyolojimizde bu eşsiz yeteneği açıklayan bazı unsurların olmasının gerekliliği açıktır. Dile özgü doğuştan gelen bir bilgi formu olan Chomsky’nin evrensel dil bilgisi, bu yeteneğin ne olduğunun bir açıklamasıdır. Bu görüş, öğrenme alanında belirli şartlar oluşmadıkça öğrenmenin mümkün olmadığı şeklindeki mantıksal sonucu savunan formal öğrenme teorisinden destek alır. İkinci gerçek ise şudur: Bir çocuğun evrensel dil bilgisi ile dil öğrenmeye ne kadar avantajlı bir başlangıç yaptığına bakılmaksızın, bir dilin öğrenilebileceği de açıktır.

İstatistik Öğrenme, Yapay Zekâ ve Dil

İstatistik öğrenme bugün teknolojinin ve hayatın birçok alanında etkin bir şekilde kullanılmaktadır. İstatistik öğrenme, mantık olarak “büyük veri” (big data) adı verilen devasa veri yığınlarının veri analizi ve makine öğrenimi yoluyla işlenmesini esas alan bir alandır. Bugün internet uygulamaları, biyolojik hesaplamalar, tıp, finans, pazarlama, lojistik, gazetecilik, iş analizi ve medya gibi birçok farklı alanda “büyük veri”lerin analiziyle katrilyonlarca eşleştirme arasından damıtılan algoritmalar geliştirilmiştir (Boyd vd. 2011: 1). Başka bir ifadeyle, yapay zekânın hizmetine verilen makineler, sonsuza yakın devasa bir olasılık havuzundan beslenmektedir. Böylelikle dışarıdan bakıldığında organik tepkiler veren bir cihaz üretmek bile mümkün hâle gelmektedir. Kısacası, istatistiksel öğrenme teorisi, bir dizi örnekten başlayarak modellerin geliştirilmesi için zengin bir teorik temel sağlamaktadır (Brunato & Battiti, 2005: 825).

Büyük Verilerin (Big Data) Organik Gelişimi

Bugün makine öğrenimi denildiğinde akla ilk önce işlev kopyalama, veri yığını üzerinden tahminde bulunma ve örüntü tanıma hususları gelmektedir. Aslında bu üç yöntem “büyük veri”lerin kurduğu doğal bir sonuçtur. Zor olan daha az veri ile öğrenme verilerini türevlendirebilmektir. Vapnik, verinin az olduğu durumlardaki seçenekleri çoğaltmanın yeni istatistik prensipler ortaya koymakla çözülebileceğini düşünmüş ve “Vektör Destek Mekanizması” adını verdiği yeni ve güçlü bir öğrenme yöntemi geliştirmiştir (akt. Zhang, 2000: 32). Tüm bunların yanında, insanı taklit eden bir yapay zekânın yaşadığı en büyük sorunlardan biri esnekliktir. Çünkü herhangi bir yapay zekâ uygulamasında uygulama senaryosunu genişletirken veya uygulamanın etki alanını değiştirirken, kural kümesinin büyük bir kısmının genellikle yeniden yazılması gerekmektedir (Macherey vd. 2001: 1).

Boyd “büyük veri”ler marifetiyle kurgulanan istatistik öğrenmenin üç önemli unsurunu şu şekilde sıralamaktadır (2011: 1):

Bu öğrenme çeşidinde veri kümeleri genellikle son derece büyüktür. Öncelikle sistemde “öğrenme kalıplarını” içeren devasa bir veri kütüphanesi oluşturulur.
Veriler genellikle çok yüksek boyutludur, bu sayede her örnekle ilgili çok ayrıntılı bilgileri ölçmek ve saklamak mümkündür.
Birçok uygulamanın büyük ölçekli olması nedeniyle, veriler genellikle dağıtılmış bir şekilde depolanır ve hatta toplanır.

Peki, daha ziyade makine öğrenimi için tasarlanan istatistiksel öğrenmenin canlı bünyelerle nasıl bir alakası vardır?

Bebekler de dâhil olmak üzere insanoğlu çevresinde olup bitenlere karşı oldukça duyarlıdır. Dil ve insan açısından bakıldığında istatistiksel öğrenme, insanların açıktan ya da örtük bir şekilde çevrelerinden maruz kaldıkları etkiyi içsel bir süzgeçten geçirdikten sonra davranış ve tepkilere dönüştürmesini ifade etmektedir.[4] Bu durum dilin aslında çevresel uyaranların zihinde işlenmiş bilişsel bir görüntüsü olabileceği tezini ima etmektedir. Bu nedenle son dönemlerde dil edinimindeki en önemli sorulardan biri, bebeklerin ana dillerini edinmek için istatistiksel öğrenme mekanizmalarını ne ölçüde kullandıkları olmuştur. Nitekim bitişik ögeler arasındaki geçiş olasılığı gibi, bebeklerin dilsel girdideki yapıları çıkarma yeteneklerini gösteren birçok araştırma yapılmıştır (Romberg & Saffran, 2010: 906).

Olasılık Ormanları ve Dil Edinimi

Dil edinimi hususunda bu bakış açısında olan araştırmacılar, belirli bir dili konuşan her bir topluluğun (“olasılık ormanı” benzetmesiyle ifade edilen) kendisine ait bir “algı üretme döngüsü”ne sahip olduğunu iddia etmektedir. Bu döngü sayesinde insan zihni farklı bilişsel kategoriler arasında devasa bir ilişki ağı kurmaktadır. Bu ilişki ağının en önemli besleyicileri de yine yetişkinlerdir. Nitekim bebekler, doğumdan itibaren uzun bir süre konuşma eylemini gerçekleştiremese de yetişkinlere ait konuşmalardaki yüzeysel istatistikleri algılayabilmektedir (Pierrehumbert, 2003: 115). Aslında bu durum insanoğlunun bir çeşit “fonetik okuryazarlık” ile dünyaya geldiğini göstermektedir. Yani bebekler bir konuşmadaki dil bilgisel anlamdaki “karşıt kategorileri” ayırt etme yeteneğine sahiptir (Pierrehumbert, 2003: 115). Bu da istatistik öğrenme ve evrensel dil bilgisinin uyuşabileceği noktalardan biridir. Çünkü insanların neredeyse sınırsız sayıda benzersiz görsel nesneyi tanıma yeteneği, karmaşık görsel özellikleri ortamdan çıkaran sağlam ve verimli bir öğrenme mekanizmasına dayanmalıdır (Fiser, 2002: 18822).

2. İnsan ve Makine Öğreniminin Temel Farkları

İnsan ve makine öğrenme biçimlerinin en temel farkı hataya dayanıklılıktır. Yapay zekâ ile kurgulanmış cihazların genellikle en büyük sorunlarından biri olası hataların daha sonraki öğrenmelerin dengesini bozması ve programlanan makinenin âdeta şizofren davranışlara sürüklenmesidir. Çünkü geleneksel model tabanlı veri işleme yöntemleri, bir sistemin modellemesi için uzmanların bilgi birikimini gerektirir (Du & Swamy, 2013: vii). Oysaki insanoğlu günlük hayatta dilsel veya eylemsel olarak birçok hata yapsa da bu genellikle algoritmik bozukluklara yol açmaz.

Son dönemlerde yapılan çalışmalar neticesinde, istatistik öğrenmenin bu konulardaki açmazları sinirsel ağlar vasıtasıyla çözümlenmeye çalışılmıştır. Sinirsel ağlar, grafik ve bilgi ağlarıyla temsil edilen birtakım istatistiksel yöntemlerin bileşkesi olarak adlandırılabilir (Du & Swamy, 2013: vii). Sinirsel ağlar temelde insanı taklit eden algoritmalarla kodlanmakta ve tıpkı insanlar gibi karmaşık problemleri yine karmaşık kurallarla açıklamaktadır. Du ve Swamy sinirsel ağları şu şekilde açıklamaktadır: Sinirsel ağlar, bilinmeyen bir sistemin iç bağlantılarını vebu sistemin ürettiği neden-sonuç ilişkilerini tanımlayan işlevleri; tahmine dayalı olmayan yöntemlerle doğrudan öğrenen bir kara kutudur. (…) Özellikle karmaşık mantık ve sinirsel ağların bir sinerjisi olan bulanık biliş (neurofuzzy) sistemleri, hem öğrenme hem de bilgi temsili yeteneklerine sahip bir yapı olarak geliştirilmiştir (Du & Swamy, 2013: vii).

Peki, istatistiksel öğrenme kuramına göre doğal bir dilin bilişsel işleyişini belirleyen asıl faktörler nelerdir? Dil öğrenmenin altyapısını nasıl kurulmalıdır?

Dilin istatistiksel öğrenmeye yönelik boyutu özellikle “söylenileni anlama” ve “sözel çalışma belleği” faktörleri üzerinde yoğunlaşmaktadır. Nitekim Misyak ve Christiansen tarafından yapılan bir çalışmada; akıcı zekâ, okuma deneyimi, kelime dağarcığı ve bilişsel motivasyon gibi birçok faktör arasında “söylenileni anlama” ve “sözel çalışma belleği” faktörlerinin doğal dil yetisi ile en güçlü ilişkiye sahip olduğu saptanmıştır (2011: 302). Bu açıdan düşünüldüğünde özellikle bir dil öğrenme sürecinde, üzerinde çalışılan dili anlamaya yönelik çaba sarf edilmesi ve bolca bu dille ilgili materyalle meşgul olunması sözel-zihinsel gelişimi olumlu yönde etkileyecektir.

Tüm bu sonuçlar gösteriyor ki, örtük istatistiksel öğrenme ve söz dizimsel edinim arasında doğrudan bir ilişki vardır. Dünya genelinde yabancı dil öğretiminde yaşanan birçok sorunun temelinde de öğreticilerin “anlamadan anlatma” çabası yatmaktadır. Dolayısıyla yeni bir dil öğrenme sürecindeki bireyde o dile ait anlam evreni zenginleştikçe gramer kendiliğinden üretilmektedir. Başka bir deyişle genel yaklaşımın aksine gramer bir anlam sorunudur. Belki de gün geçtikçe “yapay zekâ”nın gelişimine daha da hayranlıkla bakan insanoğlu, kendisinde “doğal bir zekâ” olduğunun farkına varmalıdır.

İstatistiksel Öğrenmede Duyu Farklılıkları

Bazen insanlar karşılarındakini süreçle değil sonuçla ilgilenmekle suçlar. Bunun nedenini hiç düşündünüz mü? Aslında bunun istatistiksel öğrenmede duyu farklılıkları temelinde oluşan bir yanıtı vardır.

Conway ve Christiansen tarafından yapılan bir çalışmada işitsel modalitenin görme ve dokunmaya kıyasla nicel bir öğrenme avantajı sergilediğini tespit etmiştir. Bu araştırmacılar ayrıca, duyular arasında var olan nitel öğrenme ön yargılarını keşfetmiştir. Örneğin bir veri dizisinin son kısmının öğreniminde kişinin kendi seçimlerinin daha iyi bir öğrenme fırsatı sunduğu saptanmıştır (2005: 24). Dolayısıyla bireyler bir sürecin sonuç evresine dâhil olma konusunda çok daha motive bir durumdadır. Yani sonuç, süreçten daha çekicidir. Bu durum istatiksel öğrenme sürecinin aslında tek birimden oluşan bir yapıya sahip olmadığını göstermektedir.

Sonuç

İstatistiksel öğrenme kuramı dil edinimi ve dilin kökeni tartışmalarına birçok farklı boyut kazandırmış, insana daha “mekanik” bir gözle bakarak birçok geleneksel kalıbı yıkmıştır. Ayrıca bu kuram sayesinde devasa veri yığınlarının “organik söylem ve davranış kalıpları” üretme konusundaki başarısı test edilmiş, insanların sürekli bir şekilde maruz kaldığı örtük ya da açık uyaranların önemi fark edilmiştir. Böylelikle yapay zekâ ile doğal dil, birbirini besleyen eş güdümlü çalışma sahaları hâline gelmiştir. Ancak bu kuram hâlâ birçok konuda evrensel dil bilgisi kuramına muhtaçtır. Öyleyse bu iki kuramı zıtlık temelinde ele almaktansa uzlaştırmak, dil bilim çalışmaları için daha uygun bir bakış açısı olacaktır.

KAYNAKÇA

Boyd, S., Parikh, N., & Chu, E. (2011). Distributed optimization and statistical learning via the alternating direction method of multipliers. Now Publishers Inc.

Brunato, M., & Battiti, R. (2005). Statistical learning theory for location fingerprinting in wireless LANs. Computer Networks, 47(6), 825-845.

Bulf, H., Johnson, S. P., & Valenza, E. (2011). Visual statistical learning in the newborn infant. Cognition, 121(1), 127-132.

Conway, C. M., & Christiansen, M. H. (2005). Modality-constrained statistical learning of tactile, visual, and auditory sequences. Journal of Experimental Psychology: Learning, Memory, and Cognition, 31(1), 24.

Du, K. L., & Swamy, M. N. (2013). Neural networks and statistical learning. Springer Science & Business Media.

Evans, N., & Levinson, S. C. (2009). The myth of language universals: Language diversity and its importance for cognitive science.Behavioral and brain sciences, 32(5), 429-448.

Fiser, J., & Aslin, R. N. (2002). Statistical learning of new visual feature combinations by infants. Proceedings of the National Academy of Sciences, 99(24), 15822-15826.

Foley, W. A. (2009). Functional syntax and universal grammar. Cambridge University Press.

Lidz, J., & Gagliardi, A. (2015). How nature meets nurture: Universal grammar and statistical learning. Annu. Rev. Linguist., 1(1), 333-353.

Macherey, K., Och, F. J., & Ney, H. (2001). Natural language understanding using statistical machine translation. In Seventh European Conference on Speech Communication and Technology.

Misyak, J. B., & Christiansen, M. H. (2012). Statistical learning and language: An individual differences study. Language Learning, 62(1), 302-331.

Nowak, M. A., Komarova, N. L., & Niyogi, P. (2001). Evolution of universal grammar. Science, 291(5501), 114-118.

Saffran, J. R., Aslin, R. N., & Newport, E. L. (1996). Statistical learning by 8-month-old infants. Science, 274(5294), 1926-1928.

Saffran, J. R., Johnson, E. K., Aslin, R. N., & Newport, E. L. (1999). Statistical learning of tone sequences by human infants and adults. Cognition, 70(1), 27-52.

Perruchet, P., & Pacton, S. (2006). Implicit learning and statistical learning: One phenomenon, two approaches. Trends in cognitive sciences, 10(5), 233-238.

Pierrehumbert, J. B. (2003). Phonetic diversity, statistical learning, and acquisition of phonology. Language and speech, 46(2-3), 115-154.

Powers, D. M., & Turk, C. C. (2012). Machine learning of natural language. Springer Science & Business Media.

Romberg, A. R., & Saffran, J. R. (2010). Statistical learning and language acquisition.Wiley Interdisciplinary Reviews: Cognitive Science, 1(6), 906-914.

Vapnik, V. (2013). The nature of statistical learning theory. Springer science & business media.

White, L. (1989). Universal grammar and second language acquisition (Vol. 1). John Benjamins Publishing.

Yang, C. D. (2004). Universal Grammar, statistics or both?.Trends in cognitive sciences, 8(10), 451-456.

Xuegong, Z. (2000). Introduction to statistical learning theory and support vector machines. Acta Automatica Sinica 26.1, 32-42.

DİPNOTLAR

[1] Rosenblatt’ın bilgisayar ortamında tanımladığı algılayıcılarla, örüntü tanımlama ve bu örüntüleri çözmeye yönelik deneyleri istatistiksel öğrenmenin çağ atlamasını sağlamıştır (Vapnik, 2013: 1-4).

[2] Evrensel dil bilgisi, insanların birbirleriyle doğal bir dil aracılığıyla iletişim kurduklarında, bunu tipik olarak basit cümlelerle değil, bağlantılı söylemlerle yaptığını iddia eden bir yaklaşımdır (Foley, 2009: 1). Evrensel dil bilgisine göre, anlaşılır söylem için gerekli ön koşul; konuşmacının karşı tarafa zaman ve şahıs bilgisini açıkça aktarmasıyla mümkündür (Foley, 2009: 1).

[3] Bulf ve arkadaşlarının yaptığı deneyde yenidoğanların dahi istatistiksel öğrenme ilkelerine uygun bazı davranışlar sergilediği görülmüştür (2011: 127).

[4]Görsel ortam, uzay ve zamandaki nesneler arasındaki ilişkileri içeren muazzam miktarda bir bilgi kütüphanesidir. İşte bu durum örtük öğrenme ve istatistik öğrenmenin birbiriyle buluştuğu noktadır. Çünkü insanlar, açık ya da örtük olarak maruz kaldıkları her şeyle etkileşim hâlindedir. Dolayısıyla insanlar, duyuları sayesinde sürekli veri depolar ve benzersiz bilişsel yapılar elde eder. Bu durumu destekler nitelikte, ortamdaki uyaranlara karşı seçici bir dikkat geliştirmese bile örtük uyaranların bulunduğu bir ortamdaki bireylerin zihninde otomatik bir istatistik modellemenin varlığı keşfedilmiştir (Turk-Brown, 2005: 552). Bu, insanların farkındalık geliştirmedikleri bir durumda bile “sürekli bir kayıt hâlinde” olduğunu göstermektedir. Yani zihin aslında yaşadığı her anı kaydetmekte, anılar ve deneyimler biriktirmektedir.

Özet

Başlık

YAPAY ZEKÂ EVRENİNDE DOĞAL DİLİ TANIMLAMAK: İSTATİSTİKSEL ÖĞRENME VE DİL EDİNİMİ

Açıklama

İnsanın dil edinimi sürecinin en önemli besleyicisi dış dünyadır. Bu yönüyle insanlar, sonsuz veri akışını örtük ya da açık bağlamlarda bilişsel olarak depolayan ve elde ettikleri bu deneyimleri davranış ya da söyleme dönüştüren canlılardır. Aslına bakılırsa her insan, isteyerek veya istemeyerek maruz kaldığı uyaranların algoritmik sonuçlarını hayatı boyunca yaşamaktadır. Nitekim son yarım asırda makinelerin de öğrenebileceğinin keşfedilmesi, dil bilimi alanında önemli bir paradigma değişikliğine yol açmıştır. Böylelikle dilin istatistiksel bir alan olduğunu savunan yeni yaklaşımlar, onlarca yıldır dilin kökeni tartışmalarının en büyük açıklayıcılarından biri olan “evrensel dil bilgisini” de derinden sarsmıştır. Çünkü evrensel dil bilgisi, dil edinimini doğuştan getirilen bir yeti olarak görmektedir. Kısacası, öğrenme ve dil edinimini yoğun veri akışına bağlayan istatistiksel öğrenme kuramı, çocukların örtük veya doğrudan uyaranlardan elde ettikleri bilgilerin çok daha zengin öğrenmeler inşa ettiğinin saptanmasıyla, dil bilimi alanında 21. yüzyılın başat aktörü hâline gelmiştir.İşte bu makalede, zamanla etki alanını genişleterek “dil edinimi ve dilin kökeni” tartışmalarının yeni bir boyutu hâline gelen istatistiksel öğrenme kuramı, evrensel dil bilgisi ile karşılaştırmalı olarak tartışılmaktadır.

Yayımcı

Ensar KILIÇ

Yayımlayan

Simit Çay Edebiyat (Akademik)

Logo

4 Yorum

Fil Neye Benzer? - Algılarımız ve Gerçeklikler | Deneme Kasım 23, 2020

[…] YAPAY ZEKÂ EVRENİNDE DOĞAL DİLİ TANIMLAMAK: İSTATİSTİKSEL ÖĞRENME VE DİL EDİNİMİ […]

Yanıtla
Dilin özellikleri: Dil nedir? Dil canlı mıdır? Dil çeşitleri nelerdir? Ocak 17, 2021

[…] ise dil evrensel bir olgudur ve doğuştan getirilen bir yetenektir. Bu konuda detaylı bilgi için istatistiksel öğrenme makalemizi okuyabilirsiniz. Aynı zamanda dil nörobilişsel bir temelle çalışır. Yani dilin kökenini […]

Yanıtla
Belleğin Peşinde (Eric Kandel) - Özet, Yorum, Alıntılar Kasım 14, 2021

[…] eser sayesinde yapay zekâ evrenindeki öğrenme imkânlarını daha iyi […]

Yanıtla
Üretici dönüşümsel dil bilgisi ve Chomsky - Yüzey yapı ve derin yapı Aralık 10, 2021

[…] geldiğini söyler. Ancak günümüzde evrensel grameri eleştiren daha yeni bir tasarım olan istatistiksel öğrenme dil bilim alanında ön […]

Yanıtla