Türkçe Kısa Metinlerde Yazar Tanıma Yönteminin Sınanması ve Geliştirilmesi/Bulgular
Bulgular
İki Yazar ve Birer İleti
Yazarı bilinmeyen birer ileti (M0) ile ikişer yazarın birer iletisini (rastgele numaralandırılmış M1 ve M2) içeren toplam üç farklı deney (rastgele numaralandırılmış D1, D2 ve D3) gerçekleştirilmiştir. M0 yazarını tespit edebilmek için bu ileti, M1 ve M2 iletileriyle ayrı ayrı karşılaştırılmış, sonucun güvenilirliğini arttırmak maksadıyla M1 ve M2 mesajları da kendi aralarında mukayese edilmiştir. İki yazarın birer iletisiyle yapılan deneylerin ilkine detaylarıyla yer verilmiş, diğer iki deneyin sonuçları ise aşağıdaki tabloda özet olarak sunulmuştur.
Buna göre ilk deneydeki M0 ve M1 iletileri arasında iki ölçütte ayrılık tespit edilmiş, benzerlik gösteren ölçüte ise rastlanmamıştır. Noktalama yönünden ayrılık teşkil eden ölçüt, karşılaştırmada kendini üç kez tekrar etmiştir: M0 iletisinde bir cümle mevcutken cümle sonunda noktalama işareti kullanılmamış, M1 iletisinde yer alan üç cümlenin sonunda da uygun noktalama işaretlerine (sırasıyla nokta, nokta ve soru işareti) yer verilmiştir. M0 iletisinde Instagram adlı ve görsel veri paylaşımı üzerine kurulu sosyal medya platformundaki bir işlevden bahsedilirken “story’e” denilmiş, M1 iletisinde ise Twitter’deki ana sayfa (akış ya da “timeline”, kısaca “time”) kastedilerek “tayma” yazımı tercih edilmiştir. Bu iki ifade, gerek yabancı sözcüğün Türkçe metinde kullanımı gerekse sosyal medya platformlarının birer alanı olarak eşdeğerdir ve yazımlarında farklılık görülmesi, yazar tanıma çalışması bakımından kayda değer bulunmuştur.
M0 ve M2 iletileri arasında ise bir benzerlik bulunmuştur: Her iki iletide de birer cümle oluşturulmuş ancak sonlarında noktalama işaretine yer verilmemiştir. Bunun dışındaki ölçütler ise ya metnin biçim ve içeriği itibariyle uygulanabilir değildir ya da her iki iletinin de büyük harfle başlaması gibi ölçünlü dil kuralları kapsamında benzer sonuç verdiğinden “etkisiz” olarak değerlendirilmiştir.
Sonuç olarak iki yazarla yapılan ilk deneyde, M0 ile M2 iletilerinin aynı yazar tarafından yayınlandığı değerlendirmesi yapılmış ve bu karşılaştırma doğrulanmıştır.
Deney | Karşılaştırma | Ayırt edici ölçüt | Benzerlik sayısı | Ayrılık sayısı | Sonuç |
D2 | M0-M1 | 5 | 0 | 5 | M0=M2 |
M0-M2 | 2 | 2 | 0 | ||
D3 | M0-M1 | 3 | 3 | 0 | M0=M1 |
M0-M2 | 3 | 0 | 3 |
Yukarıdaki tabloda ikinci deneyle ilgili sunulan M0-M2 benzerliğiyle ilgili olarak, her iki iletinin de sonunda nokta kullanılmasıyla birlikte her iki örnekte de noktanın ikişer kez ardışık olarak kullanıldığı ve bunun, benzerliği pekiştiren bir unsur olarak değil, iki ayrı benzerlik olarak değerlendirildiğini belirtmek gerekir. Zira yazarın her iki iletide noktalama işareti kullanımı ile birlikte bunların sayısına dair eğilimi de tutarlıdır. M0 ve M2 iletilerinin aynı yazara ait olduğu değerlendirmesi yapılarak gerçekleştirilen kontrolde bu tespit doğrulanmıştır.
Üçüncü deneyde ise M0 ve M2 iletileri arasında 3 ayırt edici ölçüt kullanılmış ve bunların tamamı farklı sonuç vermişken, M0 ve M1 iletileri arasında yapılan karşılaştırmada kullanılan 3 ölçütün tamamından benzeşen sonuç alınmıştır. Karşılaştırmanın ardından M0 ve M1 iletilerinin aynı hesaptan yayınlandığı görülmüştür.
İki Yazar ve Beşer İleti
İkinci aşamada yazarı bilinmeyen bir M0 iletisi karşısında, iki yazarın beşer farklı iletisi karşılaştırmaya konu edilmektedir. Bu noktada önceki deneylerin aksine M0 iletisi ile diğer iletiler değil, yazarlar (rastgele numaralandırılmış Y1 ve Y2) karşılaştırılacaktır. Diğer bir deyişle beş ayrı iletisi toplanan her iki yazarın da, bu beş paylaşımdaki genel dil kullanımları tespit edilerek M0 iletisi karşısında ele alınmaktadır.
Bir kontrol iletisi karşısında iki yazarın beşer farklı iletisinin mukayese edildiği ilk deneyde, öncelikle M0 iletisinin özellikleri tespit edilmiştir. Buna göre ileti, bir sıralı cümleden ibaret olup tümceler noktalama işareti (virgül) ve bağlaç ile bir araya getirilmiştir. Bu noktalama işareti dışında cümle içinde veya sonunda noktalama işareti kullanılmamıştır. Cümleye küçük harfle başlanan iletinin konusu romantik ilişkilerdir. İletide konu etiketi veya şekil ve işaret bulunmamaktadır.
Y1 yazarının üslubu incelendiğinde, bazı sıralı cümleler noktalama işaretiyle bir araya getirilmişse de bu eğilimin tutarlı (sürekli) olmadığı görülmüştür. Cümle ve ileti sonlarında noktalama işareti kullanmayan yazar, tırnak içindeki cümlelerin içinde veya sonunda da noktalama işareti kullanmamıştır. Tırnak işaretlerini çift (standart: “ ”) kullanan yazar, iletilerine küçük harfle başlamaktadır. Hezeyan içeren ifadelerde sözcüklerin tamamı büyük harfle yazılmış, bunun dışında dikkat çekici bir yabancı sözcük ya da argo ve jargon kullanımına rastlanmamıştır. Sıralı cümle olarak kurgulanan iletilerin konusu romantik ilişkilerdir. Sayılar, yalnızca zaman ölçüsü belirtilirken (“5 dakika”) rakamla ifade edilmiştir. Konu etiketi veya şekil ve işaret kullanılmamıştır.
Y2 yazarı, hiçbir iletisinde noktalama işareti kullanmamıştır. Yazarın “giriyolar”, “sövücen”, “davranıcan”, “benimde”, “getirde”, “yazmıcaksan” (sırasıyla “giriyorlar”, “söveceksin”, “davranacaksın”, “benim de”, “getir de”, “yazmayacaksan”) ifadeleri, ölçünlü dilden çeşitli bakımlardan uzaktır. Yazar, oluşturduğu iletilerin sonunda “aq” ifadesine yer vermektedir. Konuları çeşitlilik gösteren iletilerde bağlaç kullanılmamış olup bir iletide “2 şeker” denilerek sayı, rakamla yazılmıştır. Konu etiketi veya şekil ve işaret görülmemiştir.
M0 iletisi ve Y1 yazarı arasında dört benzerlik bulunmuştur: Cümle ve ileti sonundaki noktalama işaretleri, iletilere küçük harfle başlanması, iletilerde argo kullanılmayışı ve konu içeriklerinin romantik ilişki çağrışımlı oluşu benzerdir.
M0 iletisi ile Y2 yazarı karşılaştırıldığında ise dört ayırt edici ölçütten ikisi benzer, ikisi ayrı sonuç vermiştir. Buna göre noktalama işaretleri ve iletilere küçük harfle başlanması yönünden benzerlik görülmüş ancak ölçünlü dilden uzaklaşan ifadeler ile argo kullanımı bakımından ise ayrılık tespit edilmiştir.
Sonuç olarak iki yazarla yapılan bu deneyde, M0 iletisinin Y1 yazarı tarafından yayınlandığı değerlendirmesi yapılmış ve bu karşılaştırma doğrulanmıştır.
Deney | Karşılaştırma | Ayırt edici ölçüt | Benzerlik sayısı | Ayrılık sayısı | Sonuç |
D2 | M0-Y1 | 3 | 3 | 0 | M0=Y1 |
M0-Y2 | 3 | 0 | 3 | ||
D3 | M0-Y1 | 5 | 1 | 4 | M0=Y2 |
M0-Y2 | 5 | 5 | 0 |
Tabloda sunulmuş olan ikinci deneyin karşılaştırma iletisinde (M0) noktalama işareti kullanılmamıştır. Y1 kodlu yazar ise yalnızca bir iletisinde birer kez cümle içinde ve sonunda noktalama işareti kullanmış olup diğer dört iletisinde hiçbir noktalama işaretine yer vermemiştir. Y2 kodlu yazarın, tüm iletilerinde noktalama işareti kullanması dolayısıyla Y1 yazarının münferit olarak yalnızca bir iletide noktalama işareti kullanmış oluşu göz ardı edilmiştir. Y2 yazarı ise bir iletide cümleye küçük harfle başlamış ve bir iletiyi ardışık iki nokta ile sonlandırmıştır. Ayrı ayrı birden çok iletide tekrar etmediğinden, bu özellikler de yazara ait ileti ve cümlelerin büyük çoğunluğuna göre belirlenmiştir. M0 iletisinin, Y1 kodlu yazar tarafından yayınlandığı tespiti doğrulanmıştır.
İki yazarın beşer iletisiyle gerçekleştirilen üçüncü deneyde, tanımlı ölçütlerle birlikte Türkçe karakter (ç, ı, ğ, ö, ş, ü) kullanımı ve “bir” veya “bi” yazımında görülen farklılıklar da öne çıkmıştır. Kontrol iletisi olan M0 ile Y1 yazarı arasında görülen tek benzerlik iletilerin küçük harfle başlamasıyken, dört farklı ölçütte ayrılık görülmüştür. Y2 yazarının iletilerinde ise ayırt edici olarak kullanılan beş ölçütte de benzer sonuç alınmıştır. Karşılaştırmanın ardından M0 iletisinin, Y2 kodlu yazar tarafından yayınlandığı görülmüştür.
İki yazarın birer ve beşer iletisiyle yapılan ilk deneylerde incelemenin detaylarına yer verilmiştir. Bu nedenle beş yazarın birer iletisiyle yapılan karşılaştırmaların sonuçları, aşağıdaki tabloda genel olarak sunulmaktadır. Yazar tanıma uygulaması bağlamında önem arz eden konular ile üçüncü deneyin detaylı açıklamasına ise tablonun altında ayrıca değinilmektedir.
Deney | Karşılaştırma | Ayırt edici ölçüt | Benzerlik sayısı | Ayrılık sayısı | Sonuç |
D1 | M0-M1 | 5 | 3 | 2 | M0=M4 |
M0-M2 | 4 | 1 | 3 | ||
M0-M3 | 4 | 0 | 4 | ||
M0-M4 | 5 | 4 | 1 | ||
M0-M5 | 3 | 2 | 1 | ||
D2 | M0-M1 | 2 | 0 | 2 | M0=M3 |
M0-M2 | 4 | 0 | 4 | ||
M0-M3 | 3 | 3 | 0 | ||
M0-M4 | 2 | 0 | 2 | ||
M0-M5 | 2 | 0 | 2 | ||
D3 | M0-M1 | 3 | 2 | 2 | M0=M2 |
M0-M2 | 2 | 2 | 0 | ||
M0-M3 | 2 | 1 | 1 | ||
M0-M4 | 2 | 1 | 1 | ||
M0-M5 | 2 | 1 | 1 |
Gerçekleştirilen ilk deneydeki iletiler, kontrol iletisi karşısında değişen ayırt edici ölçütlerle yer yer benzerlik ve farklılıklar göstermiştir. Bu ölçütlerin niteliği ile birlikte karşılaşılan benzerliklerin fazlalığı ve ayrılıkların azlığı, bunların iletilerde kaç kez ve ne sıklıkla tekrar ettiği göz önünde bulundurulmuştur. Bu noktada M0 ve M4 iletileri, yalnızca en fazla benzerlik ve en az ayrılık gösteren ölçüt sayısıyla değil, bu ölçütlerin iletilerdeki tekrarı bakımından da öne çıkmıştır ve bu iki iletinin aynı hesaptan yayınlandığı tespit edilmiştir.
İkinci deney grubundaki beş iletiden yalnızca bir tanesinde benzerlik taşıyan ve hiçbir farklılık göstermeyen özellikler görülmüştür. Daha önce ancak pekiştirici unsur olarak değerlendirilebileceği, ancak karşılaştırmaya esas teşkil etmemesi gerektiği belirtilen (Tanrıvere, 2018, ss. 184, 190) ölçünlü dil benzerlikleri de dikkate alındığı takdirde M0-M3 iletilerindeki benzerliğin arttığı tespit edilmiştir. Yapılan kontrolde de bu iki iletinin aynı kişi tarafından yazıldığı anlaşılmıştır.
Üçüncü deney grubunda her ileti, kontrol iletisi karşısında en az bir ölçütte benzer ve en az bir ölçütte farklı sonuç vermiştir. İletilerin çok kısa olması nedeniyle sonuçların birbirine oldukça yakın olduğu görülmektedir: Kontrol iletisi M0 toplam 6 sözcük içermekte, deneydeki en uzun ileti 17 ve en kısa ileti 4 sözcükten oluşmaktadır. Kontrol iletisi bir cümleden ibarettir ve cümle içinde gerekmesine rağmen bir virgül kullanılmamıştır. Ne var ki sosyal medyada yapılan gözlemlerde, “… değil, …” biçiminde kurgulanan ifadelerin çoğunda virgül kullanılmadığı tespit edilmiştir. Bu nedenle kontrol iletisindeki “cümle içi noktalama eksiği”, ayırt edici bir ölçüt olarak karşılaştırmada kullanılmamıştır. Bu deneyde kullanılan her bir iletinin karşılaştırma sonuçlarına ayrıca yer verilmesi gerekli görülmektedir.
M5 iletisi cümle sonunda noktalama işareti kullanılması yönünden ayrılık ve ileti sonunda noktalama işareti kullanılmaması yönünden de benzerlik taşımaktadır. Bu iletide ikişer noktalama işareti kullanılmasının, noktalama işaretinden önce bir boşluk bırakılmasının ve diğer işaretler bakımından öntanımlı yüz ifadelerine yer verilmesinin karşılaştırmaya bir etkisi yoktur. Zira M0 iletisinde noktalama işareti kullanılmadığından, bu işaretten önce boşluk bulunması veya bulunmaması ayırt edici değildir. Şekil ve diğer işaretlerin kullanımı ise aynı yazarın iletileri arasında da değişkenlik göstermekle birlikte, ancak kullanılması hâlinde biçim ve sayı yönünden karşılaştırmaya konu edilmektedir.
M4 iletisinde ise cümle (ve ileti) sonunda noktalama işaretine yer verilmemiş ancak cümleye büyük harfle başlanmış, bu nedenle bir ölçütte benzerlik ve bir ölçütte farklılık tespit edilmiştir.
M3 iletisinde cümle (ve ileti) sonunda noktalama işareti bulunması bir farklılık, cümleye küçük harfle başlanması ise bir benzerlik unsurudur.
M1 ve M2 iletilerinde ise cümle (ve ileti) sonunda noktalama işareti kullanılmaması ile cümleye küçük harfle başlanması, bu iletiler için tespit edilen iki benzerlik ölçütüne karşılık gelmektedir. Ne var ki, kontrol iletisi olan M0’da “güzellik” konusundan bahsedilerek “ruh güzelliği”ne değinilirken, M1 iletisinde bir sporcudan bahsedilerek “at ağzını s*kerim”[1], “i*ne”, “yallah arabistana” ifadelerine yer verilmesi; sözcük ve bağlam özellikleri bakımından bu iki iletinin birbirinden kuvvetle uzaklaşmasına neden olmuştur. Böylelikle en fazla benzerlik ve en az farklılık ölçütü gösteren ileti, M2 olarak tespit edilmiştir.
Beş Yazar ve Beşer İleti
Beş farklı yazarın beşer iletisinden elde edilen üslup özellikleriyle kontrol iletisi M0’ın karşılaştırıldığı üç ayrı deneyin özetlenmiş sonuçları, aşağıdaki tabloda sunulmuştur. Bu deneylerle ilgili vurgulanması gerekli görülen konulara tablonun altında yer verilmektedir.
Deney | Karşılaştırma | Ayırt edici ölçüt | Benzerlik sayısı | Ayrılık sayısı | Sonuç |
D1 | M0-Y1 | 4 | 0 | 4 | M0=Y4 |
M0-Y2 | 3 | 3 | 0 | ||
M0-Y3 | 4 | 2 | 2 | ||
M0-Y4 | 6 | 6 | 0 | ||
M0-Y5 | 6 | 1 | 5 | ||
D2 | M0-Y1 | 1 | 0 | 1 | M0=Y3 |
M0-Y2 | 1 | 0 | 1 | ||
M0-Y3 | 1 | 1 | 0 | ||
M0-Y4 | 1 | 0 | 1 | ||
M0-Y5 | 3 | 0 | 3 | ||
D3 | M0-Y1 | 1 | 0 | 1 | M0=Y4 |
M0-Y2 | 2 | 1 | 1 | ||
M0-Y3 | 2 | 0 | 2 | ||
M0-Y4 | 2 | 2 | 0 | ||
M0-Y5 | 2 | 0 | 2 |
İlk deneyde sadece benzer sonuç verip farklılık göstermeyen yazarlar, 3 ölçütle Y2 ve 6 ölçütle Y4 olarak tespit edilmiştir. Y2 yazarı; yalnızca soru cümlelerinin sonunda ikişer kez soru işareti kullanıp diğer cümlelerin sonunda noktalama işaretine yer vermemesi, cümleye küçük harfle başlaması ve argo kullanımı[2] yönünden benzerlik göstermiştir. Y4 yazarı ise tıpkı M0 iletisinde olduğu gibi bir defa kesme işareti (‘) kullanıp cümle içinde başkaca noktalama işaretine yer vermemiş, cümle ve ileti sonunda noktalama işareti kullanmamıştır. Yazar aynı zamanda kontrol iletisinde olduğu gibi cümlelere küçük harfle başlamış, özel isimlerin ilk harflerini küçük yazmış ve Türkçe karakter (ç, ı, ğ, ö, ş, ü) kullanmamıştır. Bununla beraber M0 iletisinde yabancı bir dizi karakterinden bahsedilirken, Y4 yazarının bir iletisinde bu karakterin yer aldığı diziden bahsedilmiş, bir başka iletide ise “dizi hayranlarına yönelik internet sitesi” (“fansite”) konu edilmiştir. Dolayısıyla konu, özel isimlerin küçük harfle yazılması ve Türkçe karakter kullanılmayışı; Y4 yazarını M0 iletisi ile benzerliği bağlamında öne çıkarmıştır.
Yapılan ikinci deneyde toplam sekiz sözcük içeren kontrol iletisi, yalnızca bir ölçütte ayırt edici sonuç vermiştir ve bu, yazarın cümle (ve ileti) sonunda noktalama işareti kullanmayışıdır. Y1, Y2, Y3 ve Y4 yazarlarında ise muhtelif ayırt edici ölçütlerin varlığı tespit edilse de M0 iletisiyle karşılaştırılabilecek yalnız bir ölçüt bulunduğu görülmüştür: Cümle ve ileti sonu noktalama işaretlerinin varlığı. Diğer ölçütlerin hiçbiri, M0 iletisinin biçim ve içeriği itibariyle karşılaştırılabilir durumda değildir. Y5 yazarının ise noktalama işareti kullanmakla birlikte her iletisinde cümle içindeki bazı sözcüklerin büyük harfle başladığı ve tüm iletilerin, tıpkı şiirlerde olduğu gibi mısra düzeniyle ve her satır arasında birer boş satır bırakarak oluşturulduğu görülmüştür. Cins isimlerin başında büyük harf kullanılması ve iletinin biçimsel düzeni, ayrı ayrı ayırt edici birer ölçüt olarak not edilmiştir. Y3 yazarının cümle sonlarında noktalama işareti kullanmaması ve diğer tüm yazarların tesadüfî biçimde cümle ve ileti sonunda ilgili noktalama işaretine sürekli olarak yer vermesi, bu incelemede belirleyici olmuştur. Ne var ki bu tespitin hem istatistiksel hem de bilimsel olarak güvenilirliği tartışmaya son derece açık görünmektedir. Dolayısıyla yazar tanıma çalışmaları için mümkün olduğunca çok veri içeren, uzun metinlerin elde edilmesinin önemi bir kez daha ortaya çıkmaktadır.
Bu çalışma kapsamında gerçekleştirilen son deneyde kontrol iletisi, oldukça az miktarda dilsel veri içermekte olup toplam 5 sözcükten ibarettir. İletinin (ve cümlenin) sonunda noktalama işaretine yer verilmeyişi, yöntem bağlamında yer verilen ölçütler içerisindeki tek ayırt edici özellik olarak görülmektedir. Ayrıca içerik ele alındığında, yazarın erkek olduğu anlaşılmaktadır. Buna göre Y1 yazarı noktalama yönünden, Y3 ve Y5 yazarları ise hem noktalama hem de cinsiyet yönünden ayrılık göstermektedir. Zira Y3 ve Y5 yazarlarının oluşturduğu iletilere bakıldığında, yazarların kadın olduğu açıkça tespit edilebilmektedir. Y1, Y2 ve Y4 yazarlarının karşılaştırma iletileri ise bu konuda net bir tespit yapılmasına elverişli değildir. Netice olarak, Y2 ve Y4 yazarları, noktalama işareti kullanmamaları bakımından M0 iletisiyle benzerlik taşımaktadır. Bu esnada, her ne kadar yöntem bağlamında bir ölçüt olarak sunulmamışsa da iletilerin uzunluğunda açık bir farklılık olduğu görülmüştür. Kontrol iletisi 5 sözcükten ibaretken; Y2 yazarının iletileri en az 8, en fazla 27 ve ortalama 15,8 sözcükten oluşmaktadır. Y4 yazarının iletileri ise en az 5, en fazla 12 ve ortalama 6,8 sözcük içermektedir. Y2 yazarı, iletilerinde genellikle sebep-sonuç ilişkileri kurmuş, sıralı ve birleşik cümleler tercih etmiştir. Y4 yazarı ise daha yalın ve basit biçimde birtakım tespitlere yer verirken bunları basit cümlelerle aktarmıştır. Bu yönüyle, sözcük sayısı ve cümle kurgularının ayrı bir ölçüt olarak sayılmasıyla Y4 yazarının iletileri ile M0’ın benzerliği artmış ve yapılan kontrolde, M0 iletisinin Y4 tarafından yazıldığı doğrulanmıştır.
Özgül olarak bu deney, yöntem dahilindeki ölçütlerin ortalama sözcük sayısı ve ileti kurgusunu (cümle yapıları ile bir konunun ele alınış biçimlerini) da içerecek şekilde geliştirilmesinin, özellikle kısa metinlerde yazar tespiti açısından önemini ortaya koymaktadır. Bunlarla birlikte ileti içeriklerinden anlaşılabilmesi hâlinde, yazar cinsiyetinin veya yazara ilişkin başka birtakım bilgilerin belirlenmesi de uygulamaya ve dolayısıyla yazarın tespit edilmesine katkı sağlayacaktır.