Türkçe Kısa Metinlerde Yazar Tanıma Yönteminin Sınanması ve Geliştirilmesi/İlgili Alanyazın

Türkçe Kısa Metinlerde Yazar Tanıma Yönteminin Sınanması ve Geliştirilmesi
Utku Tanrıvere
İlgili Alanyazın

İlgili Alanyazın

Özellikle İngilizce alan yazınına bakıldığında hem genel bağlamda metinler hem de doğrudan kısa metinler çerçevesinde gerek dilbilimciler gerekse bilgisayar bilimciler tarafından çok çeşitli yazar tanıma çalışmalarının yapıldığı görülmektedir (Amasyalı ve Diri, 2006; Bhargava, Mehndiratta ve Asawa, 2013; Coulthard, 1998, 2004; Grant, 2008; MacLeod ve Grant, 2012; Taş ve Görür, 2007). Ne var ki, özellikle bilgisayar bilimcilerin kısa metinler özelinde gerçekleştirdikleri stilometrik çalışmalar, adli dilbilim bağlamında karşılaşıldığı belirtilen metinlerin metin uzunluğu yönünden niteliği ve dolayısıyla ihtiyaç duyulan yaklaşımdan uzak görünmektedir.

Örneğin Twitter üzerinde stilometrik yöntemlerle gerçekleştirilen bir yazar tanıma uygulaması kapsamında sözcüksel ve sözdizimsel unsurlar ile birlikte Twitter sitesine özgü özellikler ve duygu belirtmeye yarayan diğer işaretler (emoji) olmak üzere dört başlık içeren bir çalışma yapılmıştır (Bhargava ve diğerleri, 2013): Dört başlıkta yer alan ölçütler birlikte kullanıldığında yazar tanıma yöntemi 10 ileti içeren bir grupta %91,11 gibi önemli bir başarı sağlamışsa da çalışmanın her bir yazardan 300 farklı ileti (tweet) seçildikten sonra, 5-6 sözcük içeren kısa iletilerin hariç tutularak gerçekleştirildiği görülmektedir.^[1] Dolayısıyla örneklem, yukarıda ifade edildiği gibi adli dilbilim yazını bağlamında, kısa metinler üzerine gerçekleştirilen yazar tanıma uygulamalarına ilişkin ihtiyaca karşılık vermemektedir.

Doğrudan adli dilbilim alanına katkıda bulunan yazarlar olarak MacLeod ve Grant (2012) ise farklı hassasiyet düzeylerinde, daha önce değinilen adli bağlama çok daha yakın bir uygulama gerçekleştirmiştir. Bu çalışma kapsamında tekil iletiler için yapılan karşılaştırmada %90’a, gruplandırılmış birden fazla ileti için yapılan uygulamada ise %100’e varan sonuçlar elde edilmiş olmakla beraber çalışmanın hiçbir safhasında bir ileti yanlış bir yazara atfedilmemiş, diğer bir deyişle hiçbir durumda “hatalı pozitif” sonuç alınmamıştır (MacLeod ve Grant, 2012, s. 219-221). Uzmanlar, yazar tanıma için kullandıkları ölçütleri dilbilgisi, sözcük, noktalama ve üretim biçimine özgü diğer özellikler olarak dört ana başlık altında sunmaktadır (MacLeod ve Grant, 2012, s. 217-218). Mevcut çalışmada sınanmak istenen yöntem de oldukça yakın bir ölçüt gruplandırması önermektedir (Tanrıvere, 2018, s. 184).

Türkçe örneklem ile gerçekleştirilen çalışmalara bakıldığında bilgisayar bilimcilerin, yazar tanıma çalışmalarına dilbilimcilerden daha fazla ilgi duyduğu görülmekteyse de, İngilizce alan yazını için değinilen yöntem ve veri niteliği, bu çalışmalar genelinde de geçerliliğini korumaktadır (Tanrıvere, 2018, s. 179-180). Yazın kapsamında istatistik temelli (stilometrik) ölçüm yöntemleri, örneklem olarak gazetelerin köşe yazıları üzerinde uygulanmış ve bu yazıların köşe yazarlarıyla eşleştirilmeleri sağlanmıştır (Amasyalı ve Diri, 2006, s. 222, 224; Doğan ve Diri, 2010, s. 11-12; Taş ve Görür, 2007, s. 153-154). Nispeten daha yakın bir zamanda ise on köşe yazarının yazmış olduğu 50’şer köşe yazısı ile aynı yazarların kendi Twitter hesaplarında paylaştıkları 200’er ileti bir çalışmaya konu edilmiş, Twitter ortamında paylaşılmış her bir iletinin, tek tek, bir köşe yazısıyla eşleştirilmeye çalışılmasındansa, bu iletilerin bir araya getirilmesiyle oluşturulan bir grubun karşılaştırmaya konu edilmesinin, uygulama kapsamında daha verimli olacağı görüşü ifade edilmiştir (Mayda ve Amasyalı, 2016).

Değinilen çalışmalar Türkçe bağlamında önerilen yazar tanıma uygulamaları olarak oldukça kayda değer olsalar da, kısa metinlerin incelenmesinde aynı derecede geçerli olduklarını söylemek mümkün olmamaktadır. Benzer şekilde, İngilizce alan yazınında da yazar tanıma konusundaki yöntemlerin çoğunun, kısa metinlerde yazar tanıma uygulaması için uygun olmadıkları belirtilmiştir (MacLeod ve Grant, 2012, s.210).

Bu çalışma çerçevesinde geliştirilmesi ve sınanması hedeflenen yöntem ise doğrudan adli dilbilimsel yazar tanıma uygulamaları için, Twitter adlı mikro-blog sitesinden seçilen örneklemin incelenmesi ile yakın bir zamanda önerilmiştir (Tanrıvere, 2018, s. 177). Twitter üzerinde iletilerini “herkese açık” (public) olarak paylaşan rastgele 10 hesaptaki yine rastgele 5’er adet olmak üzere toplam 50 ileti incelenmiş ve farklı yazarların oluşturdukları iletiler arasında görülen noktalama işareti veya büyük ve küçük harf kullanımı gibi farklılıklar, karşılaştırmaya yönelik bir ölçüte dönüştürülerek sunulmuştur (Tanrıvere, 2018, ss. 180-181). Söz konusu ölçütler yöntem başlığı altında detaylandırılmaktadır. Ayrıca çalışma kapsamında incelemeye konu edilen iletilerin tamamı, Twitter kullanıcıları tarafından Kasım 2017’den önce paylaşılmıştır (Tanrıvere, 2018, s. 181) ve belirtilen tarihten önce Twitter’de oluşturulabilecek iletilerin uzunluğu günümüzdeki gibi 280 değil, 140 karakter ile sınırlıdır. Dolayısıyla burada sınanacak olan yöntem, 140 karakter ile sınırlı iletilerin incelenmesiyle önerilmiştir. Bu durumun, mevcut çalışma kapsamında herhangi bir olumsuzluk yaratmayacağı değerlendirilmekte, zira uzun metinler için geliştirilen yazar tanıma yöntemleri kısa metinlerde kullanışlı olmasa da bunun aksinin herhangi bir fark yaratmayacağı varsayılmaktadır.

↑ Yazar tanıma için önerilen yöntemlerin başarılı olması adına çok kısa metinlerin çalışmadan hariç tutulması oldukça anlaşılırdır. Bununla birlikte beş ya da altı sözcük içeren metinlerin de adli dilbilim uygulamaları kapsamında yazar tanıma faaliyetine konu olması muhtemeldir. Bu çalışma ile sınanacak yöntem için, en az üç sözcük içeren iletiler seçilecek, yalnızca bir veya iki sözcük içeren iletiler hariç tutulacaktır.

[1] Yazar tanıma için önerilen yöntemlerin başarılı olması adına çok kısa metinlerin çalışmadan hariç tutulması oldukça anlaşılırdır. Bununla birlikte beş ya da altı sözcük içeren metinlerin de adli dilbilim uygulamaları kapsamında yazar tanıma faaliyetine konu olması muhtemeldir. Bu çalışma ile sınanacak yöntem için, en az üç sözcük içeren iletiler seçilecek, yalnızca bir veya iki sözcük içeren iletiler hariç tutulacaktır.

[1]