Türkçe Kısa Metinlerde Yazar Tanıma Yönteminin Sınanması ve Geliştirilmesi/Giriş

Türkçe Kısa Metinlerde Yazar Tanıma Yönteminin Sınanması ve Geliştirilmesi
Utku Tanrıvere
Giriş

Giriş

Soruşturma ve kovuşturma makamları tarafından adli dilbilim uzmanlarına yöneltilen talepler dikkate alındığında yazar tanıma, adli dilbilimin en önemli konularından biri olarak ortaya çıkmaktadır (Coulthard, 2005, s. 10). Birden fazla metin üzerinde yapılan incelemelerle yazarı aynı ve farklı olanların tespit edilmesi yoluyla gerçekleştirilen yazar tanıma faaliyetleri; başta fikrî mülkiyet hakkı ihlâlleri ve dolayısıyla intihaller olmak üzere tehdit, hakaret, cinsel taciz ya da devlet sırlarının açıklanmasına benzer doğrudan yazılı dil aracılığıyla işlenebilecek suçların aydınlatılmasında rol oynayabileceği gibi başka birtakım suç ve hukukî uyuşmazlık konularıyla ilgili olarak da maddî gerçeğin ortaya çıkmasına katkı sağlayabilir. Bir kişinin hürriyetinden alıkonulduğu mekânda bulunan ve fail tarafından yazılmış bir not ya da bir yazılımın kaynak kodu içerisinde yer alan notların (source code comment) incelenmesi bu noktada örnek olarak gösterilebilir.

Yazar tanıma uygulamaları, mevcut yazılı dilsel veri bağlamında belirli birtakım koşullar altında gerçekleştirilmektedir. Bu nedenledir ki Grant (2008, ss. 216, 227), yazar tanıma çalışmaları kapsamında tek, belirli ve her koşulda, her türlü dilsel veriye uygulanabilecek bir yöntem ya da yaklaşım olmadığını ifade eder. Teknolojinin giderek gelişmesiyle birlikte internet erişiminin ve sosyal medya kullanımının kayda değer bir hızla artması, birtakım suç ve uyuşmazlık konularını bu platformlara da taşımış ve neticesinde bu ortamlardaki dilsel veri üzerinde de çalışma yapılabilmesini mümkün kılacak yeni yöntem ve yaklaşımlara gereksinim duyulmaya başlanmıştır. Twitter adlı mikro-blog sitesi ise kullanıcıların tek seferde yazabilecekleri iletileri 280 karakterle sınırlaması bakımından tüm sosyal medya platformları içerisinde adli dilbilim ve yazar tanıma bağlamında ayrı bir yere sahiptir. Zira, uzunluk yönünden herhangi bir kısıtlama bulunmadan yazılmış olan metinler ile 280 karakter gibi nispeten kısıtlı uzunluktaki metinler üzerinde uygulanabilecek yazar tanıma yöntemlerinin farklılık arz edeceği açıktır.

Uzunluk yönünden herhangi bir kısıtlamanın bulunmadığı ve görece fazla dilsel veri içeren metinlerde cümle uzunluğu, sözcük türleri, tekrar eden sözcük oranı gibi stilometrik ölçümler başarıyla uygulanabilse de gerek metin uzunluğuna getirilen kısıtlama gerekse adli dilbilim uygulamaları genelinde incelemeye konu edilen metinlerin oldukça kısa olması (Coulthard ve Johnson, 2007, ss. 162, 172), bahsi geçen stilometrik yöntemlerle istatistiksel açıdan anlamlı karşılaştırmalar yapmayı zorlaştırmaktadır (Tanrıvere, 2018, ss. 187, 189). Bu çalışmanın amacı ise, Türkçe kısa metinlerin (tweet) incelenmesi üzerine daha önce önerilmiş adli dilbilmsel bir yöntemin (Tanrıvere, 2018) geliştirilmesi, farklı hassasiyet düzeylerinde sınanması ve uygulamanın verimliliği ile birlikte kısıtlılıkları bağlamında sonuçların ortaya konulmasıdır.