Türkçe Kısa Metinlerde Yazar Tanıma Yönteminin Sınanması ve Geliştirilmesi/Veri

Vikikaynak, özgür kütüphane

Veri

Öncelikle Twitter üzerinde, aşağıda belirtilen varsayım, nitelik ve kısıtlamalar kapsamında, 50 farklı hesaptan paylaşılan 20’şer olmak üzere toplam 1000 adet ileti rastgele biçimde toplanmıştır. Elde edilen bu 1000 gönderinin içerisinden de, karşılaştırma uygulamasında kullanılmak üzere 138 farklı ileti yine rastgele tespit edilmiştir. Bu 138 ileti; 2’şer yazardan ve 5’er yazardan, her yazardan 1’er ve 5’er karşılaştırma metinli olmak üzere seçilmiştir. İletiler, her bir grupta 3’er kez tekrarlanmak üzere toplam 12 tekil uygulamada kullanılmak üzere gruplandırılmıştır.

İncelemeye alınan iletilerin paylaşıldıkları tarihte üretildikleri ve bir hesap aracılığıyla paylaşılmış tüm iletilerin aynı aygıt aracılığıyla yazıldığı varsayılmaktadır. İletilerdeki dil kullanımını etkileyebilecek olan aygıtlarla ilgili bu varsayım, aynı zamanda mevcut çalışma kapsamında olası “etki karışımı” konusunu oluşturmaktadır. Zira aynı yazarın farklı aygıtlar üzerinde oluşturduğu iletiler incelendiğinde, yazarların ayırt edilmesinde kullanılabilecek bazı ölçütlerde hatalı sonuçlar alınması söz konusu olabilecektir. (Tanrıvere, 2018, ss. 184, 190). Bununla birlikte iletileri karşılaştırılacak her bir Twitter hesabının yalnızca bir yazarının olduğu ve ayrıca her bir yazarın sadece bir hesaptan paylaşım yaptığı, incelenen iletilerin yayınlandığı birden fazla hesapta aynı yazarın yer almadığı varsayılmaktadır. Son olarak çalışma kapsamında yazarların, Türkçenin anadil konuşucusu oldukları ve paylaşılan iletilerin, kendi ürünleri olduğu varsayımları da yer almaktadır.

Örneklem için Twitter hesaplarındaki paylaşımlar toplanırken, aynı yazarların iletileri arasında en az iki günlük bir süreç bulunması gözetilmiş olup böylelikle birden çok karşılaştırma metniyle yapılacak deneyler için yazarların anlık değişkenlerden olabildiğince az etkilenmiş yerleşik dilsel üsluplarının tespit edilmesi hedeflenmiştir. Yazarların kendilerine ait olmayan özlü sözler ve sair alıntılar, çalışmanın dışında tutulmuştur. Twitter’de bir ileti için daha önce 140 olan karakter kısıtlaması, Kasım 2017’den sonra 280’e yükseltilmiş ve bu nedenle belirtilen tarihten önceki paylaşımlar örnekleme dahil edilmemiştir. Metin uzunluğu yönünden 2’den fazla sözcük içeren bu paylaşımlar, yalnızca kendileriyle sınırlı olup herhangi bir medya (harici bir internet sitesine bağlantı, fotoğraf veya video, başka bir kimsenin yaptığı paylaşım vb.) içermemektedir. Çalışmanın niteliği gereği çeşitli kurum ve kuruluşların ya da basın danışmanı, sözcü, iletişim kişisi gibi birtakım kimselerin paylaşımda bulunduğu tanınmış kişilerin hesaplarından yapılan paylaşımlar örneklemden hariç tutulmuştur.


  Derlenmiş olan iletilerin tamamı, veri toplama çalışmasının gerçekleştirildiği tarihlerde “herkese açık” olarak yayındadır. Twitter (2018), gizlilik politikası ile sayfasında, herkese açık olarak yapılan paylaşımların üçüncü taraflar tarafından işlenip kullanılabileceği konusunda kullanıcılarını bilgilendirmekte, üye olan ve üyeliğini sürdüren kullanıcılar da bu şartları okumuş ve kabullenmiş sayılmaktadır.