Türkçe Kısa Metinlerde Yazar Tanıma Yönteminin Sınanması ve Geliştirilmesi
Türkçe Kısa Metinlerde Yazar Tanıma Yönteminin Sınanması ve Geliştirilmesi
Testing and Developing Author Identification Method for Short Texts in Turkish
Utku TANRIVERE*
Yazar tanıma, adli dilbilimin belki de en önemli uygulamalarından bir tanesidir. Türkçe alan yazınına bakıldığında ise bu konudaki çalışmaların nispeten kısa bir süredir yapıldığı ve bu çalışmalarda çok kısa metinlerin kullanılmadığı görülmektedir (Amasyalı ve Diri, 2006; Taş ve Görür, 2007; Doğan ve Diri, 2010). Oysaki adli dilbilim çerçevesinde sadece birkaç sözcükten ibaret olan metinler dahi bir inceleme konusu olabilmektedir. Geçmişte, Twitter isimli mikroblog sitesinde yayınlanan metinler (tweet) üzerinde yapılan bir çalışma neticesinde Türkçe alan yazınında bir yöntem önerilmiştir (Tanrıvere, 2018). Bu çalışma kapsamında ise söz konusu yöntem, yine Twitter iletilerinden oluşan yeni bir bütünce ile sınanmış ve yöntemi oluşturan ölçütler sayıca arttırılıp nitel bağlamda da detaylandırılarak geliştirilmeye çalışılmıştır. Yöntem, yazarının kim olduğu bilinmeyen iletilerin yazarı bilinen iletilerle karşılaştırılması neticesinde olumlu sonuçlar vermiştir. Uygulama sürecinde öngörülmemiş başka birtakım ayırt edici ölçütlerin de varlığı gözlenmiş ve bunlar detaylıca sunularak, yöntemdeki ilgili ölçüt gruplarına dahil edilmeleri önerilmiştir. Elde edilen sonuçlar genel olarak, çok kısa metinlerde dahi yazar tespitinin mümkün olduğunu ve yöntemin adli bağlamlarda da kullanılabileceğini göstermektedir.
Anahtar sözcükler: Adli dilbilim, yazar tanıma, yazar tespiti, bireydil, kısa metinler, sosyal medya.
Author identification is probably one of the most important applications of forensic linguistics. Considering scientific literature in Turkish language, related studies have been carried out relatively recently and very short texts have not been used in these studies (Amasyalı & Diri, 2006; Taş & Görür, 2007; Doğan & Diri, 2010). However, texts involving only a few words may also be a subject of study in terms of forensic linguistics. In the past, as a result of a study on published texts (tweets) on a micro-blog site “Twitter”, a method in the scientific literature in the Turkish language had been proposed (Tanrıvere, 2018). In the present study, however, that very method has been tested with a new corpus consisting of tweets again, and the markers within the method were developed by increasing the number and making elaborations qualitatively. This method has brought about successful results by comparing texts with known and unknown authors. In the implementation process, there have been some distinctive but unpredicted markers. These were also given in detail and proposed to be added to the relevant marker group within the method. The results of the study have shown in general author identification is possible even in very short texts and the method may also be used in forensic contexts.
Keywords: Forensic linguistics, author identification, authorship attribution, idiolect, short texts, social media.
Kaynakça
Amasyalı, M. F. ve Diri, B. (2006). Automatic Turkish text categorization in terms of author, genre and gender. C. Kop, G. Fliedl,
H. C. Mayr ve E. Métais (Eds.), 11th International Conference on Applications of Natural Language to Information Systems
içinde (ss. 221-226). Berlin, Heidelberg: Springer.
Bhargava, M., Mehndiratta, P. ve Asawa, K. (2013). Stylometric analysis for authorship attribution on Twitter. BDA 2013
Proceedings of the Second International Conference on Big Data Analytics, 8302, 37-47.
Coulthard, M. (1998). Identifying the author. Cahiers de Linguistique Française, 20, 139-161.
Coulthard, M. (2004). Author identification, idiolect and linguistic uniqueness. Applied Linguistics, 25 (4), 431-447.
Coulthard, M. (2005). Some forensic applications of descriptive linguistics. Veredas - Revista de Estudos Linguísticos, 9, 9-28.
Coulthard, M. ve Johnson, A. (2007). An introduction to forensic linguistics: Language in evidence. London, New York:
Routledge.
Doğan, S. ve Diri, B. (2010). Türkçe dokümanlar için n-gram tabanlı yeni bir sınıflandırma (ng-ind): Yazar, tür ve cinsiyet.
Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, 3 (1), 11-19.
Grant, T. (2008). Approaching questions in forensic authorship analysis. J. Gibbons ve M. T. Turell (Ed), Dimensions of Forensic
Linguistics içinde (ss. 215-229). Amsterdam, Philadelphia: John Benjamins Publishing Company.
Grant, T. ve MacLeod, N. (2018). Resources and constraints in linguistic identity performance: A theory of authorship. Language
and Law / Linguagem e Direito, 5 (1), 80-96.
MacLeod, N. ve Grant, T. (2012). Whose tweet? Authorship analysis of micro-blogs and other short-form messages. In S.
Tomblin, N. MacLeod, R. Sousa-Silva ve M. Coulthard (Eds.), Proceedings of The International Association of Forensic
Linguists’ Tenth Biennial Conference (ss. 210-224). Birmingham: Aston University.
Mayda, İ. ve Amasyalı, M. F. (2016). Yazar tanımada köşe yazısı ve tweet’lerin çapraz kullanımı. 2. Elektrik-Elektronik,
Bilgisayar, Biyomedikal Mühendislikleri Bilimsel Toplantısı’nda sunulan bildiri. İstanbul.
McMenamin, G. R. (2002). Linguistic variation. In G. R. McMenamin (Ed.), Forensic linguistics: Advances in forensic stylistics
(ss. 44-64). Boca Raton, London, New York, Washington D.C.: CRC Press.
Olsson, J. (2008). Forensic linguistics (2. ed.). London, New York: Continuum.
Tanrıvere, U. (2018). Kısa metinlerde yazar tanıma: Twitter için bir yöntem önerisi. Humanitas, 6 (12), 177-192.
doi:10.20304/humanitas.439458
Taş, T. ve Görür, A. K. (2007). Author identification for Turkish texts. Çankaya Üniversitesi Fen-Edebiyat Fakültesi, Journal of
Arts and Sciences, 7, 151-161.
Twitter. (2018). Privacy Policy. https://twitter.com/en/privacy adresinden erişildi.
Wardhaugh, R. (1998). An introduction to sociolinguistics (3. basım). Massachusetts, Oxford: Blackwell.