(2010). Türkçenin Biçimbirim ve Sözcük Türü

Transkript

(2010). Türkçenin Biçimbirim ve Sözcük Türü
TÜRKÇENİN BİÇİMBİRİM VE SÖZCÜK TÜRÜ İŞARETLEMESİ 1
Ümit MERSİNLİ ve Mustafa AKSAN
Mersin Üniversitesi
[email protected], [email protected]
1. GİRİŞ
Türkçe bilgisayarlı dil işleme ve derlem dilbilim alanlarında sözcük türü ve biçimbirim
işaretleme pek çok çalışmanın konusu olmuştur. Kullanılan işaretler biçimbirim sıralamasına
dönük olsa da, alanda ilk çalışma olarak Hankamer (1989)’u gösterebiliriz. Oflazer (1994a,
1994b) ve Çiçekli ve Temizsoy (1997) iki-düzeyli biçimbilim yöntemleri kullanılarak yapılan
ilk çalışmalardır. Biçimbirim ayrıştırma konusunda ise ekten-köke yönelimli çalışmalar arasında
Sever (2003), Adalı (2002, 2004) ve Çilden (2006)’yı sayabiliriz. Akın ve Akın (2007) ise
biçimbirim işaretleme de yapabilen açık kaynak kodlu bir yazım denetçisi olarak güncel
çalışmalar arasındadır. Çizelgelerle Türkçe’nin biçimbirim ayrıştırma ve işaretlemesi konulu
çalışmalar arasında ise Bisazza (2009)’u gösterebiliriz. Ancak anılan çalışma da kullanılan
sözlükler, kapsadığı biçimbirimler ve tasarım yönünden bu alanda bir deneme ve uyarlama
niteliği taşımaktadır.
Anılan çalışmaların dışında; erişim, kullanım ve sınamaya açık, Türkçe’nin biçimbirim
sıralaması konusunda başka bilgisayarlı dil işleme çalışmalarına katkı sunacak, geliştirilebilir,
derlem temelli biçimbirim ayrıştırıcı ve işaretleyici uygulamalara gereksinim vardır.
Bu çalışmada kural-tabanlı, çizelge gösterimli, kökten-eke yönelimli ve sözcük türü/biçimbirim
ayrıştırma ve işaretleme amaçlı bir sonlu-durum çeviricinin tasarımı ve sonuçları özetlenecektir.
Çalışma, veri kaynağı olarak geliştirilmekte olan Türkçe Ulusal Dil Derlemi Projesinin
veritabanlarından yararlanmıştır. Elde edilen sonuçların diğer çalışmalarla karşılaştırılması
çalışmanın kapsamı dışındadır. Yine bu çalışma, günümüz Türkçe’sindeki kök-sözcük türü ve
türetim/çekim eklerinin işaretlenmesiyle sınırlıdır. Artsüremli ayrıştırmalar, bağlama göre
belirginleştirme ve çok sözcüklü birimlerin işaretlenmesi çalışmanın kapsamı dışında
bırakılmıştır.
2. YAZILIM
Kullanılan yazılım Silberztein (2003)’te ayrıntılandırılan NooJ adlı derlem işleyicidir. Yazılım
değerlendirme sırasında göz önüne alınan ölçütlerden en önemlileri erişime açıklık, çizelgelerle
sonlu-durum çevirici tasarımı olanakları, sözlük oluşturma ve derlem yönetimi araçlarını
barındırması olmuştur. Ayrıca yazılım, her dil için özelleştirilmiş eklentilerle çalıştığından
çoğunlukla dile özel olmayan, tümce sonu belirleme, teksözcük dizinleme gibi araçları da
içermektedir. Yazılım, oluşturulan Türkçe eklentinin kullanıcılarca da sınanmasına olanak
sağlayan bağlam içinde sözcük arama araçları barındırmaktadır. İşaretleme, sözlükler ve kural
dosyalarından oluşan dil eklentileri aracılığıyla yapılmaktadır.
Bu çalışmanın konusu NooJ Türkçe eklentisinin v1b sürümüdür3. Eklentinin tasarımı sırasında,
ilgili bölümlerde ayrıntılandırılacak olan, 4 sözlük ve biri sözlük derlemede kullanılmak üzere
2 kural dosyası oluşturulmuştur.
367
3. VERİ
Veri kaynağı olarak Türkçe Ulusal Dil Derlemi (TUDD) kapsamında oluşturulan yaklaşık
3,300,000 sözcük (token) büyüklüğünde bir alt-derlem kullanılmıştır. Seçilen 100 metin TUDD
içindeki çeşitli konu alanlarını temsil etmektedir.
4. DİZİNLER
Alt-derlem metinlerindeki tekrarlayan sözcükler NooJ yardımıyla dizinlendiğinde yaklaşık
280,000 teksözcük (type) elde edilmiştir. Teksözcükler öncelikle kök ve eklerine ayrılarak bir
başsözcük (lemma) dizini oluşturulmuştur. Biçimbirim işaretlemesi içinse yine bir ek dizini
oluşturulmuştur.
5. SÖZLÜKLER
Sözlüklerin derlenmesi sırasında, oluşturulan başsözcük dizini ve bu sözcüklerin kök-içi ses
değişimlerini içeren bir kural dosyası kullanılmıştır.
Öncelikle, başsözcükler Tablo 1’deki sözcük türü işaretleri kullanılarak (1)’deki gibi sözlük
girdilerine dönüştürülmüşlerdir.
Tablo 1
Sözcük türü işaretleri
İşaret
<VB>
<NN>
<PN>
<NB>
<AJ>
<AV>
<PP>
<ITJ>
<CJ>
<ON>
<NP>
<AB>
<MI>
Sözcük Türü
Eylem
Ad
Adıl
Sayı
Sıfat
Belirteç
İlgeç
Ünlem
Bağlaç
Yansıma
Özel Ad
Kısaltma
Soru eki
Örnek
git, gel, dur, bak, kal, sus, gör, dök
gece, hava, renk, fark, dost, oyun
bu, kendi, hepsi, herkes, kim, öteki
iki,üç, beş, sekiz
mavi, yeni, düz, dürüst, zeki
acaba, asla, bazen
gibi, göre, için, kadar, karşı, rağmen
aferin, sağol, haydi, hoşçakal, lütfen
ama, çünkü, meğer, üstelik
takır, vızıl, gürül
Atatürk, Mersin, Ümit
TBMM, TDK
mi, mı, mu, mü
(1) akıl, NN
yüz,NB
yüz,VB
yüz,NN
git,VB
güzel,AJ
Sözcük türü belirlemede çoğunlukla biçimbilimsel özellikler dikkate alınmış, zorunlu
durumlarda anlamsal belirlemelere gidilmiştir. Bazı köklerin sözcük türü belirlemesinde
368
sıfat/ad, bağlaç/ilgeç gibi güçlüklerle karşılaşılmış, bu gibi durumlarda bağlam içi kullanımlara
göre sözcük türü belirlenmiştir.
Ardından, oluşturulan ham sözlük, Tablo 2’deki kök-içi ses değişimlerini içeren kural dosyası
çalıştırılarak derlenmiş ve yine Tablo 2’nin örnekler bölümündeki gerçekleşmelerin ilgili kök
sözcüklerle eşlenmesini sağlayacak sözlükler elde edilmiştir. Ses değişimlerinin belirlenmesinde
olası tüm ses değişimlerinin kapsanması amaçlanmış, çok az sayıda karşılaşılan “tıp > tıbbın”
gibi ses değişimleri de kural olarak eklenmiş ve ilgili kök sözcüklerde gerekli sözlüksel
işaretleme yapılmıştır.
Tablo 2
Kök-içi ses değişimleri
Ad
double
Kural
<D>
drop
<L><B><R
>
dropsoften1
<B2>b
dropsoften2
<B2>d
dropsoften3
<B2>c
compound1
compound2
<B>
<B2>
compound3
compound4
compound5
compound6
compound7
soften_ch
<B2>ç
<B2>k
<B2>ul
<B2>p
<B2>t
<B>c
soften_k
<B>ğ
soften_g
soften_p
<B>g
<B>b
soften_t
<B>d
softenpdouble
<B>b<D>
softentdouble
change_an
<B>d<D>
<B2>an
change_m
<B>m
Örnek
af > affı
zam > zamma
akıl > aklını
fikir > fikrimin
vakit > vaktinde
kayıp > kaybına
kutup > kutbuna
kayıt > kaydına
nakit > nakde
avuç > avcuna
kutup > kutbuna
anaokulu > anaokulları
elyazısı > elyazıları
başağrısı > başağrıları
ipucu > ipuçları
ayçiçeği > ayçiçekleri
sultanoğlu > sultanoğulları
elkitabı > elkitapları
kesekağıdı > kesekağıtları
ağaç > ağacı
süreç > süreci
emek > emeği
diyalog > diyaloğu
renk > rengi
kitap > kitabı
mektup > mektubu
cilt > cilde
dört > dördünü
tıp > tıbbın
muhip > muhibbi
zıt > zıddı
ben > bana
sen > sana
saklan > saklambaç
dolan > dolambaç
369
Kural yazımında Tablo 3’de açıklanan işleçler kullanılmıştır.
Tablo 3
Metinsel kural yazımında kullanılan işleçler
<B>
son yazımbirimi sil
<B2> son iki yazımbirimi sil
<D>
<L>
bir yazımbirim sola git
<R>
bir yazımbirim sağa git
son yazımbirimi tekrarla <B>m son yazımbirimi sil ve “m” ekle
Yazılım, oluşturulan sözlüklere işlemlemede öncelik sırası vermeye olanak tanımaktadır.
Böylelikle (2)’deki gibi çoklu işaretlemelerde işlev sözcüklerine öncelik verilebilmektedir.
(2) için
<iç,VB+In(Iz)[IMP]>
<iç,NN+I+n>
<için,PP>
Kullanıcı tarafından atanabilecek sözkonusu önceliklere olanak tanımak için, alt-derlemden elde
edilen sözvarlığı; içerik sözcükleri, işlev sözcükleri ve özel ad/kısaltmaları içerecek şekilde
gruplanmış ve çok sözcüklü yapılar da eklendiğinde, Tablo 4’te içerik ve büyüklükleri belirtilen
4 sözlük derlenmiştir.
Tablo 4
Derlenen sözlükler ve kapsamları
Dosya Adı
content_TR.nom
function_TR.nom
multiword_TR.nom
proper_TR.nom
Kapsam
içerik sözcükleri
işlev sözcükleri
çok sözcüklü birimler
özel ad ve kısaltmalar
Girdi Sayısı
20,618
76
18,837
35,295
6. ÇİZELGELER
Sonlu-durum çevirici düzeneklerinin tasarımında metinsel ya da çizgisel gösterimlerden
yararlanılabilmektedir. Yazılım, Şekil 1 ve Şekil 2’de örneklendiği üzere, her iki kural
gösterimine de olanak tanımaktadır.
370
Şekil 1. Metinsel kural yazımı örneği.
Şekil 2. Çizgisel kural yazımı örneği.
Bu çalışmada kök-içi ses değişimi kuralları için metinsel, türetim ve çekim süreçlerinin
modellenmesi içinse çizgisel gösterim tercih edilmiştir. Türetim ve çekim eklerinin
belirlenmesinde Bölüm 4’te belirtilen ve (3)’te örneklenen ek bütünü dizini kullanılmıştır.
(3) VB+yabiliyorsunuzdur
VB+amayacağındandı
NN+larındasınızdır
NN+larındandırlar
Eşsesli biçimbirimlerin çokluğu ve pek çok ekin çok işlevli olması nedeniyle, ekler için
kullanılan işaretler, dilbilim alanyazınındaki yaygın biçeme uygun olarak (4)’teki gibi
hazırlanmış, çoğunlukla işlev bildiren işaretler/kısaltmalar kullanılmamıştır. Yalnızca,
biçimbirim sıralamasının işlev farkını belirgin olarak ortaya koyduğu (5)’teki gibi örneklerde,
işlev bildiren kısaltmalar ek işaretine eklenmiştir.
371
(4) +lAr
+DI
= +ler, +lar
= +di, +dı, +du, +dü, +ti, +tı, +tu, +tü
(5) ki[PN] = NN+Genitive+ki[PN]
Çalışmanın bu aşamasında kapsanan ek sayıları Tablo 6’da görülebilir.
Tablo 6
Ayrıştırılan ve işaretlenen ek sayıları
Türetim Çekim (AD) Çekim (EYLEM) TOPLAM
86
46
48
180
Eklentinin güncel sürümü yukarıda belirtilen sayıda biçimbirimi ayrıştırmakta ve
işaretlemektedir. Sonraki sürümlerde özellikle ayrıştırılan ve işaretlenen türetim eklerinin
saysının arttırılması hedeflenmektedir. Sözkonusu eklerin sıralama kuralları için üretilen
çizelgeler; türetim ve çekim olmak üzere 2 alt başlık altında özetlenecektir.
6.1. Türetim
Türkçe’nin türetim ekleri için kullanılan işaretler, Tablo 7’de örneklendiği üzere, taban sözcük
türünü değil, türetilen sözcük türünü belirtecek biçimde tasarlanmıştır.
Tablo 7
Örnek türetim eki işaretleri
İşaret
(A)nAk_NN
CI_NN
lIk_NN
Türetim
Eylemden Ad
Addan Ad
Addan Ad
Türetim eklerinin sıralamasını ve kullanımını belirleyen kısıtlamalar konusunda, Uzun (1992,
1993, 2008)’te tartışılan kısıtlılıklar, sözlüklere hece sayısı ve benzeri başsözcük özellikleri
olarak eklenmiş ve çizelgelerde ilgili başsözcük ve türetim eklerinin bağlantıları kurulmuştur.
Türetim çizelgeleri Şekil 3’te örneklendiği üzere üç düzeyli olarak tasarlanmış, 1. Düzeyde
sözcük türü, 2. Düzeyde diğer kısıtlamalar ve 3. Düzeyde ise türetimler arası geçişler
düzenlenmiştir.
372
Şekil 3. Örnek Türetim Çizelgesi / Sonlu-Durum Düzeneği
6.2. Çekim
Çekim eki dizilimlerinin modellenmesinde Ad ve Eylem çekimi olmak üzere 2 alt-çizelge
kullanılmıştır. Ad çekimi düzeneğinde, ara-ses ve eşyazımlı biçimbirim ya da biçimbirim
birleşimlerinin çokluğu nedeniyle oluşan yapay belirsizlikleri gidermek amacıyla, iki alt
çizelgeye gerek duyulmuştur. Bunlardan birisi ünsüzle biten tabanlara, diğeri ise ünlüyle biten
tabanlara uygulandığında çoğunlukla ara-seslerden kaynaklı ayrıştırma güçlükleri giderilmiştir.
Ek sıralaması konusunda Oflazer (1994a), Külekçi ve Özkan (2001), Adalı ve Eryiğit (2004) ve
Makedonski (2005)’teki düzeneklerden de yararlanılmıştır. Eylem çekimi düzeneğinde ise
Sebüktekin (1974)’teki dizimsel görünümler ve Sezer (2001)’deki kuramsal belirlemelerden
yararlanılarak Şekil 4’teki düzenek elde edilmiştir.
Şekil 4. Türkçe’nin Eylem Çekimi için Sonlu-Durum Düzeneği
373
7. KULLANIM
Bu çalışma sonucunda oluşturulan NooJ_Türkçe, kullanıcılara kişisel derlem oluşturma,
yönetme, işaretleme, belirginleştirme ve bağlam içinde sözcük ya da ek aratma gibi olanakları
sağlamaktadır. Diğer kullanım olanakları Silberztein (2003)’te ayrıntılandırılmıştır. Şekil 5
örnek bir işaretleme yapısını göstermektedir.
Şekil 5. İşaretlenmiş metin örneği
Bağlam içinde sözcük ya da ek aratma olanakları ise çeşitli arama metinlerinin ve sonuçlarının
verildiği Şekil 6 ve 7’de görülebilir.
<akıl>
Şekil 6. Örnek arama sonucu 1 - Sözcük
374
<VB+r[Aor]> <VB+mA+z[Aor]>
Şekil 7. Örnek arama sonuçları 2 – Ek
8. SONUÇ
Bu çalışmada Türkçe’nin sözcük türü ve biçimbirim işaretlemesi amaçlı, derlem temelli,
kökten-eke yönelimli, çizelge gösterimli bir sonlu-durum çevirici uygulamanın tasarım ve
kullanımını özetledik. Sınamaya, güncellenmeye açık olan sözkonusu çalışma, Türkçe’nin
biçimbiliminin sonlu-durum düzenekleriyle gösterimi konulu çalışmalara katkı sağlayacaktır.
Ayrıca kullanıma ve geliştirilmeye açık bir uygulama olması nedeniyle öncelikle biçimbilim
araştırmalarında kişisel derlemler üzerinden bağlam içinde anahtar sözcük ya da ek araması
yapma olanağı sağlamaktadır. Sonraki sürümlerde çok-sözcüklü birimlerin işaretlenmesi,
bağlam temelli belirginleştirme ve tüm türetim eklerinin ayrıştırılabilmesi hedeflenmektedir.
Notlar:
1. Bu çalışma Mersin Üniversitesi Bilimsel Araştırma Projeleri Fonu tarafından
desteklenmiştir.
(Proje numaraları: BAP-FEF-İDEB (SYA) 2009-3 ve BAP-FEF-İDEB (MA) 2009-3).
2. NooJ Türkçe eklentisi için: http://www.nooj4nlp.net/pages/turkish.html ve
http://www.tudd.org
9. KAYNAKÇA
Adalı, E., & Cebiroğlu, G. (2002). Sözlüksüz köke ulaşma yöntemi. 19. TBD Bilişim Kurultayı Bildiri
Kitabı . İstanbul.
Adalı, E., & Eryiğit, G. (2004). An affix stripping morphological analyzer for Turkish. Proceedings of the
IASTED International Conference ARTIFICIAL INTELLIGENCE AND APPLICATIONS.
Innsbruck.
375
Akın, M. D., & Akın, A. A. (2007). Türk dilleri için açık kaynaklı doğal dil işleme kütüphanesi:
ZEMBEREK. Elektrik Mühendisliği, 431, 38.
Bisazza, A. (2009). Designing a Nooj module for Turkish. Proceedings of Nooj Conference 2009.
Çiçekli, İ., & Temizsoy, M. (1997). Automatic creation of a morphological processor in logic
programming environment. Proceedings of the 5th International Conference on the Practical
Application of Prolog (PAP'97). London, UK.
Çilden, E. K. (2006). Stemming Turkish words using Snowball.
http://snowball.tartarus.org/algorithms/turkish/stemmer.html Erişim Tarihi:25.10.2010
Hankamer, J. (1989). Morphological parsing and the lexicon. In W. Marslen-Wilson (Ed.), Lexical
Representation and Process (pp. 392-408): Cambridge: MIT Press.
Külekçi, M. O., & Özkan, M. (2001). Turkish word segmentation using morphological analyzer.
Proceedings of EuroSpeech. Aalborg, Denmark.
Makedonski, P. (2005). Finite state morphology: the Turkish nominal paradigm. Universitat Tübingen,
Tübingen.
Oflazer, K., Göçmen, E., & Bozşahin, C. (1994a). An Outline of Turkish Morphology: Technical Report,
Middle East Technical University.
Oflazer, K. (1994b). Two-level description of Turkish morphology. Literary and Linguistic Computing, 9
(2), 137-148.
Sebüktekin, H. I. (1974). Morphotactics of Turkish verb suffixation. Boğaziçi Üniversitesi Dergisi, 2, 87116.
Sever, H., & Bitirim, Y. (2003). FindStem: Analysis and evaluation of a turkish stemming algorithm. 10th
International Symposium on string processing and ınformation retrieval (SPIRE’03), Manaus,
Brazil, October 8-10, 2003. Lecture Notes in Computer Science (LNCS) (pp. 238-251). Springer.
Sezer, E. (2001). Finite inflection in Turkish. In E. E. Taylan (Ed.), The Verb in Turkish (pp. 1-47).
Amsterdam: John Benjamins Publishing.
Silberztein, M. (2003). Nooj Manual. http://www.nooj4nlp.net Erişim Tarihi: 25.10.2010.
Türkçe Ulusal Dil Derlemi Proje Sayfası. http://www.tudd.org.tr
Uzun, E., Uzun, L., Aksan, M., & Aksan, Y. (1992). Türkiye Türkçesinin Türetim Ekleri: Bir Döküm
Denemesi Ankara: Şirin.
Uzun, E. (1993). Türkiye Türkçesinde Sözlüksel Yapı: Bir Eleştirel Çözümleme. Ankara Üniversitesi,
Ankara.
Uzun, E. (2008). Türetim eklerinin türetkenliğini ölçme önerileri üzerine. Y. Çotuksöken & N. Yalçın
(Haz.), XX. Dilbilim Kurultayı Bildirileri 12-13 Mayıs 2006. (pp. 147-159) İstanbul: Maltepe
Üniversitesi.
376

Benzer belgeler

Full Text - International Journal of Language Academy

Full Text  - International Journal of Language Academy gösterilmelidir" (…), öğretmenler gelecekte hangi konuda çalışacak olurlarsa olsunlar, öğrencilere en faydalı olan sözvarlığını kazandırmalıdırlar (...) en önemli sözcükleri ilk önce ele almalıdırl...

Detaylı

TS Corpus: Herkes İçin Türkçe Derlem

TS Corpus: Herkes İçin Türkçe Derlem ilk çalışmalardır. Biçimbirim ayrıştırma konusunda ise ekten-köke yönelimli çalışmalar arasında Sever (2003), Adalı (2002, 2004) ve Çilden (2006)’yı sayabiliriz. Akın ve Akın (2007) ise biçimbirim ...

Detaylı