Kompyuter lingvistikasi: muammolar, yechim, istiqbollar


Alisher Navoiy nomidagi Toshkent



Yüklə 0,73 Mb.
Pdf görüntüsü
səhifə3/6
tarix05.08.2023
ölçüsü0,73 Mb.
#138764
1   2   3   4   5   6
abduraxmonova-u.r.-matnni-qayta-ishlash-va-tahlil-qilish-usullari

Alisher Navoiy nomidagi Toshkent 
davlat o„zbek tili va adabiyoti 
universiteti 
“KOMPYUTER LINGVISTIKASI: 
MUAMMOLAR, YECHIM, ISTIQBOLLAR”
Respublika I ilmiy-texnikaviy konferensiya
Vol. 1
№. 01 (2021) 
http://compling.navoiy-uni.uz/
97 
morfologiya) har bir so'zning xususiyatlarini o'z ichiga olgan holda bitta katta 
lug'at qurilishini nazarda tutadi, masalan rus tili uchun bunday lug'at A.A. asosida 
tuzilgan. Misol uchun rus tilidagi Zaliznyak grammatik lug'atida 8 milliondan ortiq 
so'zlar mavjud. Ushbu yondashuvni amalga oshirish nisbatan sodda, ammo u ikkita 
muhim kamchiliklarga ega. Birinchidan, tizim faqat lug'atdagi so'zlarni tahlil 
qiladi. Ikkinchida, ko'plab tillarda ushbu so'z boyligi juda katta bo'ladi.
So'zlarni tahlil qilishning muqobil yondashuvi (noaniq morfologiya) qoidalar 
tizimidan foydalanishdir, unga ko'ra ma'lum bir so'z uchun uning xususiyatlari 
taxmin qilinadi. Ushbu yondashuvning kamchiligi shundaki, u har doim ham 
natijalarning 100% aniqligini kafolatlay olmaydi. 
To'liq matnli izlashda va matnlarni tasniflash vazifalarida so'zlarni to'liq 
morfologik tahlilini o'tkazish talab qilinmaydi, faqat ko'rsatilgan ikkita so'z aslida 
bir so'zning shakllari ekanligini tekshirib chiqadi. Bu asosiy so'z shakliga 
qisqartirish yoki so'zlarning ba'zi o'zgarmas qismlarini ajratib ko'rsatishdan iborat 
bo'lgan stemming yordamida amalga oshirish mumkin. Biroq, morfologik tahlil, 
lemmatizatsiya va stemming har doim ham "xavfsizlik" va "himoya" kabi bir-
biriga bog'liq so'zlarni aniqlay olmaydi. Bog'liq so'zlarni aniqlashda maxsus 
tezaurus lug'atlari yordamida hal etiladi. Ikki so'zning yaqinlik grafasini ikkita mos 
keladigan birlashtirma eng qisqa yo'l asosida aniqlanadi. Agar so'zlarning 
kontekstini hisobga olish zarur bo'lsa, unda vazifa ancha murakkablashadi va uni 
semantik matnni qayta ishlashga kiritish kerak bo‘ladi. So'zlarning bog'lanishini 
aniqlashning avtomatlashtirilgan usullari mavjud bo‘lib, birgalikda yuzaga kelish 
chastotasi yoki ulardan foydalanish sharoitlarining tasodifiylik darajasiga 
asoslanadi. Tekshirish paytida manba matnidagi so'zlar ketma-ketligini daraxtga 
o'xshash ierarxiyaga aylantiradi, bunda barglar alohida so'zlarga, tugunlar so'zlar 
guruhiga, yoylar so'zlar va so'zlar guruhlari o'rtasidagi munosabatlarga mos keladi. 
Ushbu o'zgartirish tilning ma'lum bir grammatikasi asosida amalga oshiriladi, bu 
asosan qat'iy qoidalar to'plami hisoblanadi. Grammatikalardan foydalanish aniq 
qiyinchiliklar bilan bog'liq bo‘lib- tabiiy til uchun uni tavsiflovchi qoidalar tizimini 
ishlab chiqish va qiyinchilik tug‘diradigan ayniqsa murakkab morfologik model va 
o'zboshimchalik bilan so'z tartibiga ega bo'lgani (masalan, rus tili) uchun qiyin 
ko‘rinadi. Bundan tashqari, inson tomonidan yozilgan matnlarning aksariyat 
qismida xato yoki tipografik xatoliklar mavjud bo‘ladi. Shu sababli har qanday 
grammatika qo'llanilmasligi mumkin yani urinishlar va xatolarning barcha mumkin 
bo'lgan variantlarini hisobga olishga natija bermaydi. 
Rus tilidagi matnni tahlil qilish tizimlarining aksariyati turli xil 



Yüklə 0,73 Mb.

Dostları ilə paylaş:
1   2   3   4   5   6




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©www.azkurs.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin