I I BOB.
PYTHONDA TABIIY TILNI QAYTA ISHLASH TEXNOLOGIYASI
102
qoidalar sintaktik tahlil asosida o‘rganiladi. Grammatik jihatdan noto‘g‘ri gaplarni qabul
qilmaydi. Masalan, “Daraxt kemaga bordi” jumlasi sintaktik jihatdan xato hisoblanadi.
Shuning
uchun tuzilayotgan TTQI dasturida sintaktik tahlil muhim ahamiyat kasb etadi.
Semantik tahlil.
Semantik tahlil so‘zlar ma‘nosiga asoslangan holda jumla yoki gaplar
mazmundorligini tahlil qiladi. Semantik tahlil sintaktik tahlil bilan birgalikda matnlarning to‘g‘ri
qo‘llanilishiga yordam beradi. Masalan, “qaynoq muz bo‘lagi” kabi jumlalar tahlildan o‘tmaydi,
chunki muz bo‘lagi qaynoq bo‘lishi mumkin emas.
TTQI
texnologiyasi inson kabi mukammal so‘zlashuv imkoniyatini taqdim etishi uchun
unda yuqoridagi tarkibiy qismlar to‘laqonli aks etishi lozim. Bugungi kungacha yaratilgan
dasturlarda ayrim komponentlar qo‘llanilmagan. Shu sababli
TTQI texnologiyasiga ega
bo‘lgan dastur hozircha kutilgan natijani bermayapti.
Python dasturlash tilida TTQI texnologiyasidan foydalanishga yordam beruvchi bir qancha
kutubxonalar mavjud. Bularga NLTK, spaCy, Gensim, Pattern, TextBlob kabilarni misol
keltirishimiz mumkin.
NLTK (Natural Language Toolkit) Python dasturlash tili TTQI
texnologiyasi uchun maxsus
yaratilgan modul bo‘lib, jarayonlarni modellashtirish uchun bir qancha qo‘shimcha
imkoniyatlarga ega. Xususan, tokenizatsiya, nutqni qismlarga bo‘lish va belgilash, nutqni tanib
olish, foydalanuvchi his-tuyg‘ularini tahlil qilish va chat-bot to‘plamlaridan iborat. Shuningdek,
NLTK kutubxonasi nutqni aniqlash bilan bog‘liq loyihalarda faol qo‘llanilmoqda.
spaCy
TTQI uchun ommabop Python kutubxonasi bo‘lib, ochiq manbali vosita hisoblanadi.
spaCy ko‘proq ishlab chiqarish jarayonida foydalanishga mo‘ljallangan.
Kutubxona quyidagi
imkoniyatlarni taqdim etadi: tokenizatsiya, nutqni tanib olish, uni qismlarga bo‘lish va
belgilash, foydalanuvchi his-tuyg‘ularini tahlillash, qarama-qarshilikni tahlil qilish va so‘z
vektorlari bilan ishlash. Bundan tashqari, mazkur kutubxona kiritilgan ma‘lumotlarni avtomatik
ravishda to‘ldirish va tuzatish, sharhlarni tahlil qilish va tahlil qilinayotgan ma‘lumotni
umumiy
xulosalash kabi qo‘shimcha imkoniyatlarni ham taklif etadi. Bunday imkoniyatlar dasturchilar
TTQI dasturlarini yaratishlarida uchrashi mumkin bo‘lgan qiyinchiliklarning kamayishiga olib
kelmoqda.
Gensim
kutubxonasi Pythonda berilgan ma‘lumotni modellashtirish hamda o‘xshashlikni
aniqlash vazifasini bajaradi. Ya’ni u kiritilgan ma‘lumotlarni kuchli tahlillash imkoniyatini
taqdim etadi. Gensim umumiy maqsadli TTQI kutubxonasi bo‘lmasa-da, keng qamrovli
tahlillash imkoniyati orqali yaratilayotgan dasturlarning sifatiga ijobiy ta’sir ko‘rsatishi
bilan
ahamiyatlidir.
Pattern
TTQI jarayonida ma‘lumotlarni avtomatik ravishda sintaktik tahlil qilish imkoniyatini
taqdim etishi bilan boshqa shu kabi vazifalarni bajaruvchi Python kutubxonalaridan ajralib