Uot 004. 9 Alıquliyev R. M. 1, Niftəliyeva G. Y



Yüklə 285.61 Kb.
Pdf просмотр
səhifə1/3
tarix19.07.2017
ölçüsü285.61 Kb.
  1   2   3

İnformasiya texnologiyaları problemləri, 2015, №2, 41–52 

 

 



       www.jpit.az                                                                      41 

 

UOT 004.9 



Alıquliyev R.M.

1

Niftəliyeva G.Y.

2

 

AMEA İnformasiya Texnologiyaları İnstitutu  

r.aliguliyev@gmail.com; 



2

 gunayniftali@gmail.com  



TEXT MİNİNG METODLARININ KÖMƏYİLƏ E-DÖVLƏTDƏ TERRORİZMLƏ 

ƏLAQƏLİ MƏQALƏLƏRİN AŞKARLANMASI 

Məqalədə  e-dövlət  mühitində  terrorizmlə  əlaqəli  məqalələrin  aşkarlanması  üçün  text  mining 

texnologiyasına əsaslanan metod təklif olunmuşdur. Təklif olunmuş metod bir neçə mərhələdən 

ibarətdir:  1)  terrorizmlə  əlaqəli  terminlərin  lüğət  bazasının  yaradılması;  2)  sözlərin  semantik 

şəbəkəsinin yaradılması; 3) sözlərin morfoloji təhlili; 4) sənədlərin ilkin filtrasiyası; 5) sözlərin 

semantik  şəbəkəsindən  istifadə  etməklə  onlar  arasında  semantik  yaxınlığın  hesablanması;  6) 

cümlələr  arasında  semantik  yaxınlığın  müəyyən  edilməsi;  7)  sənədlər  arasında  semantik 

yaxınlığın  müəyyən  edilməsi;  8)  sənədlərin  təsnifatlandırılması.  Sözlər,  cümlələr  və  sənədlər 

arsında yaxınlığı hesablamaq üçün hibrid yaxınlıq ölçüləri daxil edilmişdir. Terrorizmlə əlaqəli 

sənədləri identifikasiya etmək üçün kNN, Bayes və yeni təklif olunan Ramiz-Günay metodlarının 

xətti kombinasiyasından ibarət hibrid təsnifatlandırma metodu təklif olunmuşdur.  

Açar  sözlər:  e-dövlət;  e-dövlətin  təhlükəsizliyi;  terrorizm;  text  mining;  hibrid  yaxınlıq  ölçüsü; 

kNN  metodu;  modifikasiya  olunmuş  Bayes  metodu;  Ramiz-Günay  metodu;  hibrid 

təsnifatlandırma metodu. 

Giriş 

Müasir dövrdə kriminal qruplar təkcə real aləmdə deyil, həm də virtual mühitdə (İnternet, e-

dövlət) də dövlət və cəmiyyət əleyhinə öz bədniyyətli fəaliyyətlərini həyata keçirirlər. Bu fəaliyyət 

növləri müxtəlif məqsədli olur: dövlət əleyhinə təbliğat, mentalitetə uyğun gəlməyən, milli mənəvi 

dəyərlərin əsaslarını sarsıdan, terrorizmi təbliğ edən informasiyanın yayılması və s. [1–7].  

E-dövlət  mühitində  bu  məzmunda  informasiyanın  vaxtında  aşkarlanması  dövlətin  və 

cəmiyyətin  təhlükəsizliyinin  təmin  olunması  baxımından  mühüm  əhəmiyyət  kəsb  edir  və 

günümüzün  ən  aktual  elmi-nəzəri  və  praktiki  problemlərindən  biridir  [6,  7].  Heç  də  təsadüfi 

deyildir  ki,  e-dövlətin  təhlükəsizliyi  problemi  Avropa  Komissiyası  tərəfindən  qəbul  edilmiş 

eGovRTD2020  layihəsində  e-dövlət  sahəsində  araşdırılması  vacib  olan  13  ən  aktual  elmi-

tədqiqat istiqamətindən biri kimi qeyd olunmuşdur [8].  

E-dövlətin  əsas  funksiyalarından biri  vətəndaşları ehtimal olunan zərər və  zorakılıqlardan 

qorumaqdır. Linders [9] vətəndaş-dövlət münasibətlərinin təkamülünü araşdıraraq, belə qənaətə 

gəlmişdir  ki,  ehtimal  olunan  cinayətlər  haqqında  əvvəlcədən  məlumat  vermək,  o  cümlədən 

cəmiyyət  üzvləri  ilə  hüquq-mühafizə  orqanları  arasındakı  münasibətlərin  yaxşılaşdırılması 

baxımından İnternet, xüsusi halda e-dövlət ən effektiv və əlverişli vasitədir. Təcrübə göstərir ki, 

bu  əlverişli  mühitdən  cinayətkar  qruplar  da  yaxşı  “yararlanırlar”  və  onlar  bu  imkandan  istifadə 

edərək  dövlət  və  cəmiyyət  üçün  böyük  təhlükə  mənbəyinə  çevrilirlər.  Buna  misal  olaraq,  11 

sentyabr 2011-ci il tarixində ABŞ-da həyata keçirilmiş terror hücumunu  göstərmək olar. Terror 

hadisəsindən  sonrakı  təhlillər  göstərdi  ki,  bu  aktı  həyata  keçirən  mütəşəkkil  cinayətkar  qrup 

bütün  plan və fəaliyyətlərini  İnternet  şəbəkəsindən istifadə etməklə hazırlamış  və koordinasiya 

etmişlər. Belə demək mümkünsə, virtual aləm cinayətkar qruplara öz əməllərini həyata keçirmək 

üçün çox əlverişli mühitdir.  

Deməli, dövlətin mühüm vəzifələrindən biri də virtual mühitdə – İnternetdə və e-dövlətdə 

gizli  fəaliyyət  göstərən  kriminal  şəbəkələrin  fəaliyyətini  aşkarlamaq  və  analiz  etməkdir.  Bu 

mühit  tez  kommunikasiya  yaratmaq  və  fəaliiyəti  operativ  koordinasiya  etmək  baxımından  çox 

geniş imkanlara malikdir. Kriminal şəbəkənin üzvləri ünsiyyət qurmaq üçün veb-saytlardan, e-

poçtdan,  bloqlardan,  onlayn  çatdan  və  s.  istifadə  edir.  Aydındır  ki,  belə  kommunikasiya 



İnformasiya texnologiyaları problemləri, 2015, №2, 41–52 

 

42                                                                  www.jpit.az 



 

vasitələrində ötürülən informasiya növləri arasında mətnlər üstünlük təşkil edirlər. Ona görə də, 

mümkün  ola  biləcək  terror  aktlarının  qarşısının  alınması  və  dövlətin  təhlükəsizliyinin  təmin 

olunması  üçün  virtual  mühitdə,  o  cümlədən  e-dövlətdə  dövr  edən  mətnlərin  analizi  mühüm 

əhəmiyyət  kəsb  edir  [10].  Hal-hazırda  biliklərin  idarə  olunmasında,  müxtəlif  mənbələrdə 

toplanmış mətnlərin intellektual analizində text mining ən qabaqcıl və effektiv texnologiyalardan 

biri hesab olunur [11].  

Text  mining  texnologiyalarının  belə  populyar  və  tətbiq  sahəsinin  geniş  olmasının  digər 

səbəblərindən  biri  də  real  və  ya  virtual  mühitdə  istehsal  olunmasından  asılı  olmayaraq 

informasiya  növləri  arasında  mətnlərin  üstünlük  təşkil  etməsidir.  Beynəlxalq  verilənlər 

korporasiyasının (International Data Corporation) analitiklərinin verdiyi məlumata görə istehsal 

olunan  informasiyanın  təqribən  80%-dən  çoxunu  mətnlər  təşkil  edir  [12].  Deməli,  e-dövlətin 

təhlükəsizliyinin təmin olunması baxımından bü mühitdə dövr edən mətnlərin intellektual analizi 

mühüm əhəmiyyət kəsb edir və elmi-tədqiqat nöqteyi-nəzərdən aktual məsələdir. 

Beləliklə,  problemin  aktuallığını  əsas  tutaraq,  məqalədə  e-dövlətdə  şübhəli  (terrorizmlə 

əlaqəli) mətnlərin aşkarlanmsı üçün text mining texnologiyalarına əsaslanan metod təklif olunur. 

Bu  metod  [3]-də  təklif  olunmuş  metoda  oxşardır.  Lakin  təklif  olunan  metod  bir  neçə  fərqli  və 

üstün cəhətlərə malikdir: 

 

[3]-də  təklif  olunmuş  metoddan  fərqli  olaraq,  bu  metodda  sözlər  arasındakı  yaxınlığı 



hesablayarkən  nəinki  onlar  arasındakı  semantik  yaxınlıq,  həm  də  cümlənin  sintaktik 

quruluşu, daha doğrusu sözlərin cümlədəki işlənmə ardıcıllığı nəzərə alınır; 

 

potensial  şübhəli  sənədləri  daha  dəqiq  aşkarlamaq  üçün  sənədlər  arasındakı  yaxınlıq 



yeni  iterativ  üsulla  hesablanır:  əvvəlcə  sözlərin  yaxınlığı  təyin  edilir;  sonra  sözlər 

arasındakı  yaxınlıqdan  istifadə  etməklə  cümlələrin  yaxınlığı  hesablanır;  nəhayət, 

cümlələr  arasındakı  yaxınlıqdan  istifadə  olunmaqla  sənədlər  arasındakı  yaxınlıq 

hesablanır.   

 

cümlələr arasında yaxınlığı hesablamaq üçün hibrid yaxınlıq ölçüsü daxil edilir



 

Təsnifatlandırma üçün yeni metod təklif olunur. 



Məqalə aşağıdakı kimi strukturlaşdırılmışdır. Tədqiq olunan problemlə əlaqəli işlərin qısa 

icmalı ikinci bölmədə verilir. Üçüncü bölmədə təklif olunan metodun mərhələlərinin təsviri 

verilir. Yekun və gələcək tədqiqatlar barədə məlumat isə dördüncü bölmədə verilmişdir. 

Əlaqəli işlərin qısa icmalı 

Virtual  mühitdə  (İnternetdə,  e-dövlətdə)  kriminal  və  terrorizmlə  bağlı  informasiyanın 

aşkarlanması, identifikasiyası və izlənməsi üçün text mining texnologiyasına əsaslanan müxtəlif 

metodlar,  alqoritmlər  və  modellər  təklif  edilmişdir.  Məsələn,  veb-də  kriminal  informasiyanın 

filtrasiyası  və identifikasiyası  məqsədilə sənədlər arasındakı oxşarlığı  müəyyən etmək üçün [4, 

5]-da yeni alqoritmlər təklif edilmişdir. Ərəb dilində kriminal sənədlərin identifikasiyası sistemi 

üçün  [1]-də  text  mining  texnologiyasının  informasiyanın  çıxarılması  və  klasterləşdirmə 

metodlarından  istifadə  olunmuşdur.  İnformasiyanın  çıxarılması  üçün  qaydalara  əsaslanan 

yaxınlaşma,  sənədlərin  klasterləşdirilməsi  üçün  isə  özü-özünə  təşkil  olunan  neyron  şəbəkə 

(Kohonen şəbəkəsi) tətbiq olunmuşdur. Kriminal sənədlərin tipinin identifikasiyası üçün [2]-də 

iki  mərhələdən  -  sənədlərin  aşkarlanması  və  onların  klasterləşdirilməsindən  ibarət  metod  təklif 

olunmuşdur.  Birinci  mərhələdə  sənədlər  əhəmiyyətsiz  sözlərdən  təmizlənir,  sonra  sənədləri 

əhəmiyyətli sözlərin vektoru kimi təsvir edib, onlar arsındakı yaxınlığı hesablamaq üçün metrika 

daxil edilir. İkinci mərhələdə klasterləşdirmə alqoritmini tətbiq etməklə sənədlər kriminal tiplərə 

görə  qruplaşdırılır.  İnternetdə  terrorizmlə  əlaqəli  məqalələri  aşkarlamaq  üçün  [3]-də  mətnlərin 

analizinə  əsaslanan  yeni  yanaşma  təklif  olunmuşdur.  Bu  yanaşma  WordNet  semantik 

şəbəkəsindən [13] istifadə etməklə terrorizmlə əlaqəli məqalələr çoxluğundan kontekst sözlərin 

(isimlərin)  siyahısını  yaradır.  Sonra  WUP  [14]  metrikasını  tətbiq  etməklə  kontekst  sözlərin 

əhəmiyyətlilik  dərəcəsini  hesablayır.  Sonda  isə  biqramlardan  və  Keselj  metrikasından  [15] 


İnformasiya texnologiyaları problemləri, 2015, №2, 41–52 

 

 



       www.jpit.az                                                                      43 

 

istifadə  etməklə  sənədləri  təsnifatlandırır.  Çoxdilli  terrorizmlə  əlaqəli  sənədlərin  aşkarlanması 



üçün [16]-da təsnifatlandırma metoduna əsaslanan yeni yanaşma təklif olunmuşdur. Bu yanaşma 

veb  sənədlərin  qraf  təsviri  modeli  ilə  C4.5  təsnifatlandırma  alqoritminin  kombinasiyasından 

istifadə edir. [17]-də təklif olunmuş metod data mining alqoritmlərinin köməyilə veb saytlardakı 

mətnləri analiz etməklə terrorçuların fəaliyyətini (profilini) öyrənir. Kriminal məzmunlu mətnləri 

təsnifatlandırmaq  üçün  [18]-də  qeyri-səlis  qrammatikanın  evolyusiyası  (evolving  fuzzy 

grammar)  metodu  təklif  olunmuşdur.  Bu  metodda  seçilmiş  mətn  fraqmentləri  qeyri-səlis 

strukturda təsvir olunur.  

Təklif olunan metod 

Təklif  olunan  metod  bir  neçə  mərhələdən  ibarətdir:  1)  tədqiq  olunan  mühitdə  dövr  edən 

sənədlərin (informasiyanın) dilindən asılı  olaraq,  həmin dil üçün terrorizmlə  əlaqəli terminlərin 

lüğət  bazasının  yaradılması;  2)  baxılan  dil  üçün  sözlərin  semantik  şəbəkəsinin  yaradılması 

(metodun dəqiqliyi bu şəbəkədən çox asılıdır); 3) sözlərin morfoloji təhlili; 4) lügət bazasından 

istifadə etməklə sənədlərin ilkin filtrasiyası; 5) sözlər arasında semantik yaxınlığın hesablanması; 

6)  cümlələr  arasında  semantik  yaxınlığın  müəyyən  edilməsi;  7)  sənədlər  arasında  semantik 

yaxınlığın müəyyən edilməsi; 8) sənədin əvvəlcədən məlum olan siniflərdən birinə aid edilməsi 

(təsnifatlandırma).  

Tutaq ki, tədqiq olunan mühitin dili üçün baxılan mövzu (terrorizm) ilə bağlı lüğət bazası 

(VBase)  yaradılmış  və  sözlərin  semantik  şəbəkəsi  qurulmuşdur  (ingilis  dilində  yaradılmış 

şəbəkəyə oxşar olaraq bu şəbəkəni WordNet ilə işarə edək). Qeyd etmək lazımdır ki, bu biliklər 

bazası  sözlər  arasındakı  semantik  münasibətləri  müəyyən  etməyə  imkan  verir.  Məsələn,  bu 

şəbəkənin  köməyilə  sinonimləri,  hipernimləri,  hiponimləri  və  s.  asanlıqla  tapmaq  mümkündür 

(şəkil 1). 

 

 

Şəkil 1. Hipernim və hiponimlər  

Təklif olunan yanaşmanın hər bir mərhələsi aşağıda ətraflı izah edilir.  



1)

 

Sənədlərin ilkin filtrasiyasi 

Sənədlərin  ilkin  filtrasiyası  aşağıdakı  qaydada  həyata  keçirilir.  Əvvəlcə  sənəddən 

terminlər  çıxarılır,  onlar  morfoloji  təhlil  edilir  (bu  sözün  başlanğıc  formasını  tapmaq 

üçündür, çünki eyni bir söz qəbul etdiyi şəkilçilərdən asılı olaraq müxtəlif formalarda olur) 

və  sənəd  sözlər  (terminlər)  çoxluğu  kimi  təsvir  olunur, 

)

t



,...,

t

,



t

(

2



1

m

d

.  Sonra  Şimkeviç-



Simpson ölçüsündən [19] istifadə edərək VBase bazası ilə 

)

,...,



,

(

2



1

m

t

t

t

d

 çoxluğu arsındakı 



yaxınlıq hesablanır: 

,

VBase



)

VBase


,

(

sim



S

S

d



d

d



                                             (1) 

burada 

A

A

 çoxluğundakı elementlərin sayıdır.  



Nəqliyyat

 

Avtomobil



 

Avtobus


 

Təyyarə


 

Qatar


 

Metro


 

Hipernim

 

Hiponimlər

 

Tramvay


 

İnformasiya texnologiyaları problemləri, 2015, №2, 41–52 

 

44                                                                  www.jpit.az 



 

Əgər 




)

VBase


,

(

sim



S

S

d

 olarsa, onda   sənədi şübhəli sənədlər çoxluğuna əlavə edilir 

və identifikasiya üçün növbəti mərhələyə keçid  edilir. Burada 

  eksperimental  yolla  müəyyən 



edilmiş sərhəd qiymətidir.  

2)

 

Sözlərin semantik yaxınlığı 

Sözlər arasındakı semantik yaxınlıq aşağıdakı ardıcıllıqla təyin edilir: 

1.

 

İki söz 



1

t  və 


2

t  götürülür. 

2.

 

WordNet semantik şəbəkəsindən bu sözlərin kökü tapılır.  



3.

 

WordNet leksik bazasındann hər bir sözün sinonimləri və onların sayı təyin edilir



4.

 

WordNet  şəbəkəsində  istifadə  etməklə, 



1

t   və 


2

t   sözlərinin  ən  yaxın  ümumi  (Least 

Common Subsume – LCS) kökü tapılır;  

5.

 



(2) və (3) düsturlarının köməyilə sözlər arasındakı semantik yaxınlıq hesablanır.  

Sözlər  arasındakı  semantik  yaxınlığı  hesablamaq  üçün  əvvəlcə  WordNet  şəbəkəsindən 

istifadə etməklə, sözün informativ məzmunu (yükü) 

)

t



(

IC

təyin edilir [20]: 



)

t

log(



)

1

)



t

(

synset



log(

1

)



t

(

IC



max



.                                               (2)  

Sonra (2) düsturundan istifadə edərək sözlər arasındakı semantik yaxınlıq hesablanır [20, 21]:  









2

1

2



1

2

1



2

1

2



1

IC

t



t

,

1



t

t

,



)

t

(



IC

)

t



(

IC

))



t

,

t



(

LCS


(

IC

*



2

)

t



,

t

(



sim

                                     (3) 

burada 

)

t



,

t

(



LCS

2

1



  –  WordNet  şəbəkəsində 

1

t   və 



2

t   sözlərinin  ən  yaxın  olduğu  ortaq  söz 

(məsələn,  şəkil  2-də  göstərilən  hal  üçün 

t

)



t

,

t



(

LCS


2

1



), 

max


t

  –  WordNet  semantik 

şəbəkəsindəki sözlərin ümumi sayı, 

(t)


synset

 –

t  sözünün sinonimlərinin sayıdır.  



 

 

Şəkil 2. Sözlərin semantik şəbəkəsi 



Sözlər  arasındakı  semantik  yaxınlığı  həm  də  WUP  metrikasından  [14]  istifadə  etməklə 

hesablayırıq:  

,

)

t



(

depth


2

)

t



(

depth


)

t

(



depth

)

t



(

depth


2

)

t



,

t

(



sim

2

1



2

1

WUP





                        (4) 



Şəbəkənin (ağacın) kökü

 

  t



1

 

  

t

2

 



      t 

İnformasiya texnologiyaları problemləri, 2015, №2, 41–52 

 

 



       www.jpit.az                                                                      45 

 

burada 



)

t

(



depth

1

  –  WordNet  semantik  şəbəkəsində  (ağacında) 



1

t -dən  t -yə  qədər  olan 

qovşaqların  sayı; 

)

t



(

depth


2

  – 


2

t -dən  t -yə  qədər  olan  qovşaqların  sayı; 

)

t

(



depth

  –  t -dən 

şəbəkənin  kökünə  qədər  olan  qovşaqların  sayıdır.  Məsələn,  şəkil  2-də  göstərilən  hal  üçün 

3

)



t

(

depth



)

t

(



depth

2

1



 və 



2

(t)


depth

. Onda  



.

4

,



0

2

*



2

3

3



2

2

)



t

,

t



(

sim


2

1

WUP





 



Beləliklə,  sözlər  arasında  semantik  yaxınlıq  (3)  və  (4)  düsturları  ilə  verilən  metrikaların 

xətti kombinasiyası kimi təyin olunur: 

),

t

,



t

(

sim



)

1

(



)

t

,



t

(

sim



)

t

,



t

(

sim



2

1

WUP



2

1

IC



2

1







                       (5) 

burada 


1

0



 – çəki əmsalıdır. 



3)

 

Cümlələrin yaxınlıq ölçüsü 

Cümlələr  arasındakı  yaxınlığı  hesablamaq  üçün  3  metrikadan  istifadə  olunacaqdır: 

semantik, kosinus və sintaktik.  

A)

 

Semantik  yaxınlıq.  Cümlələr  arasındakı  semantik  yaxınlıq  sözlər  arasındakı 

semantik yaxınlıqdan (5) istifadə edilərək hesablanır:  

,

)

t



,

t

(



sim

)

,



(

sim


2

1

t



,

t

2



1

2

1



semantic

2

2



1

1

m



m

s

s

s

s





                                  (6) 

burada 


1

 və 

2

 uyğun olaraq 

1

 və 

2

 cümlələrindəki sözlərin sayıdır. 



B)

 

Kosinus  metrikası.  Kosinus  metrikası  vektor  modelinə  əsaslanan  metrikadır. 

Vektor modelinə əsasən cümlələr arasındakı yaxınlığı hesablamaq üçün əvvəlcə onların hər biri 

vektor şəklində təsvir olunur, sonra isə iki vektor arasındakı məsafə (yaxınlıq) hesablanır. Tutaq 

ki, 


1

  və 

2

  cümlələri  verilmişdir.  Ənənəvi  yanaşmalarda  cümlələri  vektor  şəklində  təsvir 

edərkən,  vektorun  uzunluğu  sənəddə  (yaxud  sənədlər  çoxluğunda)  rast  gəlinən  sözlərin  sayına 

bərabər götürülür. Aydındır ki, bu cür təsvir zamanı vektorun uzunluğu cümlənin uzunluğundan 

(cümlədəki  sözlərin  sayından)  dəfələrlə  böyük  olur  və  deməli,  vektorun  elementlərinin  böyük 

əksəriyyəti  0 -a bərabər olur. Bu isə hesablama baxımından effektiv təsvir üsulu deyil. Ona görə 

də burada iki cümlə arasındakı yaxınlığı hesablayarkən, sözlər çoxluğu yalnız bu cümlələrdə rast 

gəlinən  müxtəlif  sözlərdən  yaradılır. 

}

t

,...,



t

,

t



{

WS

2



1

m

  ilə  bu  sözlər  çoxluğunu  işarə  edək, 



burada 

  müxtəlif  sözlərin  ümumi  sayıdır.  İki  cümlədəki  sözlər  çoxluğu  aşağıdakı  ardıcıllıqla 

yaradılır [20, 22]:  

1.

 

İki cümlə götürülür



1

 və 

2

.  

2.

 

1



 cümləsindən götürülmüş hər bir  t  sözü üçün aşağıdakı işlər apaırılr:  

2.1.


 

WordNet leksik bazasından istifadə etməklə onun kökü 

)

RW

(



təyin edilir. 

2.2.


 

Əgər  RW sözü  WS   çoxluğunda  iştirak  edirsə,  onda  addım  2-yə  keçməli  və 

1

-dən 

götürülmüş növbəti söz üçün prosesi davam etdirməli, əks halda 2.3 addımına keçməli; 

2.3.

 

Əgər sözün  RW  kökü sözlər çoxluğunda ( WS ) iştirak etmirsə, onda  RW  sözünü  WS  



çoxluğuna  əlavə  edib,  2-ci  addıma  keçməli  və  prosesi 

1

-dən  götürülmüş  növbəti  söz 

üçün davam etdirməli. Proses   cümləsindəki sözlər qurtarana kimi davam etdirilir. 

Yuxarıdakı proses 

2

 cümləsi üçün də təkrarlanır. 

Cümlələr  arasındakı  yaxınlığı  müəyyən  etmək  üçün  semantik  vektor  modelindən  istifadə 

edilir [23, 24]. Bunun üçün ilkin olaraq aşağıdakı əməliyyatlar yerinə yetirilir: 

1

s



İnformasiya texnologiyaları problemləri, 2015, №2, 41–52 

 

46                                                                  www.jpit.az 



 

1.

 



Vektorun  qurulması.  Vektorun  hər  bir  elementi  WS   sözlər  çoxluğundakı  sözə 

uyğundur. Deməli, vektorun ölçüsü 

WS

 çoxluğundakı sözlərin sayına bərabərdir.  



2.

 

Vektorun  elementlərinin  təyini.  Semantik  vektorun  hər  bir  elementi  (sözün  çəkisi) 

aşağıdakı qayda ilə təyin edilir: 

2.1.


 

Əgər  WS  sözlər çoxluğundan olan  t  sözü 

1

 cümləsində iştirak edirsə, onda bu sözün 

vektordakı çəkisi 1 götürülür, əks halda növbəti addıma keçilir; 

2.2.

 

Əgər   sözü 



1

 cümləsində iştirak etmirsə, onda (5) düsturunun köməyilə   sözü ilə 

 

cümləsindəki sözlər arasındakı yaxınlıq hesablanır. 



2.3.

 

Əgər  sözlər  arasında  yaxınlıq  sıfırdan  fərqlidirsə,  onda  t   sözünün  vektordakı  çəkisi 



kimi bu qiymətlərdən ən böyüyü götürülür. Əks halda növbəti addıma keçid edilir; 

2.4.


 

Əgər  sözlər  arasında  yaxınlıq  sıfra  bərabərdirsə,  onda    sözünün  vektordakı  çəkisi  0  

götürülür.  

Beləliklə, kosinus metrikasından istifadə etməklə, iki vektor arasındakı yaxınlıq aşağıdakı 

kimi hesablanır: 









m

j

j

m

j

j

m

j

j

j

w

w

w

w

s

s

1

2



2

1

2



1

1

2



1

2

1



cos

)

(



)

,

(



sim

,                                             (7) 

burada 

)

,...,



,

(

1



12

11

1



m

w

w

w

s

  və 



)

,...,


,

(

2



22

21

2



m

w

w

w

s

  – 



1

  və 

2

  cümlələrinə  uyğun  semantik 

vektorlar; 

pj

w

 – 


p

s

 vektorunda 



j

t

 sözünün çəkisi; 



 isə sözlərin ümumi sayıdır. 




Поделитесь с Вашими друзьями:
  1   2   3


Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©www.azkurs.org 2019
rəhbərliyinə müraciət

    Ana səhifə