İnformasiya texnologiyaları problemləri, 2015, №2, 41–52
www.jpit.az 41
UOT 004.9
Alıquliyev R.M.
1
, Niftəliyeva G.Y.
2
AMEA İnformasiya Texnologiyaları İnstitutu
1
r.aliguliyev@gmail.com;
2
gunayniftali@gmail.com
TEXT MİNİNG METODLARININ KÖMƏYİLƏ E-DÖVLƏTDƏ TERRORİZMLƏ
ƏLAQƏLİ MƏQALƏLƏRİN AŞKARLANMASI
Məqalədə e-dövlət mühitində terrorizmlə əlaqəli məqalələrin aşkarlanması üçün text mining
texnologiyasına əsaslanan metod təklif olunmuşdur. Təklif olunmuş metod bir neçə mərhələdən
ibarətdir: 1) terrorizmlə əlaqəli terminlərin lüğət bazasının yaradılması; 2) sözlərin semantik
şəbəkəsinin yaradılması; 3) sözlərin morfoloji təhlili; 4) sənədlərin ilkin filtrasiyası; 5) sözlərin
semantik şəbəkəsindən istifadə etməklə onlar arasında semantik yaxınlığın hesablanması; 6)
cümlələr arasında semantik yaxınlığın müəyyən edilməsi; 7) sənədlər arasında semantik
yaxınlığın müəyyən edilməsi; 8) sənədlərin təsnifatlandırılması. Sözlər, cümlələr və sənədlər
arsında yaxınlığı hesablamaq üçün hibrid yaxınlıq ölçüləri daxil edilmişdir. Terrorizmlə əlaqəli
sənədləri identifikasiya etmək üçün kNN, Bayes və yeni təklif olunan Ramiz-Günay metodlarının
xətti kombinasiyasından ibarət hibrid təsnifatlandırma metodu təklif olunmuşdur.
Açar sözlər: e-dövlət; e-dövlətin təhlükəsizliyi; terrorizm; text mining; hibrid yaxınlıq ölçüsü;
kNN metodu; modifikasiya olunmuş Bayes metodu; Ramiz-Günay metodu; hibrid
təsnifatlandırma metodu.
Giriş
Müasir dövrdə kriminal qruplar təkcə real aləmdə deyil, həm də virtual mühitdə (İnternet, e-
dövlət) də dövlət və cəmiyyət əleyhinə öz bədniyyətli fəaliyyətlərini həyata keçirirlər. Bu fəaliyyət
növləri müxtəlif məqsədli olur: dövlət əleyhinə təbliğat, mentalitetə uyğun gəlməyən, milli mənəvi
dəyərlərin əsaslarını sarsıdan, terrorizmi təbliğ edən informasiyanın yayılması və s. [1–7].
E-dövlət mühitində bu məzmunda informasiyanın vaxtında aşkarlanması dövlətin və
cəmiyyətin təhlükəsizliyinin təmin olunması baxımından mühüm əhəmiyyət kəsb edir və
günümüzün ən aktual elmi-nəzəri və praktiki problemlərindən biridir [6, 7]. Heç də təsadüfi
deyildir ki, e-dövlətin təhlükəsizliyi problemi Avropa Komissiyası tərəfindən qəbul edilmiş
eGovRTD2020 layihəsində e-dövlət sahəsində araşdırılması vacib olan 13 ən aktual elmi-
tədqiqat istiqamətindən biri kimi qeyd olunmuşdur [8].
E-dövlətin əsas funksiyalarından biri vətəndaşları ehtimal olunan zərər və zorakılıqlardan
qorumaqdır. Linders [9] vətəndaş-dövlət münasibətlərinin təkamülünü araşdıraraq, belə qənaətə
gəlmişdir ki, ehtimal olunan cinayətlər haqqında əvvəlcədən məlumat vermək, o cümlədən
cəmiyyət üzvləri ilə hüquq-mühafizə orqanları arasındakı münasibətlərin yaxşılaşdırılması
baxımından İnternet, xüsusi halda e-dövlət ən effektiv və əlverişli vasitədir. Təcrübə göstərir ki,
bu əlverişli mühitdən cinayətkar qruplar da yaxşı “yararlanırlar” və onlar bu imkandan istifadə
edərək dövlət və cəmiyyət üçün böyük təhlükə mənbəyinə çevrilirlər. Buna misal olaraq, 11
sentyabr 2011-ci il tarixində ABŞ-da həyata keçirilmiş terror hücumunu göstərmək olar. Terror
hadisəsindən sonrakı təhlillər göstərdi ki, bu aktı həyata keçirən mütəşəkkil cinayətkar qrup
bütün plan və fəaliyyətlərini İnternet şəbəkəsindən istifadə etməklə hazırlamış və koordinasiya
etmişlər. Belə demək mümkünsə, virtual aləm cinayətkar qruplara öz əməllərini həyata keçirmək
üçün çox əlverişli mühitdir.
Deməli, dövlətin mühüm vəzifələrindən biri də virtual mühitdə – İnternetdə və e-dövlətdə
gizli fəaliyyət göstərən kriminal şəbəkələrin fəaliyyətini aşkarlamaq və analiz etməkdir. Bu
mühit tez kommunikasiya yaratmaq və fəaliiyəti operativ koordinasiya etmək baxımından çox
geniş imkanlara malikdir. Kriminal şəbəkənin üzvləri ünsiyyət qurmaq üçün veb-saytlardan, e-
poçtdan, bloqlardan, onlayn çatdan və s. istifadə edir. Aydındır ki, belə kommunikasiya
İnformasiya texnologiyaları problemləri, 2015, №2, 41–52
42 www.jpit.az
vasitələrində ötürülən informasiya növləri arasında mətnlər üstünlük təşkil edirlər. Ona görə də,
mümkün ola biləcək terror aktlarının qarşısının alınması və dövlətin təhlükəsizliyinin təmin
olunması üçün virtual mühitdə, o cümlədən e-dövlətdə dövr edən mətnlərin analizi mühüm
əhəmiyyət kəsb edir [10]. Hal-hazırda biliklərin idarə olunmasında, müxtəlif mənbələrdə
toplanmış mətnlərin intellektual analizində text mining ən qabaqcıl və effektiv texnologiyalardan
biri hesab olunur [11].
Text mining texnologiyalarının belə populyar və tətbiq sahəsinin geniş olmasının digər
səbəblərindən biri də real və ya virtual mühitdə istehsal olunmasından asılı olmayaraq
informasiya növləri arasında mətnlərin üstünlük təşkil etməsidir. Beynəlxalq verilənlər
korporasiyasının (International Data Corporation) analitiklərinin verdiyi məlumata görə istehsal
olunan informasiyanın təqribən 80%-dən çoxunu mətnlər təşkil edir [12]. Deməli, e-dövlətin
təhlükəsizliyinin təmin olunması baxımından bü mühitdə dövr edən mətnlərin intellektual analizi
mühüm əhəmiyyət kəsb edir və elmi-tədqiqat nöqteyi-nəzərdən aktual məsələdir.
Beləliklə, problemin aktuallığını əsas tutaraq, məqalədə e-dövlətdə şübhəli (terrorizmlə
əlaqəli) mətnlərin aşkarlanmsı üçün text mining texnologiyalarına əsaslanan metod təklif olunur.
Bu metod [3]-də təklif olunmuş metoda oxşardır. Lakin təklif olunan metod bir neçə fərqli və
üstün cəhətlərə malikdir:
[3]-də təklif olunmuş metoddan fərqli olaraq, bu metodda sözlər arasındakı yaxınlığı
hesablayarkən nəinki onlar arasındakı semantik yaxınlıq, həm də cümlənin sintaktik
quruluşu, daha doğrusu sözlərin cümlədəki işlənmə ardıcıllığı nəzərə alınır;
potensial şübhəli sənədləri daha dəqiq aşkarlamaq üçün sənədlər arasındakı yaxınlıq
yeni iterativ üsulla hesablanır: əvvəlcə sözlərin yaxınlığı təyin edilir; sonra sözlər
arasındakı yaxınlıqdan istifadə etməklə cümlələrin yaxınlığı hesablanır; nəhayət,
cümlələr arasındakı yaxınlıqdan istifadə olunmaqla sənədlər arasındakı yaxınlıq
hesablanır.
cümlələr arasında yaxınlığı hesablamaq üçün hibrid yaxınlıq ölçüsü daxil edilir;
Təsnifatlandırma üçün yeni metod təklif olunur.
Məqalə aşağıdakı kimi strukturlaşdırılmışdır. Tədqiq olunan problemlə əlaqəli işlərin qısa
icmalı ikinci bölmədə verilir. Üçüncü bölmədə təklif olunan metodun mərhələlərinin təsviri
verilir. Yekun və gələcək tədqiqatlar barədə məlumat isə dördüncü bölmədə verilmişdir.
Əlaqəli işlərin qısa icmalı
Virtual mühitdə (İnternetdə, e-dövlətdə) kriminal və terrorizmlə bağlı informasiyanın
aşkarlanması, identifikasiyası və izlənməsi üçün text mining texnologiyasına əsaslanan müxtəlif
metodlar, alqoritmlər və modellər təklif edilmişdir. Məsələn, veb-də kriminal informasiyanın
filtrasiyası və identifikasiyası məqsədilə sənədlər arasındakı oxşarlığı müəyyən etmək üçün [4,
5]-da yeni alqoritmlər təklif edilmişdir. Ərəb dilində kriminal sənədlərin identifikasiyası sistemi
üçün [1]-də text mining texnologiyasının informasiyanın çıxarılması və klasterləşdirmə
metodlarından istifadə olunmuşdur. İnformasiyanın çıxarılması üçün qaydalara əsaslanan
yaxınlaşma, sənədlərin klasterləşdirilməsi üçün isə özü-özünə təşkil olunan neyron şəbəkə
(Kohonen şəbəkəsi) tətbiq olunmuşdur. Kriminal sənədlərin tipinin identifikasiyası üçün [2]-də
iki mərhələdən - sənədlərin aşkarlanması və onların klasterləşdirilməsindən ibarət metod təklif
olunmuşdur. Birinci mərhələdə sənədlər əhəmiyyətsiz sözlərdən təmizlənir, sonra sənədləri
əhəmiyyətli sözlərin vektoru kimi təsvir edib, onlar arsındakı yaxınlığı hesablamaq üçün metrika
daxil edilir. İkinci mərhələdə klasterləşdirmə alqoritmini tətbiq etməklə sənədlər kriminal tiplərə
görə qruplaşdırılır. İnternetdə terrorizmlə əlaqəli məqalələri aşkarlamaq üçün [3]-də mətnlərin
analizinə əsaslanan yeni yanaşma təklif olunmuşdur. Bu yanaşma WordNet semantik
şəbəkəsindən [13] istifadə etməklə terrorizmlə əlaqəli məqalələr çoxluğundan kontekst sözlərin
(isimlərin) siyahısını yaradır. Sonra WUP [14] metrikasını tətbiq etməklə kontekst sözlərin
əhəmiyyətlilik dərəcəsini hesablayır. Sonda isə biqramlardan və Keselj metrikasından [15]
İnformasiya texnologiyaları problemləri, 2015, №2, 41–52
www.jpit.az 43
istifadə etməklə sənədləri təsnifatlandırır. Çoxdilli terrorizmlə əlaqəli sənədlərin aşkarlanması
üçün [16]-da təsnifatlandırma metoduna əsaslanan yeni yanaşma təklif olunmuşdur. Bu yanaşma
veb sənədlərin qraf təsviri modeli ilə C4.5 təsnifatlandırma alqoritminin kombinasiyasından
istifadə edir. [17]-də təklif olunmuş metod data mining alqoritmlərinin köməyilə veb saytlardakı
mətnləri analiz etməklə terrorçuların fəaliyyətini (profilini) öyrənir. Kriminal məzmunlu mətnləri
təsnifatlandırmaq üçün [18]-də qeyri-səlis qrammatikanın evolyusiyası (evolving fuzzy
grammar) metodu təklif olunmuşdur. Bu metodda seçilmiş mətn fraqmentləri qeyri-səlis
strukturda təsvir olunur.
Təklif olunan metod
Təklif olunan metod bir neçə mərhələdən ibarətdir: 1) tədqiq olunan mühitdə dövr edən
sənədlərin (informasiyanın) dilindən asılı olaraq, həmin dil üçün terrorizmlə əlaqəli terminlərin
lüğət bazasının yaradılması; 2) baxılan dil üçün sözlərin semantik şəbəkəsinin yaradılması
(metodun dəqiqliyi bu şəbəkədən çox asılıdır); 3) sözlərin morfoloji təhlili; 4) lügət bazasından
istifadə etməklə sənədlərin ilkin filtrasiyası; 5) sözlər arasında semantik yaxınlığın hesablanması;
6) cümlələr arasında semantik yaxınlığın müəyyən edilməsi; 7) sənədlər arasında semantik
yaxınlığın müəyyən edilməsi; 8) sənədin əvvəlcədən məlum olan siniflərdən birinə aid edilməsi
(təsnifatlandırma).
Tutaq ki, tədqiq olunan mühitin dili üçün baxılan mövzu (terrorizm) ilə bağlı lüğət bazası
(VBase) yaradılmış və sözlərin semantik şəbəkəsi qurulmuşdur (ingilis dilində yaradılmış
şəbəkəyə oxşar olaraq bu şəbəkəni WordNet ilə işarə edək). Qeyd etmək lazımdır ki, bu biliklər
bazası sözlər arasındakı semantik münasibətləri müəyyən etməyə imkan verir. Məsələn, bu
şəbəkənin köməyilə sinonimləri, hipernimləri, hiponimləri və s. asanlıqla tapmaq mümkündür
(şəkil 1).
Şəkil 1. Hipernim və hiponimlər
Təklif olunan yanaşmanın hər bir mərhələsi aşağıda ətraflı izah edilir.
1)
Sənədlərin ilkin filtrasiyasi
Sənədlərin ilkin filtrasiyası aşağıdakı qaydada həyata keçirilir. Əvvəlcə sənəddən
terminlər çıxarılır, onlar morfoloji təhlil edilir (bu sözün başlanğıc formasını tapmaq
üçündür, çünki eyni bir söz qəbul etdiyi şəkilçilərdən asılı olaraq müxtəlif formalarda olur)
və sənəd sözlər (terminlər) çoxluğu kimi təsvir olunur,
)
t
,...,
t
,
t
(
2
1
m
d
. Sonra Şimkeviç-
Simpson ölçüsündən [19] istifadə edərək VBase bazası ilə
)
,...,
,
(
2
1
m
t
t
t
d
çoxluğu arsındakı
yaxınlıq hesablanır:
,
VBase
)
VBase
,
(
sim
S
S
d
d
d
(1)
burada
A
A
çoxluğundakı elementlərin sayıdır.
Nəqliyyat
Avtomobil
Avtobus
Təyyarə
Qatar
Metro
Hipernim
Hiponimlər
Tramvay
İnformasiya texnologiyaları problemləri, 2015, №2, 41–52
44 www.jpit.az
Əgər
)
VBase
,
(
sim
S
S
d
olarsa, onda d sənədi şübhəli sənədlər çoxluğuna əlavə edilir
və identifikasiya üçün növbəti mərhələyə keçid edilir. Burada
eksperimental yolla müəyyən
edilmiş sərhəd qiymətidir.
2)
Sözlərin semantik yaxınlığı
Sözlər arasındakı semantik yaxınlıq aşağıdakı ardıcıllıqla təyin edilir:
1.
İki söz
1
t və
2
t götürülür.
2.
WordNet semantik şəbəkəsindən bu sözlərin kökü tapılır.
3.
WordNet leksik bazasındann hər bir sözün sinonimləri və onların sayı təyin edilir;
4.
WordNet şəbəkəsində istifadə etməklə,
1
t və
2
t sözlərinin ən yaxın ümumi (Least
Common Subsume – LCS) kökü tapılır;
5.
(2) və (3) düsturlarının köməyilə sözlər arasındakı semantik yaxınlıq hesablanır.
Sözlər arasındakı semantik yaxınlığı hesablamaq üçün əvvəlcə WordNet şəbəkəsindən
istifadə etməklə, sözün informativ məzmunu (yükü)
)
t
(
IC
təyin edilir [20]:
)
t
log(
)
1
)
t
(
synset
log(
1
)
t
(
IC
max
. (2)
Sonra (2) düsturundan istifadə edərək sözlər arasındakı semantik yaxınlıq hesablanır [20, 21]:
2
1
2
1
2
1
2
1
2
1
IC
t
t
,
1
t
t
,
)
t
(
IC
)
t
(
IC
))
t
,
t
(
LCS
(
IC
*
2
)
t
,
t
(
sim
(3)
burada
)
t
,
t
(
LCS
2
1
– WordNet şəbəkəsində
1
t və
2
t sözlərinin ən yaxın olduğu ortaq söz
(məsələn, şəkil 2-də göstərilən hal üçün
t
)
t
,
t
(
LCS
2
1
),
max
t
– WordNet semantik
şəbəkəsindəki sözlərin ümumi sayı,
(t)
synset
–
t sözünün sinonimlərinin sayıdır.
Şəkil 2. Sözlərin semantik şəbəkəsi
Sözlər arasındakı semantik yaxınlığı həm də WUP metrikasından [14] istifadə etməklə
hesablayırıq:
,
)
t
(
depth
2
)
t
(
depth
)
t
(
depth
)
t
(
depth
2
)
t
,
t
(
sim
2
1
2
1
WUP
(4)
Şəbəkənin (ağacın) kökü
t
1
t
2
t
İnformasiya texnologiyaları problemləri, 2015, №2, 41–52
www.jpit.az 45
burada
)
t
(
depth
1
– WordNet semantik şəbəkəsində (ağacında)
1
t -dən t -yə qədər olan
qovşaqların sayı;
)
t
(
depth
2
–
2
t -dən t -yə qədər olan qovşaqların sayı;
)
t
(
depth
– t -dən
şəbəkənin kökünə qədər olan qovşaqların sayıdır. Məsələn, şəkil 2-də göstərilən hal üçün
3
)
t
(
depth
)
t
(
depth
2
1
və
2
(t)
depth
. Onda
.
4
,
0
2
*
2
3
3
2
2
)
t
,
t
(
sim
2
1
WUP
Beləliklə, sözlər arasında semantik yaxınlıq (3) və (4) düsturları ilə verilən metrikaların
xətti kombinasiyası kimi təyin olunur:
),
t
,
t
(
sim
)
1
(
)
t
,
t
(
sim
)
t
,
t
(
sim
2
1
WUP
2
1
IC
2
1
(5)
burada
1
0
– çəki əmsalıdır.
3)
Cümlələrin yaxınlıq ölçüsü
Cümlələr arasındakı yaxınlığı hesablamaq üçün 3 metrikadan istifadə olunacaqdır:
semantik, kosinus və sintaktik.
A)
Semantik yaxınlıq. Cümlələr arasındakı semantik yaxınlıq sözlər arasındakı
semantik yaxınlıqdan (5) istifadə edilərək hesablanır:
,
)
t
,
t
(
sim
)
,
(
sim
2
1
t
,
t
2
1
2
1
semantic
2
2
1
1
m
m
s
s
s
s
(6)
burada
1
m və
2
m uyğun olaraq
1
s və
2
s cümlələrindəki sözlərin sayıdır.
B)
Kosinus metrikası. Kosinus metrikası vektor modelinə əsaslanan metrikadır.
Vektor modelinə əsasən cümlələr arasındakı yaxınlığı hesablamaq üçün əvvəlcə onların hər biri
vektor şəklində təsvir olunur, sonra isə iki vektor arasındakı məsafə (yaxınlıq) hesablanır. Tutaq
ki,
1
s və
2
s cümlələri verilmişdir. Ənənəvi yanaşmalarda cümlələri vektor şəklində təsvir
edərkən, vektorun uzunluğu sənəddə (yaxud sənədlər çoxluğunda) rast gəlinən sözlərin sayına
bərabər götürülür. Aydındır ki, bu cür təsvir zamanı vektorun uzunluğu cümlənin uzunluğundan
(cümlədəki sözlərin sayından) dəfələrlə böyük olur və deməli, vektorun elementlərinin böyük
əksəriyyəti 0 -a bərabər olur. Bu isə hesablama baxımından effektiv təsvir üsulu deyil. Ona görə
də burada iki cümlə arasındakı yaxınlığı hesablayarkən, sözlər çoxluğu yalnız bu cümlələrdə rast
gəlinən müxtəlif sözlərdən yaradılır.
}
t
,...,
t
,
t
{
WS
2
1
m
ilə bu sözlər çoxluğunu işarə edək,
burada
m müxtəlif sözlərin ümumi sayıdır. İki cümlədəki sözlər çoxluğu aşağıdakı ardıcıllıqla
yaradılır [20, 22]:
1.
İki cümlə götürülür,
1
s və
2
s .
2.
1
s cümləsindən götürülmüş hər bir t sözü üçün aşağıdakı işlər apaırılr:
2.1.
WordNet leksik bazasından istifadə etməklə onun kökü
)
RW
(
təyin edilir.
2.2.
Əgər RW sözü WS çoxluğunda iştirak edirsə, onda addım 2-yə keçməli və
1
s -dən
götürülmüş növbəti söz üçün prosesi davam etdirməli, əks halda 2.3 addımına keçməli;
2.3.
Əgər sözün RW kökü sözlər çoxluğunda ( WS ) iştirak etmirsə, onda RW sözünü WS
çoxluğuna əlavə edib, 2-ci addıma keçməli və prosesi
1
s -dən götürülmüş növbəti söz
üçün davam etdirməli. Proses cümləsindəki sözlər qurtarana kimi davam etdirilir.
Yuxarıdakı proses
2
s cümləsi üçün də təkrarlanır.
Cümlələr arasındakı yaxınlığı müəyyən etmək üçün semantik vektor modelindən istifadə
edilir [23, 24]. Bunun üçün ilkin olaraq aşağıdakı əməliyyatlar yerinə yetirilir:
1
s
İnformasiya texnologiyaları problemləri, 2015, №2, 41–52
46 www.jpit.az
1.
Vektorun qurulması. Vektorun hər bir elementi WS sözlər çoxluğundakı sözə
uyğundur. Deməli, vektorun ölçüsü
WS
çoxluğundakı sözlərin sayına bərabərdir.
2.
Vektorun elementlərinin təyini. Semantik vektorun hər bir elementi (sözün çəkisi)
aşağıdakı qayda ilə təyin edilir:
2.1.
Əgər WS sözlər çoxluğundan olan t sözü
1
s cümləsində iştirak edirsə, onda bu sözün
vektordakı çəkisi 1 götürülür, əks halda növbəti addıma keçilir;
2.2.
Əgər sözü
1
s cümləsində iştirak etmirsə, onda (5) düsturunun köməyilə sözü ilə
cümləsindəki sözlər arasındakı yaxınlıq hesablanır.
2.3.
Əgər sözlər arasında yaxınlıq sıfırdan fərqlidirsə, onda t sözünün vektordakı çəkisi
kimi bu qiymətlərdən ən böyüyü götürülür. Əks halda növbəti addıma keçid edilir;
2.4.
Əgər sözlər arasında yaxınlıq sıfra bərabərdirsə, onda sözünün vektordakı çəkisi 0
götürülür.
Beləliklə, kosinus metrikasından istifadə etməklə, iki vektor arasındakı yaxınlıq aşağıdakı
kimi hesablanır:
m
j
j
m
j
j
m
j
j
j
w
w
w
w
s
s
1
2
2
1
2
1
1
2
1
2
1
cos
)
(
)
,
(
sim
, (7)
burada
)
,...,
,
(
1
12
11
1
m
w
w
w
s
və
)
,...,
,
(
2
22
21
2
m
w
w
w
s
–
1
s və
2
s cümlələrinə uyğun semantik
vektorlar;
pj
w
–
p
s
vektorunda
j
t
sözünün çəkisi;
m isə sözlərin ümumi sayıdır.
Dostları ilə paylaş: |