Predlog za izdelavo
Slovarja sodobnega slovenskega jezika
71
najpomembnejšimi dolžina stavka in dolžina ter pogostost besed v stavku. Višje so ovrednoteni stavki, v
katerih se ciljna kolokacija pojavi v glavnem stavku in stavki s t. i. razširjenimi kolokacijami, ki presegajo
klasično dvodelno zgradbo, npr.
pasti pod [določeno, magično, psihološko, kritično] mejo
. Ustreznejši so
tudi stavki, v katerih se pred kolokacijo pojavi dovolj sobesedila, del s kolokacijo pa tipično sledi proti
koncu stavka. Stavki so vrednoteni tudi glede na to, ali vsebujejo oz. ne vsebujejo besede s črne oz. bele
liste, pri čemer na črno listo sodijo zlasti številke in internetni naslovi. Poleg omenjenih se pri
vrednotenju stavkov uporabljajo tudi druga merila, ki so na voljo za določen jezik, npr. oblikoskladenjski
podatki o besedah, stopnja njihove večpomenskosti ipd.
3.6.3
A
VTOMATSKO PRIDOBIVAN JE PODATKOV IZ KORPUSA
V zaključni fazi oblikovanja Leksikalne baze za slovenščino smo del gesel izdelali s postopkom
avtomatskega luščenja leksikalnih podatkov iz korpusa Gigafida prek orodja Sketch Engine neposredno v
program za izdelavo leksikalne baze iLex (Kosem idr. 2012).
Izhajajoč iz zgradbe leksikalne baze smo s postopkom avtomatizacije pridobili podatke na ravni
skladenjskih struktur, pripadajočih kolokacij in relevantnih korpusnih zgledov, poleg tega pa še podatke
o tipičnem skladenjskem ali besedilnem obnašanju leme v korpusu, kot je denimo sopojavljanje z
lastnimi imeni ali količinskimi izrazi, možnost tretjeosebne rabe glagola ali nastopanje v
se
-glagolskih ali
citatnih konstrukcijah. Prenos omenjenih podatkov je potekal iz korpusa Gigafida prek aplikacije
Besedne skice in v leksikalni bazi registriranih skladenjskih struktur, in sicer z uporabo API skripte (ang.
Application Programming Interface
) v program iLex (Erlandsen 2004), v katerem smo izdelovali
leksikalno bazo, kot prikazuje Slika 37: