Predlog za izdelavo
Slovarja sodobnega slovenskega jezika
46
pomembna v enaki meri, bomo določili kriterije za njihovo prednostno obravnavo. Glavna kriterija sta
dva: relevantnost besede za usvajanje splošnega besedišča in aktualnost besede. Kriterij relevantnosti
besede za usvajanje splošnega besedišča je povezan z delitvijo besedišča v štiri skupine (Coxhead 2000,
Nation in Waring 1997), in sicer v splošno besedišče, akademsko oz. šolsko besedišče, terminologijo in
zelo redke besede. Ker predlagani slovar cilja predvsem na šolske uporabnike ter odrasle uporabnike, ki
bodo slovar uporabljali v okviru izobraževanja ter zaradi sporazumevalnih potreb, bo pomembno čim
hitreje ponuditi končna gesla, ki bodo pokrivala splošno besedišče, zlasti tisto, ki se uporablja pri
izobraževanju v osnovnih in srednjih šolah, deloma tudi na univerzitetni ravni, in sicer nepodročno
specifično oz. neterminološko.
Drugi kriterij, aktualnost besede, je povezan z dejstvom, da so zaradi političnih, športnih in podobnih
dogodkov nekatere besede oz. besedne zveze, zlasti tiste z določenega področja, v določenih tednih ali
mesecih uporabljene precej bolj pogosto kot ponavadi. V zadnjih letih so bili to izrazi, kot so npr.
slaba
banka, interpelacija, doping, fiskalno pravilo, projektna vlada
. Takšne besede ali zveze zaradi (vsaj
začasnega) povečanja rabe postanejo del splošnega besedišča in pričakuje se, da je razlago njihovega
pomena mogoče najti hitro in sproti, ko je raba še na vrhuncu. Ker je pričakovano, da bodo uporabniki
iskali oz. potrebovali razlago ravno takšnih izrazov (kar sproti detektiramo tudi z beleženjem spletnih
poizvedb), se jih zdi smiselno čim prej ponuditi v obliki dokončanih gesel. V ta namen je v okviru projekta
predvidena uporaba spletnega pajka (ang.
web crawler
), ki smo ga uporabili že pri izdelavi spletnega
dela korpusa Gigafida. Z orodjem bomo redno, npr. enkrat tedensko ali celo dnevno, shranjevali spletne
strani glavnih novičarskih portalov in časopisov ter avtomatsko luščili besedišče, kateremu bo raba v
primerjavi s preteklimi obdobji statistično pomembno narasla. Za to besedišče se bodo po predvidenem
tehničnem protokolu avtomatsko izdelala gesla (če jih še ne bo v geslovniku), strojno izluščile definicije iz
besedil (če bodo obstajale v besedilih, shranjenih s spleta), leksikografi pa se bodo takoj lotili izdelave
končnih gesel, pri čemer bo glavni poudarek na pisanju oz. dodelavi razlag. V idealnem scenariju bi imel
tako uporabnik, ko bi se srečal z eno takšnih besed in besednih zvez, sprva na voljo avtomatsko izdelano
geslo, že naslednji dan pa v celoti izdelano geslo z leksikografsko razlago.
Informacije o tem, katere besede oz. besedne zveze so za uporabnike aktualne, bomo poleg spremljanja
spletnih objav s statističnimi orodji pridobivali tudi iz dnevnikov uporabniških poizvedb. Spremljanje
uporabniških aktivnosti na spletni strani bo koristno tudi za druge namene, npr. ugotavljanja, katere dele
gesel uporabniki najpogosteje uporabljajo, katere povezave največkrat kliknejo, katere besede
največkrat napačno vtipkajo ipd.
2.2.3 D
ETEKTIRANJE POMENSKIH SPREMEMB BESEDIŠČA
Postopek, ki je ločen od avtomatske detekcije novih besed oz. neologizmov, je prepoznavanje novih
pomenov ali pomenskih odtenkov (prek kolokacij). Za namene tega postopka bomo izdelali posebno
orodje, ki bo leksikografe avtomatično opozarjalo na spremembe v rabi besed. Orodje bi se opiralo na
funkcijo primerjalnih skic v orodju Sketch Engine, ki primerja besedne skice besed v različnih časovnih
obdobjih, pri čemer je predpogoj redno posodabljanje korpusnih podatkov. Vzemimo kot primer
samostalnik
dvojček
in njegovo pojavljanje v podkorpusu besedil iz obdobja 1990-2000 ter iz obdobja