Predlog za izdelavo
Slovarja sodobnega slovenskega jezika
12
o
Tezaver – izdelava seznamov pomensko sorodnih besed idr.
Slovnica besednih skic za slovenščino:
izdelana za namene avtomatskega luščenja leksikalnih
podatkov iz korpusa ter slovenščini prilagojena
aplikacija za avtomatski izbor dobrih zgledov
GDEX v orodju Sketch Engine;
Skladenjski razčlenjevalnik MSTParser:
za namen avtomatskega luščenja skladenjsko-leksikalnih
podatkov iz korpusa. Skladenjski označevalnik se poleg orodja Sketch Engine uporablja
predvsem za luščenje vezljivostnih podatkov ter stalnih besednih zvez (
multi-word units
);
Spletni pajek
(Web crawler): program, ki na sistematičen način avtomatsko »brska« po spletu,
izlušči povezave (tj. vsebovane spletne naslove) in po čiščenju ohrani naslov, povzetek in glavno
besedilo;
Posebno programsko orodje za luščenje normativnih podatkov iz korpusa:
v okviru projekta
Sporazumevanje v slovenskem jeziku
je bilo razvito orodje, s pomočjo katerega je iz korpusa
mogoče izluščiti variantne oblike in pridobivati druge podatke, ki so relevantni za podajanje
normativnih informacij v slovarju (Krek 2012b);
Prepoznavalnik imenskih entitet:
razpoznavanje in klasificiranje pojavnih oblik imen in številskih
izrazov (
entity extraction, named entity recognition, entity identification
) je pomembna naloga
pri izločanju informacij iz besedil in pripomore k izločanju leksikografsko relevantnih podatkov iz
korpusa (dobri zgledi, semantični tipi itd.).
1.2
J
EZ IKOVNOTEHNOLOŠKA IN SLOVARSKA PODPORA V EVROPSKEM PROSTORU
Pojem
jezikovnotehnološka leksikalna podatkovna baza
, ki se osredotoča na leksikalne podatke,
uporabne primarno za
računalniško obdelavo
, je v evropskem jezikoslovnem kontekstu znan že več kot
20 let, dejavnosti v povezavi s tem so se pri angleščini začele že v 60-ih letih prejšnjega stoletja, zelo pa
so se intenzivirale z evropskimi jezikovnotehnološkimi projekti v 90-ih letih, ko so takrat še Evropska
gospodarska skupnost in posamezne močnejše evropske države finančno in raziskovalno podprle
jezikovne tehnologije in vire za svoje jezike (Krek 2009: 99). Namen gradnje tovrstnih baz je bil
vzpostaviti mrežo jezikovnih virov, namenjenih za zagotavljanje jezikovnih potreb (večjih) jezikovnih
skupnosti znotraj EU.
Na tej podlagi so se za številne evropske jezike, primarno pa za angleščino, nemščino, francoščino,
španščino, italijanščino, nizozemščino ter večino skandinavskih jezikov oblikovale bodisi
jezikovnotehnološke leksikalne baze
, ki so namenjene zlasti računalniški obdelavi naravnega jezika in
razvoju jezikovnih tehnologij
19
in t. i.
slovarske leksikalne baze,
ki predstavljajo vir jezikovnih opisov,
namenjenih človeškemu uporabniku. Kljub temeljnemu ločevanju na jezikovnotehnološke in
jezikovnopriročniške leksikalne baze pa se v sodobni praksi meja med njimi zabrisuje.
20
Možnosti, ki jih z
19
npr.
– leksikalna podatkovna baza za danščino,
– italijanska leksikalna podatkovna baza
i
–
špansko-katalonski jezikovnotehnološki podatkovni bazi
vezljivostni slovar čeških glagolov itd.
20
Glej razdelek E-LEKSIKOGRAFIJA v poglavju Bibliografija.