Predlog za izdelavo Slovarja sodobnega slovenskega jezika (Simon Krek, Iztok Kosem, Polona Gantar) - page 12

Predlog za izdelavo

Slovarja sodobnega slovenskega jezika

Tezaver – izdelava seznamov pomensko sorodnih besed idr.



Slovnica besednih skic za slovenščino:

izdelana za namene avtomatskega luščenja leksikalnih

podatkov iz korpusa ter slovenščini prilagojena

aplikacija za avtomatski izbor dobrih zgledov

GDEX v orodju Sketch Engine;



Skladenjski razčlenjevalnik MSTParser:

za namen avtomatskega luščenja skladenjsko-leksikalnih

podatkov iz korpusa. Skladenjski označevalnik se poleg orodja Sketch Engine uporablja

predvsem za luščenje vezljivostnih podatkov ter stalnih besednih zvez (

multi-word units

);



Spletni pajek

(Web crawler): program, ki na sistematičen način avtomatsko »brska« po spletu,

izlušči povezave (tj. vsebovane spletne naslove) in po čiščenju ohrani naslov, povzetek in glavno

besedilo;



Posebno programsko orodje za luščenje normativnih podatkov iz korpusa:

v okviru projekta

Sporazumevanje v slovenskem jeziku

je bilo razvito orodje, s pomočjo katerega je iz korpusa

mogoče izluščiti variantne oblike in pridobivati druge podatke, ki so relevantni za podajanje

normativnih informacij v slovarju (Krek 2012b);



Prepoznavalnik imenskih entitet:

razpoznavanje in klasificiranje pojavnih oblik imen in številskih

izrazov (

entity extraction, named entity recognition, entity identification

) je pomembna naloga

pri izločanju informacij iz besedil in pripomore k izločanju leksikografsko relevantnih podatkov iz

korpusa (dobri zgledi, semantični tipi itd.).

1.2

EZ IKOVNOTEHNOLOŠKA IN SLOVARSKA PODPORA V EVROPSKEM PROSTORU

Pojem

jezikovnotehnološka leksikalna podatkovna baza

, ki se osredotoča na leksikalne podatke,

uporabne primarno za

računalniško obdelavo

, je v evropskem jezikoslovnem kontekstu znan že več kot

20 let, dejavnosti v povezavi s tem so se pri angleščini začele že v 60-ih letih prejšnjega stoletja, zelo pa

so se intenzivirale z evropskimi jezikovnotehnološkimi projekti v 90-ih letih, ko so takrat še Evropska

gospodarska skupnost in posamezne močnejše evropske države finančno in raziskovalno podprle

jezikovne tehnologije in vire za svoje jezike (Krek 2009: 99). Namen gradnje tovrstnih baz je bil

vzpostaviti mrežo jezikovnih virov, namenjenih za zagotavljanje jezikovnih potreb (večjih) jezikovnih

skupnosti znotraj EU.

Na tej podlagi so se za številne evropske jezike, primarno pa za angleščino, nemščino, francoščino,

španščino, italijanščino, nizozemščino ter večino skandinavskih jezikov oblikovale bodisi

jezikovnotehnološke leksikalne baze

, ki so namenjene zlasti računalniški obdelavi naravnega jezika in

razvoju jezikovnih tehnologij

in t. i.

slovarske leksikalne baze,

ki predstavljajo vir jezikovnih opisov,

namenjenih človeškemu uporabniku. Kljub temeljnemu ločevanju na jezikovnotehnološke in

jezikovnopriročniške leksikalne baze pa se v sodobni praksi meja med njimi zabrisuje.

Možnosti, ki jih z

npr.

STO

– leksikalna podatkovna baza za danščino,

CLIPS

– italijanska leksikalna podatkovna baza

SenSem

ADESSE

–

špansko-katalonski jezikovnotehnološki podatkovni bazi

Vallex

–

vezljivostni slovar čeških glagolov itd.

Glej razdelek E-LEKSIKOGRAFIJA v poglavju Bibliografija.

SEO Version

Warning.

You are currently viewing the SEO version of !text.
It has a number of design and functionality limitations.

We recommend viewing the Flash version or the basic HTML version of this publication.

I...,2,3,4,5,6,7,8,9,10,11 13,14,15,16,17,18,19,20,21,22,...150