Slovenský národný korpus: Komplexný nástroj pre skúmanie jazyka

Slovenský národný korpus (SNK) je rozsiahly a systematicky budovaný zdroj jazykových dát, ktorý má zásadný význam pre jazykovedný výskum, vývoj jazykových technológií a kultúrne dedičstvo Slovenska. Ide o elektronickú databázu textov súčasného slovenského jazyka, ktorá slúži na vyhľadávanie slov, slovných spojení a jazykových prostriedkov.

Korpus textov predstavuje špecifický súbor jazykových dát, ktorý sa buduje v elektronickej podobe. Jeho základom sú texty zvyčajne rôznych štýlov a žánrov, ku ktorým sa pridávajú lingvistické informácie na úrovni slova (textovej jednotky), vety aj celého textu. Výkonné vyhľadávacie nástroje umožňujú vyhľadávanie a triedenie skúmaných jazykových prostriedkov a informácií.

Slovenský národný korpus je určený každému používateľovi slovenského jazyka, ale predovšetkým redaktorom, prekladateľom, učiteľom a jazykovedcom.

Definícia a účel Slovenského národného korpusu

História a vývoj Slovenského národného korpusu

Na Slovensku vzniklo oddelenie Slovenského národného korpusu v roku 2002. Patrili sme k posledným trom slovanským krajinám, ktorým v tom čase korpus „chýbal“. Preto sa Ministerstvo školstva, Ministerstvo kultúry a Slovenská akadémia vied dohodli, že podporia vznik oddelenia Slovenského národného korpusu, v ktorom sa bude takáto databáza pripravovať.

V roku 2001 Ministerstvo kultúry v spolupráci s Ministerstvom školstva a Slovenskou akadémiou vied pripravilo návrh projektu vybudovania Slovenského národného korpusu a projektu elektronizácie jazykovedného výskumu v rokoch 2002 - 2006, ktorý schválila vláda SR uznesením č. 137 z 13. februára 2002.

Na základe tohto projektu sa v Jazykovednom ústave Ľudovíta Štúra SAV 22. novembra 2002 otvorilo pracovisko Slovenského národného korpusu s cieľom vybudovať do roku 2006 korpus s kapacitou 200 miliónov tokenov - základných textových jednotiek používaných v korpusoch.

Samotné budovanie Slovenského národného korpusu trvalo od počiatočnej myšlienky až po jeho finálnu podobu takmer štrnásť rokov - od roku 2002 až do roku 2016 a jeho elektronický archív sa neustále dopĺňa.

Slovenský národný korpus je vedecko-výskumný projekt budovania elektronického korpusu textov. V prvej fáze so zameraním na písané texty súčasného slovenského jazyka (1955 - 2005), v druhej a tretej fáze sa rozšíril o texty z ďalších období (spred roka 1955 až do začiatkov spisovného obdobia a do predspisovného obdobia, ako aj po roku 2005) a sfér používania slovenského jazyka (hovorená slovenčina, podľa možností výberovo aj dialekty).

Náplňou štvrtej fázy bolo vydanie kolokačných a frekvenčných slovníkov, dobudovanie špecializovaných korpusov, napríklad korpusu nárečí, historického korpusu slovenčiny či sprístupňovanie nových verzií vybraných korpusov. V súčasnosti sa realizuje už 5. etapa tohto projektu (2022 - 2026), ktorá sa zameriava na rozširovanie a skvalitňovanie zdrojov Slovenského národného korpusu prostredníctvom prípravy a sprístupnenia nových verzií korpusov, a to predovšetkým novej verzie hlavného korpusu písaných textov, korpusu pomenovaných entít, webového korpusu, vybraných paralelných korpusov či akvizičného korpusu.

Hlavný korpus písaných textov Slovenského národného korpusu, jeho aktuálna verzia prim-8.0, bola sprístupnená 31. januára 2018 v rozsahu takmer 1,5 miliardy tokenov. Posledná aktualizácia: 3. V Jazykovednom ústave Ľ. Štúra Slovenskej akadémie vied, kde sa SNK začal v r. 2002 budovať s podporou Ministerstva kultúry SR a Ministerstva školstva, vedy, výskumu a športu SR, sa tak systematicky a komplexne spracúva slovenský jazyk a realizuje sa elektronizácia jazykovedného výskumu na Slovensku.

Časová os vývoja Slovenského národného korpusu

Štruktúra a obsah Slovenského národného korpusu

Slovenský národný korpus vznikol ako elektronická databáza, v ktorej sú archivované texty v slovenčine, obohatené o jazykové informácie. Je to databáza publikovaných textov - odborných, publicistických a beletristických - zhromaždených na jednom mieste, ktoré sa spracúvajú jednotným spôsobom a sú obohatené o jazykové informácie, tzv. anotácie.

Archivované texty pochádzajú predovšetkým z oblasti beletrie, odbornej literatúry a žurnalistiky. Ďalej korpus obsahuje nárečové a historické databázy slov, ako aj slovníkové databázy, ktoré umožňujú skúmať slovenský jazyk, a tiež význam slov a ich využitie v jednotlivých časových obdobiach.

V súčasnosti elektronická podoba SNK obsahuje:

  • Hlavný korpus písaných textov
  • Ručne morfologicky anotovaný korpus
  • Morfologickú databázu
  • Korpusy textov spred roku 1955
  • Hovorené korpusy
  • Korpus nárečí
  • Historický korpus slovenčiny
  • Slovenskú terminologickú databázu
  • Slovenský word net
  • Korpus krymsko-tatárskeho jazyka
  • Ďalšie korpusy súčasných písaných textov SNK

V súčasnej desiatej verzii písaného korpusu je viac ako 1,6 miliardy textových jednotiek. V najbližších dňoch zverejníme jedenástu verziu, v nej ich bude viac ako 1,8 miliardy. Takže 1,6 miliardy slov vrátane čiarok, bodiek a podobne. Presne tak, rovnako tam patria aj číslice či špeciálne znaky. Takže napríklad veta "Mama varí obed." - to sú štyri textové jednotky: tri slová a jedna bodka.

Používateľ nájde v ponuke viac ako sto korpusov. Keď sa zaregistruje, má k nim plný prístup. Do korpusu pribúdajú aj nové texty. Koncepcia budovania korpusu je postavená na princípe obohacovania, čiže verzia 11 bude obsahovať všetko, čo obsahovala verzia 10, a aj nové texty, ktoré sa nám od poslednej verzie podarilo zazmluvniť.

Infografika typov korpusov v SNK

Využitie Slovenského národného korpusu

SNK je zdrojom materiálu na lingvistický výskum. Funkcie a databázy korpusu vyhľadávajú predovšetkým lingvisti, jazykovedci, autori rôznych slovníkov, ale napríklad aj tvorcovia, alebo lúštitelia krížoviek. Využívajú ho však aj korektori, redaktori, editori, prekladatelia, všetci tí, ktorí pracujú s jazykom. Učitelia si z korpusových dát pripravujú cvičenia pre svojich študentov, ale máme aj používateľov z iných oblastí, napríklad neurológie.

Lingvisti na základe autentického jazykového materiálu opisujú významy a funkcie slov i ďalších jazykových javov, ich štatistiky, spájateľnosti a pod. Bežným používateľom jazyka môže korpus poslúžiť ako zdroj praktického poznania systému jazyka a overenia či doplnenia jednotlivých poznatkov o reálnom fungovaní jazykových prostriedkov v praxi.

V Slovenskom národnom korpuse si takisto môžeme nájsť pôvod našich súčasných slov, zistiť z akého jazyka pochádzajú alebo ako často sa v našom písanom prejave vyskytujú. Väčšina funkcií Slovenského národného korpusu je dostupná až po bezplatnom prihlásení sa užívateľa, a v jeho elektronickej databáze môžu užívatelia tiež hľadať najdlhšie, alebo najkratšie slová v slovenskom jazyku, prípadne využiť prekladač s názvom Ludevít, ktorý preloží súčasný slovenský text do pôvodnej štúrovčiny.

Jedným z praktických výstupov korpusu je frekvenčný slovník. Je cenným zdrojom informácií napríklad pre tých, ktorí pracujú s pacientmi po mozgových príhodách, keď stratili schopnosť reči a učia sa nanovo hovoriť. Je užitočný aj pre tých, ktorí vyvíjajú aplikácie pracujúce s textom, napríklad na kontrolu gramatiky v textových editoroch. Pre nich slúži korpus ako testovací a trénovací materiál.

Korpus nie je elektronickou knižnicou (texty v ňom sa nedajú čítať ako jeden celok), ani nenahrádza kodifikačné či gramatické príručky.

Ako používať Slovenský národný korpus

Na hlavnej stránke Slovenského národného korpusu používatelia nájdu informácie o korpusoch a ich štruktúre. Na začiatku všetkého je teda výber korpusu, v ktorom budeme hľadať. Vyhľadávať môžeme rôznymi spôsobmi, začiatočníkom poslúži najlepšie jednoduché hľadanie, kam možno zapísať slovo alebo slovné spojenie.

Funkcia Popis
Jednoduché hľadanie Základné vyhľadávanie slov alebo slovných spojení
Frekvencia Zobrazuje najčastejšie tvary slova
Kolokácie Ponúka jazykové jednotky, s ktorými sa hľadané slovo spája v kontextoch
Filter Umožňuje zistiť, s akými predložkami sa spája nejaké sloveso
Trendy Zobrazuje texty v korpuse na časovej osi

Ak sa chcete naučiť využívať všetky tieto funkcionality, SNK organizuje pre používateľov korpusu semináre. Tie sú buď adresné, teda pozývajú nás inštitúcie, aby sme naučili ich zamestnancov pracovať s korpusom. Má tiež otvorené semináre väčšinou raz do roka, kam sa môže prihlásiť ktokoľvek. Stačí len sledovať stránku Slovenského národného korpusu, kde zverejňujeme pozvánky na semináre. No a druhá cesta je youtubový kanál, kde sú videonávody. Vlani začali vytvárať samostatnú sériu videí Korpus a školská prax pre učiteľov.

Rozhranie webovej aplikácie Slovenského národného korpusu

Aplikácia Mapka

Nedávno bola predstavená novinka - aplikácia Mapka, ktorá zobrazuje nárečové ukážky na mape. Používateľ má k dispozícii názov obce, ukážku a nárečovú charakteristiku. Každý záznam na mape obsahuje zvukovú stopu, nárečový prepis, slovníček pri tých slovách, ktoré môžu byť pre čitateľa problematické. Okrem toho je tu odborná charakteristika nárečia z príslušnej publikácie. V tejto chvíli máme na mape viac ako tridsať ukážok z rôznych lokalít a plánujeme ich ďalej rozširovať.

Mapku sa v korpusovom oddelení podarilo spustiť vďaka spolupráci s kolegami z Ústavu Českého národného korpusu, kolegami z dialektologického oddelenia a ďalšími odborníkmi na nárečia, ktorí nám poskytli svoje zdroje.

Mapa nárečových ukážok v aplikácii Mapka

tags: #slovenskom #narodnom #korpuse

Populárne príspevky: