Slovenský národný korpus (SNK) je rozsiahly a systematicky budovaný zdroj jazykových dát, ktorý má zásadný význam pre jazykovedný výskum, vývoj jazykových technológií a kultúrne dedičstvo Slovenska. Ide o elektronickú databázu textov súčasného slovenského jazyka, ktorá slúži na vyhľadávanie slov, slovných spojení a jazykových prostriedkov.
Korpus textov predstavuje špecifický súbor jazykových dát, ktorý sa buduje v elektronickej podobe. Jeho základom sú texty zvyčajne rôznych štýlov a žánrov, ku ktorým sa pridávajú lingvistické informácie na úrovni slova (textovej jednotky), vety aj celého textu. Výkonné vyhľadávacie nástroje umožňujú vyhľadávanie a triedenie skúmaných jazykových prostriedkov a informácií.
Slovenský národný korpus je určený každému používateľovi slovenského jazyka, ale predovšetkým redaktorom, prekladateľom, učiteľom a jazykovedcom.

História a vývoj Slovenského národného korpusu
Na Slovensku vzniklo oddelenie Slovenského národného korpusu v roku 2002. Patrili sme k posledným trom slovanským krajinám, ktorým v tom čase korpus „chýbal“. Preto sa Ministerstvo školstva, Ministerstvo kultúry a Slovenská akadémia vied dohodli, že podporia vznik oddelenia Slovenského národného korpusu, v ktorom sa bude takáto databáza pripravovať.
V roku 2001 Ministerstvo kultúry v spolupráci s Ministerstvom školstva a Slovenskou akadémiou vied pripravilo návrh projektu vybudovania Slovenského národného korpusu a projektu elektronizácie jazykovedného výskumu v rokoch 2002 - 2006, ktorý schválila vláda SR uznesením č. 137 z 13. februára 2002.
Na základe tohto projektu sa v Jazykovednom ústave Ľudovíta Štúra SAV 22. novembra 2002 otvorilo pracovisko Slovenského národného korpusu s cieľom vybudovať do roku 2006 korpus s kapacitou 200 miliónov tokenov - základných textových jednotiek používaných v korpusoch.
Samotné budovanie Slovenského národného korpusu trvalo od počiatočnej myšlienky až po jeho finálnu podobu takmer štrnásť rokov - od roku 2002 až do roku 2016 a jeho elektronický archív sa neustále dopĺňa.
Slovenský národný korpus je vedecko-výskumný projekt budovania elektronického korpusu textov. V prvej fáze so zameraním na písané texty súčasného slovenského jazyka (1955 - 2005), v druhej a tretej fáze sa rozšíril o texty z ďalších období (spred roka 1955 až do začiatkov spisovného obdobia a do predspisovného obdobia, ako aj po roku 2005) a sfér používania slovenského jazyka (hovorená slovenčina, podľa možností výberovo aj dialekty).
Náplňou štvrtej fázy bolo vydanie kolokačných a frekvenčných slovníkov, dobudovanie špecializovaných korpusov, napríklad korpusu nárečí, historického korpusu slovenčiny či sprístupňovanie nových verzií vybraných korpusov. V súčasnosti sa realizuje už 5. etapa tohto projektu (2022 - 2026), ktorá sa zameriava na rozširovanie a skvalitňovanie zdrojov Slovenského národného korpusu prostredníctvom prípravy a sprístupnenia nových verzií korpusov, a to predovšetkým novej verzie hlavného korpusu písaných textov, korpusu pomenovaných entít, webového korpusu, vybraných paralelných korpusov či akvizičného korpusu.
Hlavný korpus písaných textov Slovenského národného korpusu, jeho aktuálna verzia prim-8.0, bola sprístupnená 31. januára 2018 v rozsahu takmer 1,5 miliardy tokenov. Posledná aktualizácia: 3. V Jazykovednom ústave Ľ. Štúra Slovenskej akadémie vied, kde sa SNK začal v r. 2002 budovať s podporou Ministerstva kultúry SR a Ministerstva školstva, vedy, výskumu a športu SR, sa tak systematicky a komplexne spracúva slovenský jazyk a realizuje sa elektronizácia jazykovedného výskumu na Slovensku.

Štruktúra a obsah Slovenského národného korpusu
Slovenský národný korpus vznikol ako elektronická databáza, v ktorej sú archivované texty v slovenčine, obohatené o jazykové informácie. Je to databáza publikovaných textov - odborných, publicistických a beletristických - zhromaždených na jednom mieste, ktoré sa spracúvajú jednotným spôsobom a sú obohatené o jazykové informácie, tzv. anotácie.
Archivované texty pochádzajú predovšetkým z oblasti beletrie, odbornej literatúry a žurnalistiky. Ďalej korpus obsahuje nárečové a historické databázy slov, ako aj slovníkové databázy, ktoré umožňujú skúmať slovenský jazyk, a tiež význam slov a ich využitie v jednotlivých časových obdobiach.
V súčasnosti elektronická podoba SNK obsahuje:
- Hlavný korpus písaných textov
- Ručne morfologicky anotovaný korpus
- Morfologickú databázu
- Korpusy textov spred roku 1955
- Hovorené korpusy
- Korpus nárečí
- Historický korpus slovenčiny
- Slovenskú terminologickú databázu
- Slovenský word net
- Korpus krymsko-tatárskeho jazyka
- Ďalšie korpusy súčasných písaných textov SNK
V súčasnej desiatej verzii písaného korpusu je viac ako 1,6 miliardy textových jednotiek. V najbližších dňoch zverejníme jedenástu verziu, v nej ich bude viac ako 1,8 miliardy. Takže 1,6 miliardy slov vrátane čiarok, bodiek a podobne. Presne tak, rovnako tam patria aj číslice či špeciálne znaky. Takže napríklad veta "Mama varí obed." - to sú štyri textové jednotky: tri slová a jedna bodka.
Používateľ nájde v ponuke viac ako sto korpusov. Keď sa zaregistruje, má k nim plný prístup. Do korpusu pribúdajú aj nové texty. Koncepcia budovania korpusu je postavená na princípe obohacovania, čiže verzia 11 bude obsahovať všetko, čo obsahovala verzia 10, a aj nové texty, ktoré sa nám od poslednej verzie podarilo zazmluvniť.

Využitie Slovenského národného korpusu
SNK je zdrojom materiálu na lingvistický výskum. Funkcie a databázy korpusu vyhľadávajú predovšetkým lingvisti, jazykovedci, autori rôznych slovníkov, ale napríklad aj tvorcovia, alebo lúštitelia krížoviek. Využívajú ho však aj korektori, redaktori, editori, prekladatelia, všetci tí, ktorí pracujú s jazykom. Učitelia si z korpusových dát pripravujú cvičenia pre svojich študentov, ale máme aj používateľov z iných oblastí, napríklad neurológie.
Lingvisti na základe autentického jazykového materiálu opisujú významy a funkcie slov i ďalších jazykových javov, ich štatistiky, spájateľnosti a pod. Bežným používateľom jazyka môže korpus poslúžiť ako zdroj praktického poznania systému jazyka a overenia či doplnenia jednotlivých poznatkov o reálnom fungovaní jazykových prostriedkov v praxi.
V Slovenskom národnom korpuse si takisto môžeme nájsť pôvod našich súčasných slov, zistiť z akého jazyka pochádzajú alebo ako často sa v našom písanom prejave vyskytujú. Väčšina funkcií Slovenského národného korpusu je dostupná až po bezplatnom prihlásení sa užívateľa, a v jeho elektronickej databáze môžu užívatelia tiež hľadať najdlhšie, alebo najkratšie slová v slovenskom jazyku, prípadne využiť prekladač s názvom Ludevít, ktorý preloží súčasný slovenský text do pôvodnej štúrovčiny.
Jedným z praktických výstupov korpusu je frekvenčný slovník. Je cenným zdrojom informácií napríklad pre tých, ktorí pracujú s pacientmi po mozgových príhodách, keď stratili schopnosť reči a učia sa nanovo hovoriť. Je užitočný aj pre tých, ktorí vyvíjajú aplikácie pracujúce s textom, napríklad na kontrolu gramatiky v textových editoroch. Pre nich slúži korpus ako testovací a trénovací materiál.
Korpus nie je elektronickou knižnicou (texty v ňom sa nedajú čítať ako jeden celok), ani nenahrádza kodifikačné či gramatické príručky.
Ako používať Slovenský národný korpus
Na hlavnej stránke Slovenského národného korpusu používatelia nájdu informácie o korpusoch a ich štruktúre. Na začiatku všetkého je teda výber korpusu, v ktorom budeme hľadať. Vyhľadávať môžeme rôznymi spôsobmi, začiatočníkom poslúži najlepšie jednoduché hľadanie, kam možno zapísať slovo alebo slovné spojenie.
| Funkcia | Popis |
|---|---|
| Jednoduché hľadanie | Základné vyhľadávanie slov alebo slovných spojení |
| Frekvencia | Zobrazuje najčastejšie tvary slova |
| Kolokácie | Ponúka jazykové jednotky, s ktorými sa hľadané slovo spája v kontextoch |
| Filter | Umožňuje zistiť, s akými predložkami sa spája nejaké sloveso |
| Trendy | Zobrazuje texty v korpuse na časovej osi |
Ak sa chcete naučiť využívať všetky tieto funkcionality, SNK organizuje pre používateľov korpusu semináre. Tie sú buď adresné, teda pozývajú nás inštitúcie, aby sme naučili ich zamestnancov pracovať s korpusom. Má tiež otvorené semináre väčšinou raz do roka, kam sa môže prihlásiť ktokoľvek. Stačí len sledovať stránku Slovenského národného korpusu, kde zverejňujeme pozvánky na semináre. No a druhá cesta je youtubový kanál, kde sú videonávody. Vlani začali vytvárať samostatnú sériu videí Korpus a školská prax pre učiteľov.

Aplikácia Mapka
Nedávno bola predstavená novinka - aplikácia Mapka, ktorá zobrazuje nárečové ukážky na mape. Používateľ má k dispozícii názov obce, ukážku a nárečovú charakteristiku. Každý záznam na mape obsahuje zvukovú stopu, nárečový prepis, slovníček pri tých slovách, ktoré môžu byť pre čitateľa problematické. Okrem toho je tu odborná charakteristika nárečia z príslušnej publikácie. V tejto chvíli máme na mape viac ako tridsať ukážok z rôznych lokalít a plánujeme ich ďalej rozširovať.
Mapku sa v korpusovom oddelení podarilo spustiť vďaka spolupráci s kolegami z Ústavu Českého národného korpusu, kolegami z dialektologického oddelenia a ďalšími odborníkmi na nárečia, ktorí nám poskytli svoje zdroje.

tags: #slovenskom #narodnom #korpuse
