Slovenský národný korpus (SNK) je rozsiahly vedecko-výskumný projekt, ktorého cieľom je systematické a komplexné spracovanie slovenského jazyka prostredníctvom elektronických databáz textov. Ide o elektronickú databázu textov súčasného slovenského jazyka, ktorá slúži na vyhľadávanie slov, slovných spojení a jazykových prostriedkov. Je určený každému používateľovi slovenského jazyka, ale predovšetkým redaktorom, prekladateľom, učiteľom a jazykovedcom.
Čo je Slovenský národný korpus (SNK)?
Slovenský národný korpus predstavuje súbor jazykových korpusov, ktoré zahŕňajú rôzne elektronicky zaznamenané texty slovenčiny, primárne od roku 1955. Obsah korpusu predstavuje referenčný materiálový zdroj poznatkov o slovenčine a jej reálnom používaní. Slúži ako dátová základňa pre vedecké štúdium písanej i hovorenej slovenčiny, pre tvorbu jazykových slovníkov, počítačových prekladačov a podobne.
Projekt SNK sa začal budovať v Jazykovednom ústave Ľudovíta Štúra Slovenskej akadémie vied v roku 2002. Už v roku 2001 Ministerstvo kultúry v spolupráci s Ministerstvom školstva a Slovenskou akadémiou vied pripravilo návrh projektu vybudovania Slovenského národného korpusu a projektu elektronizácie jazykovedného výskumu v rokoch 2002 - 2006, ktorý schválila vláda SR uznesením č. 137 z 13. februára 2002. Na základe tohto projektu sa v Jazykovednom ústave Ľudovíta Štúra SAV 22. novembra 2002 otvorilo pracovisko Slovenského národného korpusu s cieľom vybudovať do roku 2006 korpus s kapacitou 200 miliónov tokenov - základných textových jednotiek používaných v korpusoch (napr. slov).
Elektronické jazykové a textové zdroje Slovenského národného korpusu, ktoré sa budujú a rozvíjajú v Jazykovednom ústave Ľ. Štúra SAV už takmer dve desaťročia (od roku 2002), slúžia mnohým záujemcom o poznanie a používanie slovenského jazyka. V súčasnosti sa realizuje už 5. etapa tohto projektu (2022 - 2026).
Ako sa buduje Slovenský národný korpus?
Budovanie SNK zahŕňa systematický zber dát najrôznejších štýlov, žánrov, autorských či vydavateľských úzov zo všetkých regiónov Slovenska na základe licenčnej zmluvy o inom (nekomerčnom) použití textov podľa autorského zákona. Texty sa získavajú v elektronickej verzii, ak v takej nie sú dostupné, skenujú sa, rozpoznávajú a rekonštruujú do elektronickej verzie identickej s tlačeným originálom. V archíve sa získané texty uchovávajú v získanej podobe so základnou informáciou o ich pôvode, forme a obsahu.
Po odstránení znakov a symbolov editorov a programov, v ktorých texty vznikli, a grafických súčastí (obrázky, tabuľky a pod.) sa texty prevedú do jednotného formátu, ktorý zaznamenáva štruktúrne vlastnosti textu. Ku každému dokumentu sa doplní vonkajšia (bibliografická a štýlovo-žánrová) anotácia. V ďalšej fáze sa text rozdelený na základné jednotky (slová, interpunkcia, číslice, symboly) lingvisticky značkuje: textu sa pridajú informácie o jeho štruktúre, slovám sa pridajú morfologické informácie na úrovni slov (slovný druh/trieda, morfologické kategórie tvaru slova, základný tvar slova - lema), vetám jazykové informácie na úrovni viet a pod. Takto spracované texty, ktoré majú od poskytovateľov licenciu na verejné využívanie, sa ako dáta sprístupňujú na internete na presne vymedzené vyhľadávanie.
Prehľad korpusov SNK
| Korpus | Popis |
|---|---|
| Hlavný korpus písaných textov | Obsahuje rozsiahly súbor písaných textov súčasnej slovenčiny. |
| Paralelné korpusy | Slovensko-ruský, slovensko-francúzsky, slovensko-český (spárované texty v origináli a v preklade). |
| Korpus nárečí | Špecializovaný korpus zameraný na slovenské nárečia. |
| Historický korpus slovenčiny | Korpus textov z historických období slovenčiny. |
| Korpus pomenovaných entít | Korpus zameraný na identifikáciu a spracovanie názvov. |
| Webový korpus | Korpus získaný z textov publikovaných na webe. |
Hlavný korpus písaných textov Slovenského národného korpusu, jeho aktuálna verzia prim-8.0, bola sprístupnená 31. januára 2018 v rozsahu takmer 1,5 miliardy tokenov. Okrem hlavného korpusu slúžia na špeciálnejšie výskumy aj podkorpusy vytvorené z hlavného korpusu podľa príslušnosti textov k štýlom (publicistické texty, umelecké texty, odborné texty) a osobitný ručne morfologicky anotovaný korpus, na ktorom sa trénujú nástroje na automatizovanú anotáciu.

Fázy vývoja a rozširovania SNK
Vývoj Slovenského národného korpusu prebiehal v niekoľkých fázach, postupne rozširujúc jeho obsah a možnosti. V prvej fáze sa SNK zameriaval na písané texty súčasného slovenského jazyka (1955 - 2005). V druhej a tretej fáze sa korpus rozšíril o texty z ďalších období (spred roka 1955 až do začiatkov spisovného obdobia a do predspisovného obdobia, ako aj po roku 2005) a sfér používania slovenského jazyka (hovorená slovenčina, podľa možností výberovo aj dialekty).
Náplňou štvrtej fázy bolo vydanie kolokačných a frekvenčných slovníkov, dobudovanie špecializovaných korpusov, napríklad korpusu nárečí, historického korpusu slovenčiny či sprístupňovanie nových verzií vybraných korpusov. V súčasnosti prebieha už piata fáza budovania korpusových databáz, ktorá sa zameriava na rozširovanie a skvalitňovanie zdrojov Slovenského národného korpusu prostredníctvom prípravy a sprístupnenia nových verzií korpusov, a to predovšetkým novej verzie hlavného korpusu písaných textov, korpusu pomenovaných entít, webového korpusu, vybraných paralelných korpusov či akvizičného korpusu.

Využitie Slovenského národného korpusu vo vyučovaní slovenského jazyka
Korpus textov predstavuje špecifický súbor jazykových dát, ktorý sa buduje v elektronickej podobe. Jeho základom sú texty zvyčajne rôznych štýlov a žánrov, ku ktorým sa pridávajú lingvistické informácie na úrovni slova (textovej jednotky), vety aj celého textu. Výkonné vyhľadávacie nástroje umožňujú vyhľadávanie a triedenie skúmaných jazykových prostriedkov a informácií.
Bežným používateľom jazyka, vrátane žiakov základných škôl a ich učiteľov, môže korpus poslúžiť ako zdroj praktického poznania systému jazyka a overenia či doplnenia jednotlivých poznatkov o reálnom fungovaní jazykových prostriedkov v praxi. Korpus nie je elektronickou knižnicou (texty v ňom sa nedajú čítať ako jeden celok), ani nenahrádza kodifikačné či gramatické príručky. Namiesto toho ponúka autentický jazykový materiál na skúmanie a objavovanie jazykových javov. Lingvisti na základe autentického jazykového materiálu opisujú významy a funkcie slov i ďalších jazykových javov, ich štatistiky, spájateľnosti a pod., čo následne môže byť využité aj v didaktike.
V rámci projektu bola vypracovaná Koncepcia vyučovania slovenského jazyka a slovenskej literatúry v školách s vyučovacím jazykom maďarským na roky 2018-2020. Koncepcia vychádza z didaktiky vyučovacieho predmetu slovenský jazyk a slovenská literatúra a reflektuje na Spoločný európsky referenčný rámec pre jazyky a na požiadavky z pedagogickej praxe. Súčasne zahŕňa aj najnovšie poznatky z oblasti vyučovania cudzích jazykov, vyučovacích jazykov a materinských jazykov u nás aj v zahraničí. Cieľom národného projektu bolo zvýšiť kvalitu vyučovania slovenského jazyka a slovenskej literatúry v školách s vyučovacím jazykom maďarským a sledovať realizáciu inovovaného Štátneho vzdelávacieho programu. SNK tak priamo prispieva k rozvoju didaktických materiálov a metodík.
Praktické ukážky a pomôcky pre prácu so SNK
Ako príklad cvičenia, ktoré možno realizovať s využitím SNK, môžeme uviesť: Nájdite vety, v ktorých sa nachádza spojka keby a sloveso v prítomnom čase. Príklady viet z korpusu môžu byť:
- Keby sa však nájde nejaký 12- - 14-ročný chlapec, ktorý má o box záujem, tak ho budem trénovať aj zadarmo. (MY Žilinské noviny. Bratislava: Petit Press 2010, roč. 11, č. 48)
- Keby máme 20 rokov, tak by sme určite nerozmýšľali a išli by sme do toho. (MY týždeň na Pohroní. Bratislava: Petit Press 2016, roč. 25, č. 38)
Najnovší titul, ktorý nadväzuje na kolektívnu prácu Slovenský národný korpus, obsahuje praktické ukážky (návody) postupov pri vyhľadávaní jazykových javov z rôznych jazykových rovín a v rôznych korpusoch, komentované postupy ďalšej práce s vyhľadaným materiálom, opisy jednotlivých (meta)znakov a celých regulárnych výrazov potrebných na efektívne vyhľadanie jazykových prostriedkov aj inšpirácie na ďalšiu samostatnú prácu s korpusmi. Táto publikácia je cenným zdrojom pre učiteľov aj študentov, ktorí chcú SNK využívať naplno.

Širší význam a prínos SNK
Slovenský národný korpus okrem svojich hlavných cieľov (jazykovedný výskum, výučba slovenčiny ako materinského i ako cudzieho jazyka, počítačové spracovanie prirodzeného jazyka) prispieva aj k záchrane a uchovávaniu kultúrneho dedičstva. Uskutočňuje sa to masívnou digitalizáciou starších textov, a to aj starších ako z roku 1955. Publikácia „Štúdie a štatistiky na báze korpusov slovenčiny“ predstavuje výsledky výskumu najfrekventovanejších slovenských prídavných mien, čo ukazuje široké spektrum výskumných možností, ktoré SNK ponúka. Opis dnešného stavu prináša výkladový Slovník súčasného slovenského jazyka, ktorý materiálovo vychádza predovšetkým zo SNK, pripravuje sa frekvenčný slovník súčasnej slovenčiny a v pláne sú autorské slovníky významných slovenských autorov.
tags: #slovensky #narodny #korpus #vo #vyucovani #slovenskeho
