Slovenský národný korpus (SNK) je rozsiahly zdroj textových dát, ktorý umožňuje hĺbkovú analýzu slovenského jazyka. Na vyhľadávanie v korpuse sa používajú rôzne nástroje a metódy, ktoré využívajú špecifické skratky a metaznaky. Je určený každému používateľovi slovenského jazyka, ale predovšetkým redaktorom, prekladateľom, učiteľom a jazykovedcom.

Vyhľadávanie v Slovenskom národnom korpuse
V Slovenskom národnom korpuse sa vyhľadáva pomocou nástroja NoSketch Engine. Pôvodne sa používal korpusový manažér Manatee s klientom Bonito vyvinutým na Fakulte informatiky Masarykovej univerzity v Brne.
Registrácia
Aby ste mohli používať NoSketch Engine, je nevyhnutné sa najprv zaregistrovať.
Jednoduché vyhľadávanie
Jednoduché vyhľadávanie je možné aj bez registrácie prostredníctvom webového rozhrania, ale s veľmi obmedzeným prístupom ku korpusom (prim-6.0-public-all, r-mak-3.0 a iné), bez možnosti vytvárania podkorpusov. Pred začatím používania webového rozhrania si treba prečítať a odsúhlasiť podmienky používania SNK.
Citovanie korpusu
Verzie a podkorpusy SNK, ako i jednotlivé zdroje z nich citujte podľa nasledujúceho návodu.
Typy a značky anotácií textov SNK
- Bibliografická a štýlovo-žánrová anotácia
- Morfologická anotácia
- Nástroj na tvorbu morfologických značiek
- Nástroj na rekonštrukciu morfologických značiek
Literárne múzeum SNK
Metaznaky na vyhľadávanie
Metaznaky používame pri vyhľadávaní pomocou atribútu CQL, spôsob hľadania jedného tokenu je vždy záväzný a má tvar

Tabuľka metaznakov a ich použitie
| Metaznak | Význam metaznaku | Príklad použitia | Očakávaný výsledok vyhľadávania |
|---|---|---|---|
| . (BODKA) | Nahrádza jeden ľubovoľný znak. | dom.. | domov, domec |
| * (HVIEZDIČKA) | Určuje, že znak, ktorý je pred hviezdičkou, sa opakuje ľubovoľný počet krát (aj nula krát). | hm* | h, hm, hmm, hmmm |
| + (PLUS) | Určuje, že znak, ktorý je pred týmto regulárnym výrazom, sa opakuje raz alebo viackrát. | hm+ | hm, hmm, hmmm… |
| { } (ZLOŽENÉ ZÁTVORKY) | V nich umiestnené číslo určuje, koľkokrát sa má regulárny výraz opakovať. | hm{4} | hm, hmm, hmmm, hmmmm |
| | (ZVISLÁ ČIARA) | Má funkciu operátora ALEBO. | dom|doma | dom, doma |
| [ ] (HRANATÉ ZÁTVORKY) | Definuje sa v nich množina znakov, ktoré sa môžu vyskytovať v danom výraze na mieste zátvoriek. | [r,s,t,u,v]ám | rám, sám, tám, uám, vám (ak sa takéto tokeny v korpuse vyskytujú) |
| ( ) (JEDNODUCHÉ ZÁTVORKY) | Slúžia na zápis súboru požiadaviek na určitý znak vyhľadávaného výrazu pomocou regulárneho výrazu. | (?i)(Kam|tam) | Kam, kam, Tam, tam (ignoruje rozlišovanie veľkých a malých písmen) |
| \ (OBRÁTENÝ LOMENÉ) | Pred znakom regulárneho výrazu znamená, že sa daný znak nebude pri vyhľadávaní chápať ako regulárny výraz, ale ako jednotka textu. | napr\. | napr. (a nie napri, napre, naprd…) |
| ? (OTÁZNIK) | Predstavuje žiaden alebo jeden výskyt predchádzajúceho znaku. | i?šlo | išlo, šlo |
| ^ (STRIEŠKA) | Spôsobí, že znak za ňou nesmie byť v slove na danej pozícii. | SSfs^2 | SSfs1, SSfs3, SSfs4, SSfs5, SSfs6, SSfs7 (nesmie byť 2 za "s") |
| & (AMPERSAND) | Vyjadruje funkciu A SÚČASNE, ktorá umožňuje definovať viaceré hodnoty naraz. | [tag=“SAms4“ & lemma=“.*ci“] | Všetky substantíva (S), s adjektívnou paradigmou (A), s mužským životným rodom (m), v singulári (s) a akuzatíve (4) - ktorých lema sa končí na -ci. |
| .* (Kombinácia BODKA HVIEZDIČKA) | Nahrádza ľubovoľný znak ľubovoľný početkrát. | .*istá | istá, sebaistá, neistá, hmlistá,… |
| .+ (Kombinácia BODKA PLUS) | Používa sa pri vyhľadávaní slov s určitým prefixom, sufixom, skupinou písmen a pod. | za.+ | Všetky slová začínajúce sa písmenami za- (okrem slova za). |
Kombinácia metaznakov
Kombinácia BODKA HVIEZDIČKA nahrádza ľubovoľný znak ľubovoľný početkrát. Výsledkom vyhľadávania zápisu
Podmienky používané pri vyhľadávaní v korpuse
Within
Táto podmienka sa používa na vyhľadávanie výrazov v rámci určitej štruktúry.
| Príklad | Význam | Očakávaný výsledok |
|---|---|---|
| Dve bezprostredne za sebou nasledujúce substantíva v skupine výrazov medzi dvoma slovesami. | … že to všetko je vlastne vecou histórie , spoločenského poriadku , nanovo sa vo mne ozvali… | |
| Všetky lemy „zelený“ v dielach Vincenta Šikulu. | napr. Aký je zelený , - divili sa chlapci . | |
| Zobrazenie spojení dvoch lem hlava a deravý v rámci vety. | E.g. Každý má na hlave deravý klobúk a pred sebou šálku, z ktorej stúpa riedky dym. Veru tak, hlava opitá, hlava deravá! |
Containing
Táto podmienka sa používa na vyhľadávanie viet, ktoré obsahujú určité lemy alebo značky.
| Príklad | Význam | Očakávaný výsledok |
|---|---|---|
| Zobrazenie celých viet, ktoré obsahujú lemy hlava a deravý. | napr. Sňal si z hlavy deravý slamený širák , zotrel z čela pot . | |
| Zobrazenie celých 7-tokenových fráz obsahujúcich mennú skupinu zloženú z troch substantív stojacich bezprostredne za sebou, pričom frázy sú ohraničené slovesami. | napr. vybral z vrecka balíček cigariet a podal |
Meet
Táto podmienka sa používa na vyhľadávanie kolokácií v určitom rozsahu pozícií.
| Príklad | Význam |
|---|---|
| Zobrazenie substantíva, ktoré je obklopené slovesami v minulom čase v rozsahu pozícií -3 3. |
Union
Táto podmienka sa používa na kombinovanie výsledkov vyhľadávania pomocou operátora ALEBO.
| Príklad | Význam |
|---|---|
| Funkcia ALEBO pri vyhľadávaniach kolokácií pomocou funkcie podmienky meet, zobrazí sa len lema hovoriť alebo vysloviť. |

Všeobecné podmienky používané v SketchEngine
Tieto podmienky sa používajú na definovanie vzťahov medzi slovami a ich morfologickými kategóriami.
| Príklad | Význam | Očakávaný výsledok |
|---|---|---|
| Všetky slová stojace vedľa seba, ktorých morfologické kategórie sú totožné. | napr. príliš automaticky, exkluzívne ekologické, až prakticky, celkom mimovoľne | |
| Všetky slová stojace bezprostredne vedľa seba, ktoré majú rovnakú morfologickú značku, ale frekvencia prvej morfologickej značky musí byť viac ako 1000 v danom korpuse. | napr. Slovenský národný korpus (SNK) je rozsiahly zdroj textových dát. |
História a budovanie Slovenského národného korpusu
Slovenský národný korpus (SNK) je rozsiahly zdroj textových dát, ktorý umožňuje hĺbkovú analýzu slovenského jazyka. V roku 2001 ministerstvo kultúry v spolupráci s ministerstvom školstva a Slovenskou akadémiou vied pripravilo návrh projektu vybudovania Slovenského národného korpusu a projektu elektronizácie jazykovedného výskumu v rokoch 2002 - 2006, ktorý schválila vláda SR uznesením č. 137 z 13. februára 2002. Ide o elektronickú databázu textov súčasného slovenského jazyka, ktorá slúži na vyhľadávanie slov, slovných spojení a jazykových prostriedkov. Na základe tohto projektu sa v Jazykovednom ústave Ľudovíta Štúra SAV 22. novembra 2002 otvorilo pracovisko Slovenského národného korpusu s cieľom vybudovať do roku 2006 korpus s kapacitou 200 miliónov tokenov - základných textových jednotiek používaných v korpusoch. V súčasnosti sa realizuje už 5. etapa tohto projektu (2022 - 2026). Hlavný korpus písaných textov Slovenského národného korpusu, jeho aktuálna verzia prim-8.0, bola sprístupnená 31. januára 2018 v rozsahu takmer 1,5 miliardy tokenov. Slovenský národný korpus ako oddelenie Jazykovedného ústavu Ľ. Štúra SAV v Bratislave i elektronická databáza vnútorne štruktúrovaného a uceleného súboru jazykových dát vznikol v roku 2002 v rámci projektu Budovanie Národného korpusu slovenského jazyka a elektronizácia jazykovedného výskumu na Slovensku. Z viacerých druhov korpusov (napr. písaný - hovorený, jednojazyčný - viacjazyčný, všeobecný - špeciálny, synchrónny - diachrónny) vyhovoval aktuálnym potrebám lingvistického výskumu na Slovensku všeobecný korpus súčasných písaných textov a ako taký sa Slovenský národný korpus (SNK) aj začal budovať.
Proces budovania korpusu
- Systematický zber dát najrôznejších štýlov, žánrov, autorských či vydavateľských úzov zo všetkých regiónov Slovenska na základe licenčnej zmluvy o inom (nekomerčnom) použití textov podľa autorského zákona. Texty sa získavajú v elektronickej verzii, ak v takej nie sú dostupné, skenujú sa, rozpoznávajú a rekonštruujú do elektronickej verzie identickej s tlačeným originálom (teda aj s prípadnými preklepmi a chybami). V archíve sa získané texty uchovávajú v získanej podobe so základnou informáciou o ich pôvode, forme a obsahu.
- Po odstránení znakov a symbolov editorov a programov, v ktorých texty vznikli, a grafických súčastí (obrázky, tabuľky a pod.) sa texty prevedú do jednotného formátu, ktorý zaznamenáva štruktúrne vlastnosti textu. Ku každému dokumentu sa doplní vonkajšia (bibliografická a štýlovo-žánrová) anotácia.
- V ďalšej fáze sa text rozdelený na základné jednotky (slová, interpunkcia, číslice, symboly) lingvisticky značkuje: textu sa pridajú informácie o jeho štruktúre, slovám sa pridajú morfologické informácie na úrovni slov (slovný druh/trieda, morfologické kategórie tvaru slova, základný tvar slova - lema), vetám jazykové informácie na úrovni viet a pod.
- Takto spracované texty, ktoré majú od poskytovateľov licenciu na verejné využívanie, sa ako dáta sprístupňujú na internete na presne vymedzené vyhľadávanie (spravidla max. konkrétny tvar slova alebo slov: napr. slovenskými knižnicami - zobrazia sa všetky kontexty v rozsahu max. 100 znakov okolo vyhľadaného spojenia (tzv. konkrétnu morfologickú kategóriu pomocou značky - tagu: SSfp7 - zobrazia sa kontexty substantív [S] so substantívnou paradigmou [S] ženského rodu [f] v množnom čísle [p] v 7.

Podkorpusy a ich využitie
Na špeciálnejšie výskumy slúžia podkorpusy vytvorené z hlavného korpusu podľa príslušnosti textov k štýlom (publicistické texty, umelecké texty, odborné texty) a osobitný ručne morfologicky anotovaný korpus, na ktorom sa trénujú nástroje na automatizovanú anotáciu. Vyhľadané slová sa dajú usporadúvať podľa frekvencie, podľa spoluvýskytov s inými slovami a pod. V rámci SNK sa budujú aj paralelné korpusy - spárované rovnaké texty v origináli a v preklade alebo dva preklady toho istého textu. V súčasnosti sú verejne prístupné tri: slovensko-ruský, slovensko-francúzsky, slovensko-český paralelný korpus. Vzhľadom na to, že databáza SNK má pokrývať slovnú zásobu od roku 1955 (aj v súvise s potrebami koncipovania nového výkladového Slovníka súčasného slovenského jazyka), veľa textov z predchádzajúcich desaťročí je potrebné digitalizovať. Napriek tomu môžeme povedať, že SNK okrem svojich hlavných cieľov (jazykovedný výskum, výučba slovenčiny ako materinského i ako cudzieho jazyka, počítačové spracovanie prirodzeného jazyka) prispieva aj k záchrane a uchovávaniu kultúrneho dedičstva. Jednak masívnou digitalizáciou starších textov, a to aj starších ako z r. 1955 (sprístupnili sme napr. Opis dnešného stavu prináša výkladový Slovník súčasného slovenského jazyka, ktorý materiálovo vychádza predovšetkým zo SNK, pripravuje sa frekvenčný slovník súčasnej slovenčiny a v pláne sú autorské slovníky významných slovenských autorov.
tags: #skratky #v #slovenskom #narodnom #korpuse
