Slovenský národný korpus (SNK) je vedecko-výskumný projekt, ktorého cieľom je budovanie elektronického korpusu textov. Predstavuje elektronickú databázu textov súčasného slovenského jazyka, ktorá slúži na vyhľadávanie slov, slovných spojení a jazykových prostriedkov. SNK je určený každému používateľovi slovenského jazyka, no predovšetkým redaktorom, prekladateľom, učiteľom a jazykovedcom.
V Jazykovednom ústave Ľudovíta Štúra SAV sa SNK začal budovať v roku 2002 s podporou Ministerstva kultúry SR a Ministerstva školstva, vedy, výskumu a športu SR. Týmto sa systematicky a komplexne spracúva slovenský jazyk a realizuje sa elektronizácia jazykovedného výskumu na Slovensku. V súčasnosti sa realizuje už 5. etapa tohto projektu (2022 - 2026).
Korpus textov predstavuje špecifický súbor jazykových dát, ktorý sa buduje v elektronickej podobe. Jeho základom sú texty zvyčajne rôznych štýlov a žánrov, ku ktorým sa pridávajú lingvistické informácie na úrovni slova (textovej jednotky), vety aj celého textu. Výkonné vyhľadávacie nástroje umožňujú vyhľadávanie a triedenie skúmaných jazykových prostriedkov a informácií.

Ako získať prístup ku korpusom?
Využitie na vedecko-výskumné ciele je bezplatné. Prístup na vyhľadávanie získa používateľ po zaregistrovaní. Na požiadanie je možné povoliť prístup aj k starším verziám.
Oddelenie Slovenského národného korpusu Jazykovedného ústavu Ľ. Štúra SAV v Bratislave ponúka záujemcom prednášky o Slovenskom národnom korpuse a o jeho častiach, ako aj praktické workshopy zamerané na používanie konkrétnych databáz Slovenského národného korpusu. Prednášky a praktické workshopy sú prispôsobené jednotlivým skupinám používateľov, realizujú sa po dohode v oddelení Slovenského národného korpusu alebo v prostredí záujemcov (napr. školy, akademické pracoviská, vydavateľstvá).
Účastníci workshopu budú na stretnutí aktívne pracovať s vybranými korpusmi, preto je potrebné, aby mali vlastné prihlasovacie meno a heslo na prácu s databázami SNK. Zaregistrovať sa možno bezplatne na webovej stránke SNK. Účastníci workshopu si môžu priniesť svoj vlastný počítač alebo môžu využiť počítač v oddelení SNK. V prípade väčšej skupiny záujemcov z jednej inštitúcie je možné po dohode s pracovníkmi Slovenského národného korpusu usporiadať workshop priamo v konkrétnej inštitúcii.
Prehľad dostupných korpusov SNK
Slovenský národný korpus ponúka široké spektrum korpusov, ktoré sa líšia jazykom, zaznamenanou formou, veľkosťou, typom textov, spôsobom uloženia a obdobím, z ktorého texty pochádzajú. Medzi dostupné korpusy patria:
- Frekvenčné zoznamy lem, tvarov slov a slovných druhov z dostupných korpusov SNK
- Hlavný korpus písaných textov SNK
- Ručne morfologicky anotovaný korpus SNK
- Ďalšie korpusy súčasných písaných textov SNK
- Paralelné korpusy SNK
- Webový korpus SNK
- Korpusy textov z Wikipédie (a Necyklopédie)
- Špecializované korpusy SNK
- Súbor korpusov Omnia
- Časovo vymedzené korpusy
- Korpus textov z r. 864 - 1843
- Korpus textov z r. 1843 - 1954
- Korpus textov denníka SME z r. 2005
Písané korpusy
Do korpusov písaných textov sa zaraďujú elektronicky spracované texty podľa typu zamerania korpusu. Hlavný korpus, označený ako prim, obsahuje písané texty súčasného slovenského jazyka z rôznych štýlov, žánrov, vecných oblastí, regiónov a pod., ktoré vznikli po roku 1955. Aktuálna verzia korpusu prim-11.0 bola vytvorená 26. 2. 2025 a sprístupnená 11. 4. 2025 v rozsahu vyše 1,85 mld. tokenov. Používateľom ostáva k dispozícii aj predchádzajúca verzia korpusu prim-10.0 v rozsahu vyše 1,68 mld. tokenov.
Nevyhnutnou podmienkou zaradenia textu do korpusu je získanie súhlasu jeho autora alebo držiteľa autorských práv, ktorý je zakotvený v licenčnej zmluve. Rovnako to platí aj o špecializovaných korpusoch (napr. o korpuse ekonomických textov), nie však o korpusoch obsahujúcich texty právnych predpisov, úradných či súdnych rozhodnutí, keďže na ne sa slovenský autorský zákon nevzťahuje. Všetkým poskytovateľom patrí veľká vďaka za ochotu spolupracovať na projekte Slovenského národného korpusu a poskytnúť texty na (nielen) lingvistický výskum.
Ďalšie typy písaných korpusov:
- Nárečový korpus: Zaraďujú sa existujúce, predovšetkým už publikované textové prepisy nárečových zvukových alebo transkribovaných záznamov v elektronickom formáte.
- Historické korpusy: Oddelenie SNK ponúka tri korpusy obsahujúce texty v slovenskom jazyku, ktoré vznikli pred rokom 1955.
- Webový korpus: Jednotlivé verzie webového korpusu obsahujú slovenské texty dostupné na webovej stránke, ktoré boli v jednotlivých rokoch automaticky stiahnuté a následne spracované.
- Paralelné korpusy: Každý paralelný korpus obsahuje identické texty v dvoch rôznych jazykoch, pričom môže ísť o vzájomné preklady, alebo preklady z tretieho jazyka.
Hovorené korpusy
Hovorený korpus pozostáva zo zvukových nahrávok prepojených s príslušným prepisom zaznamenaných prehovorov. Pri prepisoch je vždy uvedená sociolingvistická informácia o respondentoch a základné informácie o pôvode a obsahu nahrávky. Tieto nahrávky buď vytvorili pracovníci Slovenského národného korpusu priamo „v teréne“, alebo ich do projektu SNK poskytli zo svojich archívov viaceré inštitúcie.
Okrem základného prepisu výpovedí, ktoré sa zapisujú v súlade s pravidlami spisovnej slovenčiny rovnako ako pri písanom texte, sa v druhej, tzv. výslovnostnej rovine, zachytávajú sprievodné, neverbálne javy, ale aj prekrývajúce sa, nedokončené či opakujúce sa výpovede alebo ich časti, lapsusy a pod. Zároveň sa zaznamenávajú veľmi výrazné odchýlky hovoriacich od bežného štandardu v prípade ne/mäkčenia, ne/dĺženia, ne/spodobovania, pričom sa berie do úvahy profil respondenta.

Vyhľadávanie v Slovenskom národnom korpuse
V Slovenskom národnom korpuse sa vyhľadáva pomocou nástroja NoSketch Engine. Pôvodne sa používal korpusový manažér Manatee s klientom Bonito vyvinutým na Fakulte informatiky Masarykovej univerzity v Brne. Aby ste ho mohli používať, je nevyhnutné sa najprv zaregistrovať.
Jednoduché vyhľadávanie je možné aj bez registrácie prostredníctvom webového rozhrania, ale s veľmi obmedzeným prístupom ku korpusom (prim-6.0-public-all, r-mak-3.0 a iné), bez možnosti vytvárania podkorpusov. Pred začatím používania webového rozhrania si treba prečítať a odsúhlasiť podmienky používania SNK.
Typy a značky anotácií textov SNK
- Bibliografická a štýlovo-žánrová anotácia
- Morfologická anotácia
- Nástroj na tvorbu morfologických značiek
- Nástroj na rekonštrukciu morfologických značiek
Výber najčastejšie používaných metaznakov na vyhľadávanie
Metaznaky používame pri vyhľadávaní pomocou atribútu CQL, spôsob hľadania jedného tokenu je vždy záväzný a má tvar [atribút="hľadaný_token"], napr. [lemma="hlava"]. Regulárny výraz môžeme utvoriť aj pomocou kombinácie atribútov, napr. [word=".*ací" & tag!="A.*"] (vyhľadanie všetkých tvarov slov zakončených na -ací, ktoré nie sú adjektívami).
Znak v korpuse sa chápe ako ľubovoľný znak okrem medzery. Formulácia metaznak BODKA nahrádza ľubovoľný znak znamená, že bodka v tomto prípade nahrádza aj ľubovoľnú číslicu, interpunkčné znamienko, zátvorku a pod.
Nasledujúce príklady platia pre nástroje Bonito I, NoSketch Engine a Sketch Engine.

| Metaznak | Význam metaznaku | Príklad použitia | Očakávaný výsledok vyhľadávania |
|---|---|---|---|
| . | BODKA nahrádza jeden ľubovoľný znak. | dom.. | domov, domec |
| * | HVIEZDIČKA určuje, že znak, ktorý je pred hviezdičkou, sa opakuje ľubovoľný počet krát (aj nula krát). | hm* | h, hm, hmm, hmmm |
| + | PLUS určuje, že znak, ktorý je pred týmto regulárnym výrazom, sa opakuje raz alebo viackrát. | hm+ | hm, hmm, hmmm |
| { } | ZLOŽENÉ ZÁTVORKY. V nich umiestnené číslo určuje, koľkokrát sa má regulárny výraz, resp. znak pred zátvorkami opakovať. Napr. hm{1,4} - hm, hmm, hmmm, hmmmm. | hm{2} | hmm |
| | | ZVISLÁ ČIARA má funkciu operátora ALEBO. | dom|doma | dom, doma |
| [ ] | HRANATÉ ZÁTVORKY: definuje sa v nich množina znakov, ktoré sa môžu vyskytovať v danom výraze na mieste zátvoriek. Množina sa určuje vymenovaním znakov, ktoré sa neoddeľujú čiarkou, alebo určením intervalu napr. [rstv]ám (ram, sám, tám, uám, vám (ak sa takéto tokeny v korpuse vyskytujú)). | [RSK][aou]m | Ram, som, kam |
| ( ) | JEDNODUCHÉ ZÁTVORKY slúžia na zápis súboru požiadaviek na určitý znak vyhľadávaného výrazu pomocou regulárneho výrazu, resp. na zápis alternatív. | (Kam|kam)|(Tam|tam) | Kam, kam, Tam, tam |
| (?i) | Tento regulárny výraz spôsobí, že pri vyhľadávaní sa bude ignorovať rozlišovanie veľkých a malých písmen. | (?i)dom | Dom, dom |
| \ | Obrátený znak LOMENÉ pred znakom regulárneho výrazu znamená, že sa daný znak nebude pri vyhľadávaní chápať ako regulárny výraz, ale ako jednotka textu. | napr\. | napr. (a nie napri, napre, naprd…) |
| ? | OTÁZNIK predstavuje žiaden alebo jeden výskyt predchádzajúceho znaku. | i?šlo | išlo, šlo |
| ^ | STRIEŠKA spôsobí, že znak za ňou nesmie byť v slove na danej pozícii. | SSfs^2 | SSfs1, SSfs3, SSfs4, SSfs5, SSfs6, SSfs7, atď. |
| & | AMPERSAND vyjadruje funkciu A SÚČASNE, ktorá umožňuje definovať viaceré hodnoty naraz. | [tag="SAms4" & lemma=".*ci"] | všetky substantíva (S), s adjektívnou paradigmou (A), s mužským životným rodom (m), v singulári (s) a akuzatíve (4) - ktorých lema sa končí na -ci, napr. mladíci |
| .* | Kombinácia BODKA HVIEZDIČKA nahrádza ľubovoľný znak ľubovoľný početkrát. | .*istá | istá, sebaistá, neistá, hmlistá,… |
| .+ | Kombinácia BODKA PLUS sa používa pri vyhľadávaní slov s určitým prefixom, sufixom, skupinou písmen a pod. | za.+ | všetky slová začínajúce sa písmenami za- (okrem slova za) |
Podmienky používané pri vyhľadávaní v korpuse
within
Používa sa na vyhľadanie tokenov v rámci určitého kontextu.
- Príklad: [tag="S.*"]{2} within [tag="V.*"][ ]*[tag="V.*"]
- Význam: Dve bezprostredne za sebou nasledujúce substantíva v skupine výrazov medzi dvoma slovesami.
- Očakávaný výsledok: … že to všetko je vlastne
vecou histórie , spoločenského poriadku , nanovo sa vo mne ozvali…
- Príklad: [lemma="zelený"] within
- Význam: Všetky lemy „zelený“ v dielach Vincenta Šikulu.
- Očakávaný výsledok: napr. Aký je
zelený , - divili sa chlapci .
- Príklad: [lemma="hlava"][lemma="deravý"] within
[]*- Význam: Zobrazenie spojení dvoch lem „hlava“ a „deravý“ v rámci vety.
- Očakávaný výsledok: E.g. Každý má na
hlave deravý klobúk a pred sebou šálku, z ktorej stúpa riedky dym. Veru tak,hlava opitá, hlava deravá!
containing
Používa sa na zobrazenie celých segmentov (viet, fráz) obsahujúcich hľadané výrazy.
- Príklad: containing [lemma="hlava"] [lemma="deravý"]
- Význam: Zobrazenie celých viet, ktoré obsahujú lemy hlava a deravý.
- Očakávaný výsledok: napr. Sňal si z hlavy deravý slamený širák , zotrel z čela pot .
- Príklad: [tag="V.*"] []{5} [tag="V.*"] containing [tag="S.*"]{3}
- Význam: Zobrazenie celých 7-tokenových fráz obsahujúcich mennú skupinu zloženú z troch substantív stojacich bezprostredne za sebou, pričom frázy sú ohraničené slovesami.
- Očakávaný výsledok: napr. vybral z vrecka balíček cigariet a podal
meet
Definuje vzájomnú pozíciu tokenov.
- Príklad: (meet [tag="S.*"] [tag="VL.*"] -3 3)
- Význam: Zobrazenie substantíva, ktoré je obklopené slovesami v minulom čase v rozsahu pozícií -3 3.
- Očakávaný výsledok: Ak existuje substantívum a v jeho okolí do 3 pozícií sa nachádza sloveso v minulom čase.
union
Slúži na kombinovanie viacerých vyhľadávaní pomocou operátora ALEBO.
- Príklad: (union (meet [lemma="hovoriť"] [lemma="pravda"] -4 4) (meet [lemma="vysloviť"] [lemma="lož"] -4 4))
- Význam: Funkcia ALEBO pri vyhľadávaniach kolokácií pomocou funkcie podmienky meet, zobrazí sa len lema hovoriť alebo vysloviť.
- Očakávaný výsledok: Vety obsahujúce buď spojenie "hovoriť pravda" alebo "vysloviť lož" v danom rozsahu.
Všeobecné podmienky používané v SketchEngine
- Príklad: 1:[] 2:[] & 1.tag = 2.tag
- Význam: Všetky slová stojace vedľa seba, ktorých morfologické kategórie sú totožné.
- Očakávaný výsledok: napr. príliš automaticky, exkluzívne ekologické, až prakticky, celkom mimovoľne
- Príklad: 1:[] 2:[] & 1.tag = 2.tag & f(1.tag) > 1000
- Význam: Všetky slová stojace bezprostredne vedľa seba, ktoré majú rovnakú morfologickú značku, ale frekvencia prvej morfologickej značky musí byť viac ako 1000 v danom korpuse.
- Očakávaný výsledok: Zobrazenie spojení s častými morfologickými značkami.
Ako citovať korpus
Pri použití citácie z korpusových databáz alebo výsledkov hľadania z jednotlivých zdrojov SNK sa odkazuje na konkrétnu verziu a/alebo podkorpus SNK (prim-10.0-public-sane, s-hovor-7.0, r-mak-6.0, par-sken-all-4.0 a pod.). Všetky dostupné zdroje sú uvedené v časti Korpusy SNK, v ponuke korpusov vo vyhľadávacom programe NoSketchEngine, ako aj v osobitnom zozname verejne prístupných korpusov SNK.
Používanie a citovanie korpusových zdrojov má byť v súlade s ustanoveniami zákona č. 185/2015 Z. z. (Autorský zákon). Presné informácie o použitých korpusoch a podkorpusoch sú nevyhnutné aj preto, aby bolo vždy zrejmé, z akého druhu textov a z akého rozsahu dát pochádzajú získané údaje.
V bibliografii sa citácia výsledkov z celého korpusu uvádza takto:
Príklad citácie pre verziu prim-10.0 a jej podkorpusy:
Slovenský národný korpus - prim-10.0-public-all. Bratislava: Jazykovedný ústav Ľ. Štúra SAV 2022.
Príklad citácie pre odborný článok v časopise z verzie prim-7.0:
Kultúra slova. Martin: Vydavateľstvo Matice slovenskej, 1995. In: Slovenský národný korpus - prim-7.0-public-all. Bratislava: Jazykovedný ústav Ľ. Štúra SAV 2015.
Za bibliografiou citovaného diela uveďte odkaz na príslušnú verziu a podkorpus Slovenského národného korpusu podľa uvedeného návodu.

Publikácie a štúdie na báze korpusov slovenčiny
Slovenský národný korpus slúži ako základ pre rozsiahly výskum v oblasti jazykovedy. Jazykovedný ústav Ľ. Štúra SAV vydal v spolupráci s Vydavateľstvom Mikula odbornú cvičebnicu s názvom Slovenský národný korpus. Používanie, príklady, postupy (2020). Publikácia sa sústreďuje na praktické postupy vyhľadávania jazykových javov v rôznych korpusoch a podkorpusoch SNK. Autorky Mária Šimková a Katarína Gajdošová postupujú od základných techník po pokročilé metódy, pričom zohľadňujú reálne potreby a skúsenosti používateľov.
Cvičebnica priamo nadväzuje na kolektívnu publikáciu Slovenský národný korpus - Texty, anotácie, vyhľadávania (Šimková - Gajdošová - Kmeťová - Debnár, 2017), ktorá opisovala tvorbu, štruktúru a možnosti využitia jazykových zdrojov SNK. V najnovšom titule autorky zúročujú svoje dlhoročné teoretické poznatky z oblasti korpusovej lingvistiky, ako aj skúsenosti z vedenia seminárov pre záujemcov o používanie korpusových zdrojov.
Kniha obsahuje praktické ukážky (návody) postupov pri vyhľadávaní jazykových javov z rôznych jazykových rovín a v rôznych korpusoch, komentované postupy ďalšej práce s vyhľadaným materiálom, opisy jednotlivých (meta)znakov a celých regulárnych výrazov potrebných na efektívne vyhľadanie jazykových prostriedkov aj inšpirácie na ďalšiu samostatnú prácu s korpusmi.
Ukážka cvičenia:
Nájdite vety, v ktorých sa nachádza spojka keby a sloveso v prítomnom čase.
- Keby sa však nájde nejaký 12- - 14-ročný chlapec, ktorý má o box záujem, tak ho budem trénovať aj zadarmo. (MY Žilinské noviny. Bratislava: Petit Press 2010, roč. 11, č. 20)
- Keby máme 20 rokov, tak by sme určite nerozmýšľali a išli by sme do toho. (MY týždeň na Pohroní. Bratislava: Petit Press 2016, roč. 25, č. 25)
tags: #slovensky #narodny #korpus #navod
