Skratky a Metaznaky vo Vyhľadávaní v Slovenskom národnom korpuse

Slovenský národný korpus (SNK) je rozsiahly zdroj textových dát, ktorý umožňuje hĺbkovú analýzu slovenského jazyka. Na vyhľadávanie v korpuse sa používajú rôzne nástroje a metódy, ktoré využívajú špecifické skratky a metaznaky. Je určený každému používateľovi slovenského jazyka, ale predovšetkým redaktorom, prekladateľom, učiteľom a jazykovedcom.

Logo Slovenského národného korpusu

Vyhľadávanie v Slovenskom národnom korpuse

V Slovenskom národnom korpuse sa vyhľadáva pomocou nástroja NoSketch Engine. Pôvodne sa používal korpusový manažér Manatee s klientom Bonito vyvinutým na Fakulte informatiky Masarykovej univerzity v Brne.

Registrácia

Aby ste mohli používať NoSketch Engine, je nevyhnutné sa najprv zaregistrovať.

Jednoduché vyhľadávanie

Jednoduché vyhľadávanie je možné aj bez registrácie prostredníctvom webového rozhrania, ale s veľmi obmedzeným prístupom ku korpusom (prim-6.0-public-all, r-mak-3.0 a iné), bez možnosti vytvárania podkorpusov. Pred začatím používania webového rozhrania si treba prečítať a odsúhlasiť podmienky používania SNK.

Citovanie korpusu

Verzie a podkorpusy SNK, ako i jednotlivé zdroje z nich citujte podľa nasledujúceho návodu.

Typy a značky anotácií textov SNK

  • Bibliografická a štýlovo-žánrová anotácia
  • Morfologická anotácia
  • Nástroj na tvorbu morfologických značiek
  • Nástroj na rekonštrukciu morfologických značiek

Literárne múzeum SNK

Metaznaky na vyhľadávanie

Metaznaky používame pri vyhľadávaní pomocou atribútu CQL, spôsob hľadania jedného tokenu je vždy záväzný a má tvar [atribút=“hľadaný_token“], napr. [lemma=“hlava“]. Regulárny výraz môžeme utvoriť aj pomocou kombinácie atribútov, napr. [word=“.*ací“ & tag!=“A.*“] (vyhľadanie všetkých tvarov slov zakončených na -ací, ktoré nie sú adjektívami). Znak v korpuse sa chápe ako ľubovoľný znak okrem medzery. Formulácia metaznak BODKA nahrádza ľubovoľný znak znamená, že bodka v tomto prípade nahrádza aj ľubovoľnú číslicu, interpunkčné znamienko, zátvorku a pod. Nasledujúce príklady platia pre nástroje Bonito I, NoSketch Engine a Sketch Engine.

Schéma regulárnych výrazov v korpusovej lingvistike

Tabuľka metaznakov a ich použitie

Metaznak Význam metaznaku Príklad použitia Očakávaný výsledok vyhľadávania
. (BODKA) Nahrádza jeden ľubovoľný znak. dom.. domov, domec
* (HVIEZDIČKA) Určuje, že znak, ktorý je pred hviezdičkou, sa opakuje ľubovoľný počet krát (aj nula krát). hm* h, hm, hmm, hmmm
+ (PLUS) Určuje, že znak, ktorý je pred týmto regulárnym výrazom, sa opakuje raz alebo viackrát. hm+ hm, hmm, hmmm…
{ } (ZLOŽENÉ ZÁTVORKY) V nich umiestnené číslo určuje, koľkokrát sa má regulárny výraz opakovať. hm{4} hm, hmm, hmmm, hmmmm
| (ZVISLÁ ČIARA) Má funkciu operátora ALEBO. dom|doma dom, doma
[ ] (HRANATÉ ZÁTVORKY) Definuje sa v nich množina znakov, ktoré sa môžu vyskytovať v danom výraze na mieste zátvoriek. [r,s,t,u,v]ám rám, sám, tám, uám, vám (ak sa takéto tokeny v korpuse vyskytujú)
( ) (JEDNODUCHÉ ZÁTVORKY) Slúžia na zápis súboru požiadaviek na určitý znak vyhľadávaného výrazu pomocou regulárneho výrazu. (?i)(Kam|tam) Kam, kam, Tam, tam (ignoruje rozlišovanie veľkých a malých písmen)
\ (OBRÁTENÝ LOMENÉ) Pred znakom regulárneho výrazu znamená, že sa daný znak nebude pri vyhľadávaní chápať ako regulárny výraz, ale ako jednotka textu. napr\. napr. (a nie napri, napre, naprd…)
? (OTÁZNIK) Predstavuje žiaden alebo jeden výskyt predchádzajúceho znaku. i?šlo išlo, šlo
^ (STRIEŠKA) Spôsobí, že znak za ňou nesmie byť v slove na danej pozícii. SSfs^2 SSfs1, SSfs3, SSfs4, SSfs5, SSfs6, SSfs7 (nesmie byť 2 za "s")
& (AMPERSAND) Vyjadruje funkciu A SÚČASNE, ktorá umožňuje definovať viaceré hodnoty naraz. [tag=“SAms4“ & lemma=“.*ci“] Všetky substantíva (S), s adjektívnou paradigmou (A), s mužským životným rodom (m), v singulári (s) a akuzatíve (4) - ktorých lema sa končí na -ci.
.* (Kombinácia BODKA HVIEZDIČKA) Nahrádza ľubovoľný znak ľubovoľný početkrát. .*istá istá, sebaistá, neistá, hmlistá,…
.+ (Kombinácia BODKA PLUS) Používa sa pri vyhľadávaní slov s určitým prefixom, sufixom, skupinou písmen a pod. za.+ Všetky slová začínajúce sa písmenami za- (okrem slova za).

Kombinácia metaznakov

Kombinácia BODKA HVIEZDIČKA nahrádza ľubovoľný znak ľubovoľný početkrát. Výsledkom vyhľadávania zápisu .*istá budú slová zakončené sufixom -istá, ale aj samotné slovo istá. Napr. istá, sebaistá, neistá, hmlistá,…. Kombinácia BODKA PLUS sa používa pri vyhľadávaní slov s určitým prefixom, sufixom, skupinou písmen a pod. Výsledok vyhľadávania zápisu za.+ zobrazí všetky slová začínajúce sa písmenami za- (okrem slova za). Pri zápise vyhľadávaného výrazu môže byť regulárny výraz použitý na ľubovoľnom mieste. Napríklad pomocou zápisu za.+ík možno nájsť všetky slová začínajúce sa písmenami za- a končiace sa na -ík (okrem zaík). Naopak, zápisom .*koreň.* možno nájsť všetky slová s bázou koreň. Dodatočnou úpravou tohto zápisu na .*kore(ň|n).* sa vo výsledku vyhľadávania nájdu i slová obsahujúce alternáciu v danej báze (napríklad i slová koreniny, vykorenený).

Podmienky používané pri vyhľadávaní v korpuse

Within

Táto podmienka sa používa na vyhľadávanie výrazov v rámci určitej štruktúry.

Príklad Význam Očakávaný výsledok
[tag=“S.*“]{2} within [tag=“V.*“][]*[tag=“V.*“] Dve bezprostredne za sebou nasledujúce substantíva v skupine výrazov medzi dvoma slovesami. … že to všetko je vlastne vecou histórie , spoločenského poriadku , nanovo sa vo mne ozvali…
[lemma="zelený"] within Všetky lemy „zelený“ v dielach Vincenta Šikulu. napr. Aký je zelený , - divili sa chlapci .
[lemma=“hlava“][lemma=“deravý“] within []* Zobrazenie spojení dvoch lem hlava a deravý v rámci vety. E.g. Každý má na hlave deravý klobúk a pred sebou šálku, z ktorej stúpa riedky dym. Veru tak, hlava opitá, hlava deravá!

Containing

Táto podmienka sa používa na vyhľadávanie viet, ktoré obsahujú určité lemy alebo značky.

Príklad Význam Očakávaný výsledok
containing [lemma=“hlava“] [lemma=“deravý“] Zobrazenie celých viet, ktoré obsahujú lemy hlava a deravý. napr. Sňal si z hlavy deravý slamený širák , zotrel z čela pot .
[tag=“V.*“] []{5} [tag=“V.*“] containing [tag=“S.*“]{3} Zobrazenie celých 7-tokenových fráz obsahujúcich mennú skupinu zloženú z troch substantív stojacich bezprostredne za sebou, pričom frázy sú ohraničené slovesami. napr. vybral z vrecka balíček cigariet a podal

Meet

Táto podmienka sa používa na vyhľadávanie kolokácií v určitom rozsahu pozícií.

Príklad Význam
(meet [tag=“S.*“] [tag=“VL.*“] -3 3) Zobrazenie substantíva, ktoré je obklopené slovesami v minulom čase v rozsahu pozícií -3 3.

Union

Táto podmienka sa používa na kombinovanie výsledkov vyhľadávania pomocou operátora ALEBO.

Príklad Význam
(union (meet [lemma=“hovoriť“] [lemma=“pravda“] -4 4) (meet [lemma=“vysloviť“] [lemma=“lož“] -4 4)) Funkcia ALEBO pri vyhľadávaniach kolokácií pomocou funkcie podmienky meet, zobrazí sa len lema hovoriť alebo vysloviť.
Ukážka rozhrania Sketch Engine

Všeobecné podmienky používané v SketchEngine

Tieto podmienky sa používajú na definovanie vzťahov medzi slovami a ich morfologickými kategóriami.

Príklad Význam Očakávaný výsledok
1:[] 2:[] & 1.tag = 2.tag Všetky slová stojace vedľa seba, ktorých morfologické kategórie sú totožné. napr. príliš automaticky, exkluzívne ekologické, až prakticky, celkom mimovoľne
1:[] 2:[] & 1.tag = 2.tag & f(1.tag) > 1000 Všetky slová stojace bezprostredne vedľa seba, ktoré majú rovnakú morfologickú značku, ale frekvencia prvej morfologickej značky musí byť viac ako 1000 v danom korpuse. napr. Slovenský národný korpus (SNK) je rozsiahly zdroj textových dát.

História a budovanie Slovenského národného korpusu

Slovenský národný korpus (SNK) je rozsiahly zdroj textových dát, ktorý umožňuje hĺbkovú analýzu slovenského jazyka. V roku 2001 ministerstvo kultúry v spolupráci s ministerstvom školstva a Slovenskou akadémiou vied pripravilo návrh projektu vybudovania Slovenského národného korpusu a projektu elektronizácie jazykovedného výskumu v rokoch 2002 - 2006, ktorý schválila vláda SR uznesením č. 137 z 13. februára 2002. Ide o elektronickú databázu textov súčasného slovenského jazyka, ktorá slúži na vyhľadávanie slov, slovných spojení a jazykových prostriedkov. Na základe tohto projektu sa v Jazykovednom ústave Ľudovíta Štúra SAV 22. novembra 2002 otvorilo pracovisko Slovenského národného korpusu s cieľom vybudovať do roku 2006 korpus s kapacitou 200 miliónov tokenov - základných textových jednotiek používaných v korpusoch. V súčasnosti sa realizuje už 5. etapa tohto projektu (2022 - 2026). Hlavný korpus písaných textov Slovenského národného korpusu, jeho aktuálna verzia prim-8.0, bola sprístupnená 31. januára 2018 v rozsahu takmer 1,5 miliardy tokenov. Slovenský národný korpus ako oddelenie Jazykovedného ústavu Ľ. Štúra SAV v Bratislave i elektronická databáza vnútorne štruktúrovaného a uceleného súboru jazykových dát vznikol v roku 2002 v rámci projektu Budovanie Národného korpusu slovenského jazyka a elektronizácia jazykovedného výskumu na Slovensku. Z viacerých druhov korpusov (napr. písaný - hovorený, jednojazyčný - viacjazyčný, všeobecný - špeciálny, synchrónny - diachrónny) vyhovoval aktuálnym potrebám lingvistického výskumu na Slovensku všeobecný korpus súčasných písaných textov a ako taký sa Slovenský národný korpus (SNK) aj začal budovať.

Proces budovania korpusu

  1. Systematický zber dát najrôznejších štýlov, žánrov, autorských či vydavateľských úzov zo všetkých regiónov Slovenska na základe licenčnej zmluvy o inom (nekomerčnom) použití textov podľa autorského zákona. Texty sa získavajú v elektronickej verzii, ak v takej nie sú dostupné, skenujú sa, rozpoznávajú a rekonštruujú do elektronickej verzie identickej s tlačeným originálom (teda aj s prípadnými preklepmi a chybami). V archíve sa získané texty uchovávajú v získanej podobe so základnou informáciou o ich pôvode, forme a obsahu.
  2. Po odstránení znakov a symbolov editorov a programov, v ktorých texty vznikli, a grafických súčastí (obrázky, tabuľky a pod.) sa texty prevedú do jednotného formátu, ktorý zaznamenáva štruktúrne vlastnosti textu. Ku každému dokumentu sa doplní vonkajšia (bibliografická a štýlovo-žánrová) anotácia.
  3. V ďalšej fáze sa text rozdelený na základné jednotky (slová, interpunkcia, číslice, symboly) lingvisticky značkuje: textu sa pridajú informácie o jeho štruktúre, slovám sa pridajú morfologické informácie na úrovni slov (slovný druh/trieda, morfologické kategórie tvaru slova, základný tvar slova - lema), vetám jazykové informácie na úrovni viet a pod.
  4. Takto spracované texty, ktoré majú od poskytovateľov licenciu na verejné využívanie, sa ako dáta sprístupňujú na internete na presne vymedzené vyhľadávanie (spravidla max. konkrétny tvar slova alebo slov: napr. slovenskými knižnicami - zobrazia sa všetky kontexty v rozsahu max. 100 znakov okolo vyhľadaného spojenia (tzv. konkrétnu morfologickú kategóriu pomocou značky - tagu: SSfp7 - zobrazia sa kontexty substantív [S] so substantívnou paradigmou [S] ženského rodu [f] v množnom čísle [p] v 7.
Diagram spracovania textu v korpuse

Podkorpusy a ich využitie

Na špeciálnejšie výskumy slúžia podkorpusy vytvorené z hlavného korpusu podľa príslušnosti textov k štýlom (publicistické texty, umelecké texty, odborné texty) a osobitný ručne morfologicky anotovaný korpus, na ktorom sa trénujú nástroje na automatizovanú anotáciu. Vyhľadané slová sa dajú usporadúvať podľa frekvencie, podľa spoluvýskytov s inými slovami a pod. V rámci SNK sa budujú aj paralelné korpusy - spárované rovnaké texty v origináli a v preklade alebo dva preklady toho istého textu. V súčasnosti sú verejne prístupné tri: slovensko-ruský, slovensko-francúzsky, slovensko-český paralelný korpus. Vzhľadom na to, že databáza SNK má pokrývať slovnú zásobu od roku 1955 (aj v súvise s potrebami koncipovania nového výkladového Slovníka súčasného slovenského jazyka), veľa textov z predchádzajúcich desaťročí je potrebné digitalizovať. Napriek tomu môžeme povedať, že SNK okrem svojich hlavných cieľov (jazykovedný výskum, výučba slovenčiny ako materinského i ako cudzieho jazyka, počítačové spracovanie prirodzeného jazyka) prispieva aj k záchrane a uchovávaniu kultúrneho dedičstva. Jednak masívnou digitalizáciou starších textov, a to aj starších ako z r. 1955 (sprístupnili sme napr. Opis dnešného stavu prináša výkladový Slovník súčasného slovenského jazyka, ktorý materiálovo vychádza predovšetkým zo SNK, pripravuje sa frekvenčný slovník súčasnej slovenčiny a v pláne sú autorské slovníky významných slovenských autorov.

tags: #skratky #v #slovenskom #narodnom #korpuse

Populárne príspevky: