Slovenský národný korpus (SNK) predstavuje rozsiahly vedecko-výskumný projekt, ktorého cieľom je budovanie elektronickej základnej slovnej zásoby. Ide o špecifický súbor jazykových dát, ktorého základom sú texty rôznych štýlov, žánrov a vecných oblastí. Tieto texty sú obohatené o lingvistické informácie na úrovni slova, vety aj celého textu. Vďaka výkonným vyhľadávacím nástrojom, ako sú korpusový manažér Manatee a klient Bonito, môžu používatelia vyhľadávať a triediť skúmané jazykové prostriedky a informácie. Tento autentický jazykový materiál umožňuje lingvistom opisovať významy a funkcie slov a ďalších jazykových javov.
SNK sa neustále rozvíja a okrem budovania korpusu písaných textov a tvorby súvisiacich počítačových nástrojov sa venuje aj rozširovaniu ponuky paralelných korpusov. Hoci sú už k dispozícii rusko-slovenský a francúzsko-slovenský paralelný korpus, v pláne sú ďalšie, vrátane chorvátsko-slovenského, česko-slovenského, nemecko-slovenského a obzvlášť očakávaného anglicko-slovenského paralelného korpusu.

Čo je paralelný korpus?
Každý paralelný korpus obsahuje identické texty v dvoch rôznych jazykoch. Môže ísť o vzájomné preklady alebo preklady z tretieho jazyka. Slovenské texty, ktoré sú prevažne prekladmi, sa do týchto korpusov zaraďujú na základe licenčnej zmluvy. Cudzojazyčné texty sa pre tento účel získavajú z internetových zdrojov. Dôležité je, že na časť textov zaradených do anglicko-slovenského, bulharsko-slovenského, česko-slovenského, francúzsko-slovenského, maďarsko-slovenského a nemecko-slovenského paralelného korpusu sa autorské práva nevzťahujú, keďže ide o texty európskej legislatívy.
Texty v paralelných korpusoch SNK sú spárované na úrovni viet. Hoci každý paralelný korpus oddelenia SNK ponúka obojstranné vyhľadávanie, neznamená to, že v smere zo slovenčiny do cudzieho jazyka ide vždy o originálne slovenské texty a v opačnom smere o originálne cudzojazyčné texty. V prípade veľkých jazykov, ako je angličtina, nemčina či francúzština, je pôvodným jazykom takmer alebo úplne všetkých textov práve cudzí jazyk. Pomer pôvodného a prekladového jazyka textov je pri ostatných paralelných korpusoch rôzny.

Význam anglicko-slovenského paralelného korpusu
Vytvorenie anglicko-slovenského paralelného korpusu predstavuje významný krok pre slovenskú lingvistiku a jazykovedu. Umožní detailnejší výskum prekladových ekvivalentov, špecifických jazykových javov a gramatických štruktúr medzi týmito dvoma jazykmi. Bude cenným zdrojom pre prekladateľov, jazykovedcov, študentov a všetkých, ktorí sa zaujímajú o porovnávaciu lingvistiku.
V oblasti počítačového spracovania jazyka sa pozorne sleduje každý nový projekt a každý nový partner. Nejde o likvidačnú konkurenciu, ale o spoluprácu, ktorej cieľom je spracovanie čo najväčšieho počtu jazykov. Slovenský národný korpus má dobrú metodiku získavania textov s dôrazom na dodržiavanie autorských práv a je oceňovaný aj v rovine morfologického značkovania textov.
Metodika a spracovanie textov v korpuse
Korpusový materiál sa získava najčastejšie priamo v elektronickej podobe, sporadickejšie technickým spracovaním vydaného tlačeného diela. Následne prebiehajú technické fázy, napríklad odstraňovanie znakov a symbolov editačných softvérov alebo grafických súčastí textu, konverzia do jednotného formátu a segmentácia textu na najmenšie jednotky. Takto segmentovaný text sa môže ďalej značkovať podľa typu korpusu - pridávajú sa dodatočné informácie, ako sú bibliografické údaje, informácie o štruktúre textu, jazykové informácie na úrovni slov (napr. slovný druh, základný tvar slova - lema) alebo na úrovni viet (funkcia vo vete, sémantika).
Typy korpusov v SNK
- Písané korpusy: Hlavný korpus „prim“ obsahuje písané texty súčasného slovenského jazyka z rôznych štýlov, žánrov, vecných oblastí, regiónov a pod., ktoré vznikli po roku 1955. Rovnako fungujú aj špecializované korpusy (napríklad korpus ekonomických textov).
- Korpus nárečí SNK: Zaraďujú sa do neho existujúce, predovšetkým už publikované textové prepisy nárečových zvukových alebo transkribovaných záznamov v elektronickom formáte.
- Historické korpusy: Oddelenie SNK ponúka tri korpusy obsahujúce texty v slovenskom jazyku, ktoré vznikli pred rokom 1955. Pre Historický korpus slovenčiny sa vyberali a korpusovo spracovali pramenné materiály v pôvodnom pravopise.
- Webový korpus: Jednotlivé verzie webového korpusu obsahujú slovenské texty dostupné na webovej stránke, ktoré boli v jednotlivých rokoch automaticky stiahnuté a následne spracované.
- Hovorený korpus: Pozostáva zo zvukových nahrávok prepojených s príslušným prepisom zaznamenaných prehovorov. Okrem základného prepisu výpovedí sa v druhej, tzv. výslovnostnej rovine, zachytávajú sprievodné, neverbálne javy, ale aj prekrývajúce sa, nedokončené či opakujúce sa výpovede alebo ich časti, lapsusy a pod.
Príklad existujúceho paralelného korpusu: Česko-slovenský paralelný korpus
Medzi paralelné korpusy patrí aj Česko-Slovenský Paralelný Korpus, ktorý slúži ako vynikajúci príklad funkčnosti a rozsahu takýchto databáz. Aktuálne dáta slovensko-českého paralelného korpusu sú sprístupnené vo viacerých verziách.
Všetky texty v česko-slovenskom paralelnom korpuse sú automatizovane zarovnané po vetách. Slovenské texty sú morfologicky anotované tagermi Morče a MorphoDiTa natrénovanými v SNK na báze tagsetu vypracovaného v Slovenskom národnom korpuse. České texty sú anotované tagerom Morče a MorphoDiTa na báze tagsetu použitého v Českom národnom korpuse.
Vyhľadávanie v korpuse je možné viacerými spôsobmi:
- Po zaregistrovaní sa v NoSketch Engine je možné vyhľadávať v českej časti celej verzie 4.0, v slovenskej časti celej verzie 4.0, resp. v českej časti beletristických textov verzie 5.0 a v slovenskej časti beletristických textov verzie 5.0.
- V slovníkovom rozhraní, v ktorom sú dostupné príslušné prekladové ekvivalenty automaticky vybrané z textov v korpuse.
- V predchádzajúcich verziách je ešte možné vyhľadávať v jednoduchom webovom rozhraní.
Prehľad verzií Česko-Slovenského paralelného korpusu
| Verzia | Dátum sprístupnenia | Celkový rozsah (tokeny) | Podkorpus beletrie (tokeny) |
|---|---|---|---|
| par-skcs-fic-5.0 | 13. 12. 2018 | 31,5 mil. | 31,5 mil. |
| par-skcs-all-4.0 | 25. 5. 2016 | 418,5 mil. | 19 mil. |
| par-skcs-all-3.0 | Január 2014 | 240 mil. | 19 mil. |
| par-skcs-2.0 | 2011 | cca 240 mil. | cca 20 mil. |
| par-skcs-1.0 | 2010 | cca 20 mil. |
tags: #anglicko #slovensky #paralelny #korpus
