Anglicko-slovenský paralelný korpus: Nové možnosti pre lingvistický výskum

Slovenský národný korpus (SNK) predstavuje rozsiahly vedecko-výskumný projekt, ktorého cieľom je budovanie elektronickej základnej slovnej zásoby. Ide o špecifický súbor jazykových dát, ktorého základom sú texty rôznych štýlov, žánrov a vecných oblastí. Tieto texty sú obohatené o lingvistické informácie na úrovni slova, vety aj celého textu. Vďaka výkonným vyhľadávacím nástrojom, ako sú korpusový manažér Manatee a klient Bonito, môžu používatelia vyhľadávať a triediť skúmané jazykové prostriedky a informácie. Tento autentický jazykový materiál umožňuje lingvistom opisovať významy a funkcie slov a ďalších jazykových javov.

SNK sa neustále rozvíja a okrem budovania korpusu písaných textov a tvorby súvisiacich počítačových nástrojov sa venuje aj rozširovaniu ponuky paralelných korpusov. Hoci sú už k dispozícii rusko-slovenský a francúzsko-slovenský paralelný korpus, v pláne sú ďalšie, vrátane chorvátsko-slovenského, česko-slovenského, nemecko-slovenského a obzvlášť očakávaného anglicko-slovenského paralelného korpusu.

Schéma: štruktúra a funkcie Slovenského národného korpusu

Čo je paralelný korpus?

Každý paralelný korpus obsahuje identické texty v dvoch rôznych jazykoch. Môže ísť o vzájomné preklady alebo preklady z tretieho jazyka. Slovenské texty, ktoré sú prevažne prekladmi, sa do týchto korpusov zaraďujú na základe licenčnej zmluvy. Cudzojazyčné texty sa pre tento účel získavajú z internetových zdrojov. Dôležité je, že na časť textov zaradených do anglicko-slovenského, bulharsko-slovenského, česko-slovenského, francúzsko-slovenského, maďarsko-slovenského a nemecko-slovenského paralelného korpusu sa autorské práva nevzťahujú, keďže ide o texty európskej legislatívy.

Texty v paralelných korpusoch SNK sú spárované na úrovni viet. Hoci každý paralelný korpus oddelenia SNK ponúka obojstranné vyhľadávanie, neznamená to, že v smere zo slovenčiny do cudzieho jazyka ide vždy o originálne slovenské texty a v opačnom smere o originálne cudzojazyčné texty. V prípade veľkých jazykov, ako je angličtina, nemčina či francúzština, je pôvodným jazykom takmer alebo úplne všetkých textov práve cudzí jazyk. Pomer pôvodného a prekladového jazyka textov je pri ostatných paralelných korpusoch rôzny.

Infografika: Porovnanie pomeru pôvodných a prekladových textov v rôznych paralelných korpusoch SNK

Význam anglicko-slovenského paralelného korpusu

Vytvorenie anglicko-slovenského paralelného korpusu predstavuje významný krok pre slovenskú lingvistiku a jazykovedu. Umožní detailnejší výskum prekladových ekvivalentov, špecifických jazykových javov a gramatických štruktúr medzi týmito dvoma jazykmi. Bude cenným zdrojom pre prekladateľov, jazykovedcov, študentov a všetkých, ktorí sa zaujímajú o porovnávaciu lingvistiku.

V oblasti počítačového spracovania jazyka sa pozorne sleduje každý nový projekt a každý nový partner. Nejde o likvidačnú konkurenciu, ale o spoluprácu, ktorej cieľom je spracovanie čo najväčšieho počtu jazykov. Slovenský národný korpus má dobrú metodiku získavania textov s dôrazom na dodržiavanie autorských práv a je oceňovaný aj v rovine morfologického značkovania textov.

Metodika a spracovanie textov v korpuse

Korpusový materiál sa získava najčastejšie priamo v elektronickej podobe, sporadickejšie technickým spracovaním vydaného tlačeného diela. Následne prebiehajú technické fázy, napríklad odstraňovanie znakov a symbolov editačných softvérov alebo grafických súčastí textu, konverzia do jednotného formátu a segmentácia textu na najmenšie jednotky. Takto segmentovaný text sa môže ďalej značkovať podľa typu korpusu - pridávajú sa dodatočné informácie, ako sú bibliografické údaje, informácie o štruktúre textu, jazykové informácie na úrovni slov (napr. slovný druh, základný tvar slova - lema) alebo na úrovni viet (funkcia vo vete, sémantika).

Typy korpusov v SNK

  • Písané korpusy: Hlavný korpus „prim“ obsahuje písané texty súčasného slovenského jazyka z rôznych štýlov, žánrov, vecných oblastí, regiónov a pod., ktoré vznikli po roku 1955. Rovnako fungujú aj špecializované korpusy (napríklad korpus ekonomických textov).
  • Korpus nárečí SNK: Zaraďujú sa do neho existujúce, predovšetkým už publikované textové prepisy nárečových zvukových alebo transkribovaných záznamov v elektronickom formáte.
  • Historické korpusy: Oddelenie SNK ponúka tri korpusy obsahujúce texty v slovenskom jazyku, ktoré vznikli pred rokom 1955. Pre Historický korpus slovenčiny sa vyberali a korpusovo spracovali pramenné materiály v pôvodnom pravopise.
  • Webový korpus: Jednotlivé verzie webového korpusu obsahujú slovenské texty dostupné na webovej stránke, ktoré boli v jednotlivých rokoch automaticky stiahnuté a následne spracované.
  • Hovorený korpus: Pozostáva zo zvukových nahrávok prepojených s príslušným prepisom zaznamenaných prehovorov. Okrem základného prepisu výpovedí sa v druhej, tzv. výslovnostnej rovine, zachytávajú sprievodné, neverbálne javy, ale aj prekrývajúce sa, nedokončené či opakujúce sa výpovede alebo ich časti, lapsusy a pod.

Príklad existujúceho paralelného korpusu: Česko-slovenský paralelný korpus

Medzi paralelné korpusy patrí aj Česko-Slovenský Paralelný Korpus, ktorý slúži ako vynikajúci príklad funkčnosti a rozsahu takýchto databáz. Aktuálne dáta slovensko-českého paralelného korpusu sú sprístupnené vo viacerých verziách.

Všetky texty v česko-slovenskom paralelnom korpuse sú automatizovane zarovnané po vetách. Slovenské texty sú morfologicky anotované tagermi Morče a MorphoDiTa natrénovanými v SNK na báze tagsetu vypracovaného v Slovenskom národnom korpuse. České texty sú anotované tagerom Morče a MorphoDiTa na báze tagsetu použitého v Českom národnom korpuse.

Vyhľadávanie v korpuse je možné viacerými spôsobmi:

  • Po zaregistrovaní sa v NoSketch Engine je možné vyhľadávať v českej časti celej verzie 4.0, v slovenskej časti celej verzie 4.0, resp. v českej časti beletristických textov verzie 5.0 a v slovenskej časti beletristických textov verzie 5.0.
  • V slovníkovom rozhraní, v ktorom sú dostupné príslušné prekladové ekvivalenty automaticky vybrané z textov v korpuse.
  • V predchádzajúcich verziách je ešte možné vyhľadávať v jednoduchom webovom rozhraní.

Prehľad verzií Česko-Slovenského paralelného korpusu

Verzia Dátum sprístupnenia Celkový rozsah (tokeny) Podkorpus beletrie (tokeny)
par-skcs-fic-5.0 13. 12. 2018 31,5 mil. 31,5 mil.
par-skcs-all-4.0 25. 5. 2016 418,5 mil. 19 mil.
par-skcs-all-3.0 Január 2014 240 mil. 19 mil.
par-skcs-2.0 2011 cca 240 mil. cca 20 mil.
par-skcs-1.0 2010 cca 20 mil.

tags: #anglicko #slovensky #paralelny #korpus

Populárne príspevky: