Objavte Tajomstvá Česko-Slovenského Paralelného Korpusu a Slovenského Národného Korpusu!

Slovenský národný korpus (SNK) je rozsiahla databáza textov v slovenskom jazyku, ktorá slúži ako neoceniteľný nástroj pre výskumníkov, lingvistov, študentov a všetkých, ktorí sa zaoberajú štúdiom a analýzou slovenského jazyka. SNK predstavuje rozsiahly súbor textov rôzneho charakteru, od beletrie cez publicistiku až po odborné texty. Jeho cieľom je zachytiť jazykovú realitu v celej jej šírke a poskytnúť reprezentatívny vzorku slovenského jazyka v písomnej podobe.

Slovenský národný korpus ako oddelenie Jazykovedného ústavu Ľ. Štúra SAV v Bratislave i elektronická databáza vnútorne štruktúrovaného a uceleného súboru jazykových dát vznikol v roku 2002 v rámci projektu Budovanie Národného korpusu slovenského jazyka a elektronizácia jazykovedného výskumu na Slovensku. V roku 2001 ministerstvo kultúry v spolupráci s ministerstvom školstva a Slovenskou akadémiou vied pripravilo návrh projektu vybudovania Slovenského národného korpusu a projektu elektronizácie jazykovedného výskumu v rokoch 2002 - 2006, ktorý schválila vláda SR uznesením č. 137 z 13. februára 2002. Na základe tohto projektu sa v Jazykovednom ústave Ľudovíta Štúra SAV 22. novembra 2002 otvorilo pracovisko Slovenského národného korpusu s cieľom vybudovať do roku 2006 korpus s kapacitou 200 miliónov tokenov - základných textových jednotiek používaných v korpusoch. V súčasnosti sa realizuje už 5. etapa tohto projektu (2022 - 2026).

Čo je Slovenský národný korpus?

Je to databáza publikovaných textov - odborných, publicistických a beletristických - zhromaždených na jednom mieste. Spracúvajú sa jednotným spôsobom a sú obohatené o jazykové informácie, ktoré sa nazývajú anotácie. V tejto databáze sa dá vyhľadávať a používať rôzne nástroje na prácu s vyhľadaným materiálom. Je to jazykový zdroj, pomocou ktorého možno skúmať slovenský jazyk v rôznych jeho podobách, nielen v písanej, ale aj v hovorenej, nárečovej, historickej...

Prečo vôbec vzniklo niečo ako národný korpus? Aký je jeho účel?

Je zdrojom materiálu na lingvistický výskum. Využívajú ho však aj korektori, redaktori, editori, prekladatelia, všetci tí, ktorí pracujú s jazykom. Učitelia si z korpusových dát pripravujú cvičenia pre svojich študentov, ale máme aj používateľov z iných oblastí, napríklad neurológie.

Jeden z praktických výstupov korpusu je frekvenčný slovník. Je cenným zdrojom informácií napríklad pre tých, ktorí pracujú s pacientmi po mozgových príhodách, keď stratili schopnosť reči a učia sa nanovo hovoriť. Je užitočný aj pre tých, ktorí vyvíjajú aplikácie pracujúce s textom, napríklad na kontrolu gramatiky v textových editoroch. Pre nich slúži korpus ako testovací a trénovací materiál. Je to pripravená materiálová báza a vedci ju používajú nato, aby mohli v jazyku objavovať. Nikto z nás nie je schopný zhromaždiť si sám také množstvo textov. Preto sa texty zhromažďujú centrálne v niečom takom, ako je Slovenský národný korpus.

Z viacerých druhov korpusov (napr. písaný - hovorený, jednojazyčný - viacjazyčný, všeobecný - špeciálny, synchrónny - diachrónny) vyhovoval aktuálnym potrebám lingvistického výskumu na Slovensku všeobecný korpus súčasných písaných textov a ako taký sa Slovenský národný korpus (SNK) aj začal budovať.

Obsah SNK

SNK obsahuje rôzne typy korpusov, ktoré sa líšia zameraním, veľkosťou a spôsobom spracovania:

Hlavný korpus písaných textov: Aktuálna verzia prim-11.0 (vytvorená 26. 2. 2025 a sprístupnená 11. 4. 2025) obsahuje vyše 1,85 miliardy tokenov. K dispozícii je aj predchádzajúca verzia prim-10.0 s vyše 1,68 miliardy tokenov. Na požiadanie je možný prístup aj k starším verziám. Hlavný korpus písaných textov Slovenského národného korpusu, jeho aktuálna verzia prim-8.0, bola sprístupnená 31. januára 2018 v rozsahu takmer 1,5 miliardy tokenov.
Ručne morfologicky anotovaný korpus: Verzie r-mak.
Ďalšie korpusy súčasných písaných textov.
Paralelné korpusy: V rámci SNK sa budujú aj paralelné korpusy - spárované rovnaké texty v origináli a v preklade alebo dva preklady toho istého textu. V súčasnosti sú verejne prístupné tri: slovensko-ruský, slovensko-francúzsky, slovensko-český paralelný korpus.
Webový korpus.
Korpusy textov z Wikipédie (a Necyklopédie).
Špecializované korpusy.
Súbor korpusov Omnia.
Časovo vymedzené korpusy: Korpus textov z obdobia 864 - 1843. Korpus textov z obdobia 1843 - 1954. Korpus textov denníka SME z určitého roku.

Ako to celé vzniklo?

Na Slovensku vzniklo oddelenie Slovenského národného korpusu v roku 2002. Patrili sme k posledným trom slovanským krajinám, ktorým v tom čase korpus „chýbal“. Preto sa ministerstvo školstva, ministerstvo kultúry a Slovenská akadémia vied dohodli, že podporia vznik oddelenia Slovenského národného korpusu, v ktorom sa bude takáto databáza pripravovať. Ide o národný projekt a budujeme primárne korpus národného jazyka. S korpusmi sa môžete stretnúť aj na iných pracoviskách, Slovenský národný korpus je špecifický napríklad aj tým, že je dostupný bezplatne. Stačí len registrácia.

Primárny korpus, ktorý zahŕňa súčasný slovenský jazyk, sa buduje z textov od roku 1955. V päťdesiatom treťom roku bola posledná jazyková reforma, a kým sa začala reálne uplatňovať, mohli uplynúť aj dva roky. V našej ponuke používateľ nájde viac ako sto korpusov. Keď sa zaregistruje, má k nim plný prístup. Novú verziu korpusu vydávame v dvojročných intervaloch. Koncepcia budovania korpusu je postavená na princípe obohacovania, čiže verzia 11 bude obsahovať všetko, čo obsahovala verzia 10, a aj nové texty, ktoré sa nám od poslednej verzie podarilo zazmluvniť.

Získavanie textov do korpusu

Systematický zber dát najrôznejších štýlov, žánrov, autorských či vydavateľských úľov zo všetkých regiónov Slovenska prebieha na základe licenčnej zmluvy o inom (nekomerčnom) použití textov podľa autorského zákona. Texty sa získavajú v elektronickej verzii, ak v takej nie sú dostupné, skenujú sa, rozpoznávajú a rekonštruujú do elektronickej verzie identickej s tlačeným originálom (teda aj s prípadnými preklepmi a chybami). V archíve sa získané texty uchovávajú v získanej podobe so základnou informáciou o ich pôvode, forme a obsahu.

Aby sa k nám texty dostali, museli sme podpísať licenčnú zmluvu s majiteľmi autorských práv, čo je niekedy veľmi prácna záležitosť. Texty prechádzajú nasledujúcimi fázami spracovania:

Odstránenie znakov a symbolov editorov a programov, v ktorých texty vznikli, a grafických súčastí (obrázky, tabuľky a pod.) sa texty prevedú do jednotného formátu, ktorý zaznamenáva štruktúrne vlastnosti textu. Ku každému dokumentu sa doplní vonkajšia (bibliografická a štýlovo-žánrová) anotácia.
V ďalšej fáze sa text rozdelený na základné jednotky (slová, interpunkcia, číslice, symboly) lingvisticky značkuje: textu sa pridajú informácie o jeho štruktúre, slovám sa pridajú morfologické informácie na úrovni slov (slovný druh/trieda, morfologické kategórie tvaru slova, základný tvar slova - lema), vetám jazykové informácie na úrovni viet a pod.
Takto spracované texty, ktoré majú od poskytovateľov licenciu na verejné využívanie, sa ako dáta sprístupňujú na internete na presne vymedzené vyhľadávanie (spravidla max. konkrétny tvar slova alebo slov: napr. slovenskými knižnicami - zobrazia sa všetky kontexty v rozsahu max. 100 znakov okolo vyhľadaného spojenia (tzv. konkrétnu morfologickú kategóriu pomocou značky - tagu: SSfp7 - zobrazia sa kontexty substantív [S] so substantívnou paradigmou [S] ženského rodu [f] v množnom čísle [p] v 7.

Prístup k SNK

Prístup k SNK je možný dvoma spôsobmi:

Jednoduché vyhľadávanie: Dostupné aj bez registrácie prostredníctvom webového rozhrania, ale s obmedzeným prístupom ku korpusom (prim-6.0-public-all, r-mak-3.0 a iné) a bez možnosti vytvárania podkorpusov.
Plný prístup: Vyžaduje registráciu prostredníctvom webového formulára. Po vyplnení a odoslaní formulára sa vygeneruje dokument "Podmienky používania SNK", ktorý je potrebné podpísať a doručiť poštou alebo osobne na adresu Jazykovedného ústavu Ľ. Štúra SAV, v. v. i.

Podmienky používania SNK

Pred začatím používania webového rozhrania je potrebné prečítať si a odsúhlasiť podmienky používania. Dôležité je citovať všetky údaje získané zo SNK (kontexty, frekvencie a iné údaje) podľa príslušnej verzie a časti SNK. Pri citovaní konkrétneho diela sa SNK uvádza ako hlavný zdroj spolu s bibliografickou citáciou daného textu.

Súhlas s podmienkami používania a záväzok korektného prístupu k dátam sa potvrdzuje vlastnoručným podpisom. Registrovaný používateľ sa zaväzuje, že sa nebude usilovať o znefunkčnenie infraštruktúry SNK a ani o neoprávnené získavanie dát nad rámec poskytovaného rozsahu.

Problémy s registráciou

Ak ste zaslali požadované údaje a prihlasovacie údaje vám doteraz neprišli, odporúča sa kontaktovať priamo Jazykovedný ústav Ľ. Štúra SAV, v. v. i.

Využitie SNK

SNK ponúka široké možnosti využitia pre rôzne účely:

Výskum jazyka: Analýza frekvencie slov, slovných spojení, gramatických konštrukcií a iných jazykových javov.
Lexikografia: Tvorba slovníkov a encyklopédií.
Didaktika: Výučba slovenského jazyka, tvorba učebníc a cvičebníc.
Prekladateľstvo: Hľadanie ekvivalentov v cieľovom jazyku, overovanie správnosti prekladu.
Štýlistika: Analýza štýlu rôznych textov, identifikácia charakteristických znakov autora.
Automatické spracovanie jazyka: Trénovanie algoritmov na rozpoznávanie a generovanie slovenského jazyka.

Na špeciálnejšie výskumy slúžia podkorpusy vytvorené z hlavného korpusu podľa príslušnosti textov k štýlom (publicistické texty, umelecké texty, odborné texty) a osobitný ručne morfologicky anotovaný korpus, na ktorom sa trénujú nástroje na automatizovanú anotáciu. Vyhľadané slová sa dajú usporadúvať podľa frekvencie, podľa spoluvýskytov s inými slovami a pod.

Frekvenčné zoznamy

SNK poskytuje frekvenčné zoznamy lem, tvarov slov a slovných druhov z dostupných korpusov. Tieto zoznamy sú užitočné pre identifikáciu najčastejšie používaných slov a gramatických konštrukcií v slovenskom jazyku.

Česko-Slovenský Paralelný Korpus

Aktuálne dáta slovensko-českého paralelného korpusu sú sprístupnené takto:

Nová verzia podkorpusu beletrie par-skcs-fic-5.0 bola sprístupnená 13. 12. 2018 v rozsahu takmer 31,5 mil. tokenov (15,72 mil. tokenov v slovenskej časti, 15,77 mil. tokenov v českej časti).
Celý korpus par-skcs-all-4.0, sprístupnený 25. 5. 2016 v rozsahu 418,5 mil. tokenov (209,2 mil. tokenov v slovenskej časti, 209,3 mil. tokenov v českej časti), ostáva k dispozícii v pôvodnej podobe.

Korpus par-skcs-all-4.0 sa skladá z dvoch častí: podkorpusu beletrie a podkorpusu voľne dostupných textov.

Podkorpus beletrie par-skcs-fic-4.0 (19 mil. tokenov), v ktorom sa nachádza aj populárno-vedecká literatúra, literatúra faktu a pod., obsahuje rovnaké texty ako vo verzii 3.0.
Podkorpus voľne dostupných textov z par-skcs-all-4.0 obsahuje prevažne preklady právnych textov a správ Európskej únie, počítačových a iných manuálov z tretieho jazyka (angličtiny).

Texty sa dajú stiahnuť tu.

Podkorpus par-skcs-fic-5.0 bol oproti predchádzajúcim verziám rozšírený o vyše 12 mil. tokenov a obsahuje 217 kníh, z toho 116 preložených zo slovenčiny do češtiny, 56 preložených z češtiny do slovenčiny, 3 napísané jedným autorom v slovenčine aj češtine (V. Zamarovský), 28 textov preložených do slovenčiny aj do češtiny z angličtiny, 14 textov preložených do slovenčiny aj do češtiny z iných jazykov.

Všetky texty sú automatizovane zarovnané po vetách. Slovenské texty sú morfologicky anotované tagermi Morče a MorphoDiTa natrénovanými v SNK na báze tagsetu vypracovaného v Slovenskom národnom korpuse, české texty sú anotované tagerom Morče a MorphoDiTa na báze tagsetu použitého v Českom národnom korpuse.

Vyhľadávanie v korpuse je možné viacerými spôsobmi:

Po zaregistrovaní sa v NoSketch Engine sa dá vyhľadávať v českej časti celej verzie 4.0, v slovenskej časti celej verzie 4.0, resp. v českej časti beletristických textov verzie 5.0, v slovenskej časti beletristických textov verzie 5.0; potrebné sú znalosti práce s NoSketch Engine a CQL.
V slovníkovom rozhraní, v ktorom sú dostupné príslušné prekladové ekvivalenty automaticky vybrané z textov v korpuse.
V predchádzajúcich verziách je ešte možné vyhľadávať v jednoduchom webovom rozhraní.

Verzia 4.0

Podkorpus par-skcs-fic-4.0 obsahoval rovnaké texty ako vo verzii 3.0.

Verzia 3.0

Korpus par-skcs-all-3.0 bol sprístupnený v januári 2014 v celkovom rozsahu 240 mil. tokenov (119,4 mil. tokenov v slovenskej časti, 119,53 mil. tokenov v českej časti).

Podkorpus beletrie par-skcs-fic-3.0 obsahoval cca 19 mil. tokenov (9,54 mil. tokenov v slovenskej časti, 9,56 mil. tokenov v českej časti).

Verzia 2.0

Celý par-skcs-2.0 z r. 2011 obsahoval 6 433 tisíc párov viet (približne 120 miliónov tokenov v každom jazyku).

Podkorpus beletrie v par-skcs-2.0 obsahoval 740 tisíc párov viet (približne 10 miliónov tokenov v každom jazyku).

Verzia 1.0

Korpus par-skcs-1.0 z r. 2010 obsahoval približne 735 000 párov viet (10 mil. tokenov v každom jazyku). Podkorpus voľne dostupných textov bol vytvorený s podporou grantu FP7-ICT-2009-5 Bringing Machine Translation for European Languages to the User - Enlarged European Union (EuroMatrixPlus-X).

Prehľad verzií Česko-Slovenského paralelného korpusu
Verzia	Dátum sprístupnenia	Celkový rozsah (tokeny)	Podkorpus beletrie (tokeny)
par-skcs-fic-5.0	13. 12. 2018	~31,5 mil.	~31,5 mil.
par-skcs-all-4.0	25. 5. 2016	418,5 mil.	19 mil.
par-skcs-all-3.0	Január 2014	240 mil.	19 mil.
par-skcs-2.0	2011	~240 mil.	~20 mil.
par-skcs-1.0	2010	~20 mil.	-

Porovnanie veľkosti verzií Česko-Slovenského paralelného korpusu

Vytvorené v spolupráci: Slovenský národný korpus, Jazykovedný ústav Ľ. Štúra SAV.

tags: #snk #korpus #cesko #slovensky