Objavte Tajomstvá Korpusu Slovenského Jazyka: Kľúč k Perfektnému Slovenskému Textu!

Korpus textov predstavuje špecifický súbor jazykových dát, ktorý sa buduje v elektronickej podobe. Jeho základom sú texty zvyčajne rôznych štýlov a žánrov, ku ktorým sa pridávajú lingvistické informácie na úrovni slova (textovej jednotky), vety aj celého textu. Výkonné vyhľadávacie nástroje umožňujú vyhľadávanie a triedenie skúmaných jazykových prostriedkov a informácií. Lingvisti na základe autentického jazykového materiálu opisujú významy a funkcie slov i ďalších jazykových javov, ich štatistiky, spájateľnosti a pod. Bežným používateľom jazyka môže korpus poslúžiť ako zdroj praktického poznania systému jazyka a overenia či doplnenia jednotlivých poznatkov o reálnom fungovaní jazykových prostriedkov v praxi.

Korpus nie je elektronickou knižnicou (texty v ňom sa nedajú čítať ako jeden celok), ani nenahrádza kodifikačné či gramatické príručky. Lingvisti na základe autentického jazykového materiálu opisujú predovšetkým významy a funkcie slov i ďalších jazykových prostriedkov. Odbor lingvistiky, ktorého predmetom sú jazykové fenomény zisťované na základe korpusov, teda na príklade veľkého množstva reálnych textov, v ktorých sa slová a jazykové javy nachádzajú v prirodzených kontextoch.

Korpus ako reprezentatívny súbor textov a komunikátov daného jazyka je známy v lingvistike už dávno, ale úplne novú kvalitu a možnosti nadobudol až vďaka príchodu počítačov, pretože súbor textov mohol byť uložený na pamäťové médiá a spracúvaný pomocou programových nástrojov. Prvý takýto korpus elektronických textov (obsahujúci v súhrne jeden milión textových slov, tzv. tokens) bol vytvorený začiatkom šesťdesiatych rokov na Brownovej univerzite v USA. Posledných 15 rokov pozorujeme výrazný rast počtu korpusov národných jazykov so súčasným zväčšovaním ich objemu (dosahujúceho stovky miliónov textových slov).

Tento trend je spôsobený nielen relatívnou dostupnosťou výkonnej výpočtovej techniky a elektronicky uložených textov, ale najmä presadením sa názoru, že opisy jazyka v podobe slovníkov a gramatík musia vychádzať z čo najväčšieho množstva objektívnym spôsobom zhromaždeného materiálu.

Korpus je teda rozsiahly súbor elektronicky zapísaných textov pochádzajúcich od rôznych autorov, z rôznych médií (kníh, periodík, reklamných a informačných tlačovín, záznamov hovorených prejavov, internetu a pod.), z rozličných komunikačných tematických a žánrových oblastí (napr. historický román, humoristická poviedka, odborný článok o leteckej doprave, technická norma, text zákona, text zápisnice, záznam diskusie a pod.). Vzájomný pomer týchto textov je vopred určený na základe výskumov a mal by predstavovať reprezentatívnu vzorku určitého jazyka použiteľnú na základný a aplikovaný jazykovedný výskum.

Získavanie a spracovanie korpusových dát

Korpusový materiál sa v súčasnosti získava najčastejšie priamo v elektronickej podobe, príp. Spracovanie korpusových dát. V prvej fáze ide najmä o čistenie textov, teda odstraňovanie znakov a symbolov editorov a programov, v ktorých texty vznikli, odstraňovanie grafických súčastí textu (obrázky, tabuľky, grafy a pod.), a o prevod textov do jednotného formátu, ktorý zaznamenáva štruktúrne vlastnosti textu. Súčasťou prevodu textov do jednotného formátu je tokenizácia, čiže segmentácia textu na najmenšie jednotky (tvary slov a iné znaky v texte). V ďalšej fáze sa tokenizovaný text zvyčajne značkuje (tagging) - textu sa pridajú ďalšie dodatočné informácie, ako sú bibliografické údaje o príslušnom texte, informácie o štruktúre textu, jazykové informácie na úrovni slov (napr. slovný druh, základný tvar slova - lema) alebo na úrovni viet (funkcia vo vete, sémantika) a pod.

Texty zaraďované do korpusu prichádzajú z viacerých kanálov: prepisovaním do počítača, skenovaním, sťahovaním z internetu, získaním kópie z elektronickej sadzby. Texty získané z elektronickej sadzby kníh, časopisov a novín treba viacstupňovo čistiť. To znamená, že získané texty sa konvertujú do podoby čistého textu: odstraňujú sa obrázky a iné grafické prvky, riadiace kódy použitých textových editorov a kódovanie písmen sa transformuje do jednotnej kódovej tabuľky. Po vyčistení sa texty prevedú do jednotného formátu SGML (Standard Generalized Markup Language), čo je medzinárodne štandardizovaný spôsob označovania elektronicky uložených textov.

Jednou z dôležitých vlastností korpusov je ich reprezentatívnosť. Získavanie súhlasov na iné použitie diel.

Ilustrácia zobrazujúca rôzne zdroje textov pre korpus

Typy a vlastnosti korpusov

Korpusy môžu byť uložené v základnej textovej podobe bez lingvistických informácií alebo bývajú lematizované (každé slovo má priradený základný, slovníkový tvar) a morfologicky, syntakticky, príp. obdobím, z ktorého texty pochádzajú. Jednojazyčné korpusy - v súčasnosti existujú korpusy pre desiatky rôznych jazykov (národné korpusy).

Písané korpusy

Do korpusov písaných textov sa zaraďujú elektronicky spracované texty podľa typu zamerania korpusu. Hlavný korpus, označený ako prim, obsahuje písané texty súčasného slovenského jazyka z rôznych štýlov, žánrov, vecných oblastí, regiónov a pod., ktoré vznikli po roku 1955. Nevyhnutnou podmienkou zaradenia textu do korpusu je získanie súhlasu jeho autora alebo držiteľa autorských práv, ktorý je zakotvený v licenčnej zmluve. Rovnako to platí aj o špecializovaných korpusoch (napr. o korpuse ekonomických textov), nie však o korpusoch obsahujúcich texty právnych predpisov, úradných či súdnych rozhodnutí, keďže na ne sa slovenský autorský zákon nevzťahuje.

Špecializované korpusy

Okrem hlavného korpusu existujú aj špecializované korpusy:

Nárečový korpus: Zaraďujú sa doň existujúce, predovšetkým už publikované textové prepisy nárečových zvukových alebo transkribovaných záznamov v elektronickom formáte.
Historické korpusy: Obsahujú texty v slovenskom jazyku, ktoré vznikli pred rokom 1955.
Webový korpus: Obsahuje slovenské texty dostupné na webovej stránke.
Paralelné korpusy: Každý paralelný korpus obsahuje identické texty v dvoch rôznych jazykoch.

Hovorené korpusy

Hovorený korpus pozostáva zo zvukových nahrávok prepojených s príslušným prepisom zaznamenaných prehovorov. Pri prepisoch je vždy uvedená sociolingvistická informácia o respondentoch a základné informácie o pôvode a obsahu nahrávky. Tieto nahrávky buď vytvorili pracovníci Slovenského národného korpusu priamo „v teréne“, alebo ich do projektu SNK poskytli zo svojich archívov viaceré inštitúcie. Okrem základného prepisu výpovedí sa v druhej, tzv. výslovnostnej rovine, zachytávajú sprievodné, neverbálne javy, ale aj prekrývajúce sa, nedokončené či opakujúce sa výpovede alebo ich časti, lapsusy a pod.

Slovenský národný korpus (SNK)

Slovenský národný korpus je vedecko-výskumný projekt budovania elektronického korpusu textov, v prvej fáze so zameraním na písané texty súčasného slovenského jazyka (1955 - 2005). V druhej a tretej fáze sa rozšíril o texty z ďalších období (spred roka 1955 až do začiatkov spisovného obdobia a do predspisovného obdobia, ako aj po roku 2005) a sfér používania slovenského jazyka (hovorená slovenčina, podľa možností výberovo aj dialekty). Náplňou štvrtej fázy bolo vydanie kolokačných a frekvenčných slovníkov, dobudovanie špecializovaných korpusov, napríklad korpusu nárečí, historického korpusu slovenčiny či sprístupňovanie nových verzií vybraných korpusov. V súčasnosti prebieha už piata fáza budovania korpusových databáz, ktorá sa zameriava na rozširovanie a skvalitňovanie zdrojov Slovenského národného korpusu prostredníctvom prípravy a sprístupnenia nových verzií korpusov, a to predovšetkým novej verzie hlavného korpusu písaných textov, korpusu pomenovaných entít, webového korpusu, vybraných paralelných korpusov či akvizičného korpusu.

V Jazykovednom ústave Ľ. Štúra Slovenskej akadémie vied, kde sa SNK začal v r. 2002 budovať s podporou Ministerstva kultúry SR a Ministerstva školstva, vedy, výskumu a športu SR, sa tak systematicky a komplexne spracúva slovenský jazyk a realizuje sa elektronizácia jazykovedného výskumu na Slovensku. Vláda Slovenskej republiky schválila 13. 2. 2002 uznesením č. 137 projekt vybudovania Národného korpusu slovenského jazyka a elektronizácie jazykovedného výskumu. Predmetom navrhovaného projektu je vybudovať pracovisko Národného korpusu slovenského jazyka a organizačne, materiálno-technicky a personálne ho zabezpečiť v rokoch 2002 - 2006. Národný korpus by mal byť svojím poslaním celonárodnou inštitúciou, ktorá by prostredníctvom internetu slúžila celej kultúrnej verejnosti Slovenskej republiky.

Využitie korpusov v lingvistike a iných oblastiach

Na základe analýzy korpusových textov môže byť overená väčšina lingvistických teórií a môžu vzniknúť aj nové hypotézy a teórie. Niektoré výsledky zo spracovania korpusov, ako sú zoznamy slov, spoločné umiestnenia slov (kolokácie), frekvencia slov atď., sa používajú aj v nelingvistických aplikáciách. Sem patria napr. Korpus môže byť dobrým zdrojom fráz a viet potrebných pri výučbe cudzích jazykov.

Výkonné vyhľadávacie nástroje umožňujú vyhľadávanie a triedenie skúmaných jazykových prostriedkov a informácií. Lingvisti na základe autentického jazykového materiálu opisujú významy a funkcie slov i ďalších jazykových javov, ich štatistiky, spájateľnosti a pod. Bežným používateľom jazyka môže korpus poslúžiť ako zdroj praktického poznania systému jazyka a overenia či doplnenia jednotlivých poznatkov o reálnom fungovaní jazykových prostriedkov v praxi.

Korpus má viacero dimenzií:

je prirodzenou súčasťou základného a aplikovaného jazykovedného výskumu;
hrá dôležitú úlohu vo vývoji informačných technológií;
má status kultúrneho fenoménu, pretože predstavuje pokladnicu jednej z najdôležitejších zložiek kultúrneho dedičstva národného jazyka.

Tvorba a využívanie textových korpusov, počítačových slovníkov, lexikálnych a terminologických databáz tvorí oblasť počítačovej lingvistiky nazývanej jazykové zdroje. Jazykové zdroje sa využívajú ako jazykové a jazykovedné dáta prístupné v rozličných formátoch (napr. v podobe slovníkového hesla, frekvenčného zoznamu rozličných slovných tvarov vyskytujúcich sa v korpuse, veľmi často v podobe konkordancie hľadaného slova.

Spomínané nástroje jazykovej analýzy tvoria nielen počítačovú podporu základného jazykovedného výskumu, ale často sú komponentom komplexnejších programových produktov, ktoré nazývame jazykové technológie, a využívajú sa tak v aplikovanej jazykovede (lexikografia, preklad a výučba jazykov), ako aj v iných odvetviach spoločenskej praxe.

Ide o také produkty, ako používateľské rozhrania, systémy vyhľadávania metódou úplného textu (celotextové vyhľadávanie), programy na syntézu a analýzu rečového signálu, na generovanie administratívnych dokumentov, na automatické indexovanie a rešeršovanie, systémy počítačovej podpory prekladu, korektory pravopisu a štýlu, interaktívne jazykové učebnice a slovníky a pod. Jazykové technológie teda pokrývajú širokú škálu činností, ktorých cieľom je umožniť ľuďom extrahovať čo najviac informácií z jestvujúcich textov a použiť pri komunikácii s počítačom prirodzené jazykové zručnosti a návyky.

V našom informačnom veku hrajú jazykové technológie kľúčovú úlohu. Počet tých, ktorí získavajú informácie prostredníctvom počítačových sietí, je obmedzený najmä dvoma faktormi: prístupom k počítačom a rozsahom počítačovej gramotnosti. Pretože dôležitosť interaktívnych sietí rastie tak v oblasti obchodu ako aj v bežnom živote, stáva sa absencia počítačových zručností pre mnohých ľudí vážnym handicapom. Práve pokrok v oblasti jazykových technológií ponúka prakticky univerzálny prístup k službám a informáciám poskytovaným cez sieť.

Elektronické jazykové a textové zdroje Slovenského národného korpusu, ktoré sa budujú a rozvíjajú v Jazykovednom ústave Ľ. Štúra SAV už takmer dve desaťročia (od roku 2002), slúžia mnohým záujemcom o poznanie a používanie slovenského jazyka.

tags: #korpus #slovenskeho #jazyka #vyznam