Korpusová lingvistika: Hlboký pohľad do štruktúry a využitia jazyka

V súčasnom svete, kde je informácia kľúčová, sa jazykové korpusy stávajú neoceniteľným nástrojom pre lingvistický výskum a vývoj technologických aplikácií. Ale čo presne je korpusová lingvistika a aký je jej význam?

Obecne sa slovo korpus používa vo význame telo, teleso alebo súbor. Jazykový korpus je rozsiahly, vnútorne štruktúrovaný a ucelený súbor textov daného jazyka, ktorý je elektronicky spracovaný a uložený. Je to súbor elektronických textov, cielene zhromaždený ako referenčný zdroj pre vedecké štúdium jazyka a pre spracovanie úžitkových jazykových nástrojov, ktorý je v jednotnom formáte, je lingvisticky označený a ktorý možno z hľadiska skladby považovať za istým spôsobom vyvážený.

Lingvisti na základe autentického jazykového materiálu opisujú predovšetkým významy a funkcie slov i ďalších jazykových prostriedkov. Jazyková analýza: Korpus slúži ako bohatý zdroj lingvistickej analýzy, ktorý pomáha vyhľadávačom pochopiť jazykové vzorce, sémantické vzťahy a kontextové použitie. Trénovanie jazykových modelov: Vyhľadávače často používajú na spracovanie prirodzeného jazyka modely strojového učenia. Porozumenie dopytu: Analýzou rôznorodých korpusov môžu vyhľadávače lepšie porozumieť nuansám používateľských dotazov.

Korpusová lingvistika ako odbor lingvistiky, ktorého predmetom sú jazykové fenomény zisťované na základe korpusov, teda na príklade veľkého množstva reálnych textov, v ktorých sa slová a jazykové javy nachádzajú v prirodzených kontextoch. Na základe analýzy korpusových textov môže byť overená väčšina lingvistických teórií a môžu vzniknúť aj nové hypotézy a teórie. Niektoré výsledky zo spracovania korpusov, ako sú zoznamy slov, spoločné umiestnenia slov (kolokácie), frekvencia slov atď., sa používajú aj v nelingvistických aplikáciách. Sem patria napr. Korpus môže byť dobrým zdrojom fráz a viet potrebných pri výučbe cudzích jazykov.

Počiatkom 60. rokov minulého storočia začala vznikať korpusová lingvistika. V tom istom čase začal na Brown University v USA pod vedením H. Kučeru a N. Francisa vznikať prvý počítačový korpus súčasnej americkej angličtiny - Computational Analysis of Present-Day American English. Tento korpus, ktorý vznikal v rokoch 1963-1964, obsahuje texty z roku 1961 vo snahe zachytiť jazyk v určitom období. Celkový rozsah bol okolo jedného milióna slov.

Brown Corpus veľmi ovplyvnil ďalšie generácie lingvistov a je svojim rozvrhnutím vzorom mnohých ďalších korpusov. V 80. rokoch vznikol The Freiburg-LOB corpus of American English (Frown), ktorý bol obdobou korpusu Brown. Vznikol na Freiburskej univerzite v Nemecku. Mal úplne rovnakú štruktúru a snažil sa zachytiť britskú angličtinu z roku 1991.

Britský národný korpus (British National Corpus, BNC) je korpus, ktorý vznikal v spolupráci troch nakladateľov, dvoch univerzít a britskej národnej knižnice v rokoch 1991-1994, pričom zverejnený bol v roku 1994. Jedná sa o korpus so 100 miliónmi slov a rozvetvenou štruktúrou. Tento korpus je vyvážený, zahŕňa ako časopisy, noviny, tak odbornú literatúru i beletriu. V korpuse nájdeme vzorky jednotlivých textov, od jedného autora maximálne 45 tisíc slov. Zachytáva britskú angličtinu (z rokov, v ktorých vznikal, teda 1991-1994) a okrem písaných textov v ňom nájdeme aj hovorenú angličtinu v pomere 9 : 1 (písaná : hovorená).

štruktúra jazykového korpusu

Typy jazykových korpusov

Zdrojem korpusových dat je jak jazyk psaný, tak i mluvený. Dosavadní korpusy bývají v poměru 9:1, protože záznam mluveného jazyka a jeho převod do počítačově čitelné podoby je zatím velmi nákladný. Nejzákladnější dělení je na korpusy psaného nebo mluveného jazyka.

Podľa ďalšieho kritéria rozlišujeme tiež korpusy jednojazyčné a viacjazyčné. Jednojazyčné korpusy - v súčasnosti existujú korpusy pre desiatky rôznych jazykov (národné korpusy). Synchronné korpusy sú budované ako reprezentatívne a vyvážené odtlačky jazyka v určitom relatívne krátkom časovom období, počas ktorého možno považovať jazyk za nemenný systém. Väčšinou sa jedná o korpusy súčasného jazyka.

Písané korpusy

  • Hlavný korpus (prim): Obsahuje písané texty súčasného slovenského jazyka z rôznych štýlov, žánrov, vecných oblastí, regiónov a pod., ktoré vznikli po roku 1955. Nevyhnutnou podmienkou zaradenia textu do korpusu je získanie súhlasu jeho autora alebo držiteľa autorských práv.
  • Špecializované korpusy: Napríklad korpus ekonomických textov.
  • Nárečový korpus: Zahŕňa existujúce, predovšetkým už publikované textové prepisy nárečových zvukových alebo transkribovaných záznamov v elektronickom formáte.
  • Historické korpusy: Obsahujú texty v slovenskom jazyku, ktoré vznikli pred rokom 1955.
  • Webový korpus: Obsahuje slovenské texty dostupné na webovej stránke, ktoré boli v jednotlivých rokoch automaticky stiahnuté a následne spracované.

Hovorené korpusy

Hovorený korpus pozostáva zo zvukových nahrávok prepojených s príslušným prepisom zaznamenaných prehovorov. Pri prepisoch je vždy uvedená sociolingvistická informácia o respondentoch a základné informácie o pôvode a obsahu nahrávky. Okrem základného prepisu výpovedí sa v druhej, tzv. výslovnostnej rovine, zachytávajú sprievodné, neverbálne javy, ale aj prekrývajúce sa, nedokončené či opakujúce sa výpovede alebo ich časti, lapsusy a pod.

Viacjazyčné korpusy

  • Paralelné korpusy: Každý paralelný korpus obsahuje identické texty v dvoch rôznych jazykoch, pričom môže ísť o vzájomné preklady, alebo preklady z tretieho jazyka. Texty v paralelných korpusoch SNK sú spárované na úrovni viet.
mapa slovenských nárečových korpusov

Správcovia a nástroje

V Českej republike sa budovaním korpusov českého jazyka zaoberá od roku 1994 Ústav Českého národného korpusu (ÚČNK) pri Filozofickej fakulte UK, ktorý založil lingvista František Čermák. Český národný korpus je akademický projekt založený v roku 1994 pri FF UK a spravovaný Ústavom lingvistiky. Jeho cieľom je systematicky mapovať češtinu a ďalšie jazyky v porovnaní s ňou.

Aplikácia KonText je základným nástrojom pre prácu s korpusmi. Umožňuje vyhľadávanie v korpusoch pomocou jednoduchých i komplexných dotazov, zobrazenie formou konkordančných riadkov, vypočítanie frekvenčnej distribúcie, asociačných mier kolokácií a ďalšiu prácu s jazykovými dátami.

Nástroj SyD je určený pre všestranný prieskum variantov ako v súčasnom jazyku, tak v priebehu jeho vývoja. Využíva korpusy ČNK, s ktorých pomocou zisťuje, ako často sa ktorá varianta užíva v súčasnosti a užívala v priebehu vývoja češtiny.

Nástroj Morfio slúži na vyhľadávanie slovotvorných vzťahov medzi jednotkami v korpusoch, napr. loviť - úlovek. Umožňuje nájsť všetky dvojice slov tvorené rovnakým spôsobom a vyhodnotiť morfologickú produktivitu ich tvorenia.

Aplikácia KWords poskytuje základné východisko pre empiricky podloženú interpretáciu textov tým, že analyzuje slová v zadanom texte a porovnáva ich frekvenciu s referenčným korpusom. Výsledkom takejto analýzy je identifikácia kľúčových slov, tj. slová, ktoré sú pre daný text špecifické.

Internetová príručka ČNK vo forme wiki predstavuje komplexnú bázu znalostí pre prácu s korpusmi. Pre registrovaných užívateľov je k dispozícii centrum podpory. Biblio je repozitár vedeckých publikácií a kvalifikačných prác, ktoré sú založené na zdrojoch ČNK. Repozitár je prístupný všetkým návštevníkom tohto portálu a slúži ako neustále dopĺňaná bibliografia korpusovej lingvistiky.

Zber a spracovanie korpusových dát

Korpusový materiál sa získava najčastejšie priamo v elektronickej podobe, prípadne technickým spracovaním vydaného tlačeného diela. Následne prebiehajú technické fázy, napríklad odstraňovanie znakov a symbolov editačných softvérov alebo grafických súčastí textu, konverzia do jednotného formátu, segmentácia textu na najmenšie jednotky atď.

Takto segmentovaný text sa môže ďalej značkovať podľa typu korpusu - pridajú sa dodatočné informácie, ako sú bibliografické údaje, informácie o štruktúre textu, jazykové informácie na úrovni slov (napr. slovný druh, základný tvar slova - lema) alebo na úrovni viet (funkcia vo vete, sémantika) a pod.

Jednou z dôležitých vlastností korpusov je ich reprezentatívnosť. Veľkosťou, typom textov, spôsobom uloženia. Korpusy môžu byť uložené v základnej textovej podobe bez lingvistických informácií alebo bývajú lematizované (každé slovo má priradený základný, slovníkový tvar) a morfologicky, syntakticky, príp. obdobím, z ktorého texty pochádzajú.

vizualizácia dát z korpusu

Význam korpusovej lingvistiky

Korpusy slúžia jednak pre lingvistický výskum jazykovej praxe, jednak ako dátová základňa pre tvorbu slovníkov, korektorov, prekladačov apod. Korpusy slúžia najmä ako lexikologický a lexikografický nástroj a stávajú sa mj. zdrojom pre spracovanie jednojazyčných výkladových slovníkov a automatických korektorov alebo viacjazyčných prekladových slovníkov a automatických prekladačov.

V kontexte jazyka a vyhľadávania informácií sa korpusom rozumie štruktúrovaná zbierka textov, ktorá sa často používa na lingvistickú analýzu, modelovanie jazyka a strojové učenie. Jazyková analýza, ktorú korpusy uľahčujú, prispieva k neustálemu zlepšovaniu vyhľadávacích algoritmov, zvyšovaniu relevancie a celkovo lepšiemu používateľskému zážitku z vyhľadávania.

Porozumenie dopytu: Tréningom na základe korpusu môžu vyhľadávače lepšie porozumieť dotazom používateľov vrátane synonym, súvisiacich výrazov a kontextu. Sémantické vyhľadávanie: Korpusy prispievajú k rozvoju možností sémantického vyhľadávania. Korpus slúži ako základný súbor údajov na trénovanie jazykových modelov, čo umožňuje vyhľadávačom pochopiť a interpretovať požiadavky používateľov s vysokou presnosťou.

Zber: Korpusy používané vo vyhľadávačoch sú starostlivo zostavené zbierky rôznych textov vrátane webových stránok, článkov a iného textového obsahu. Anotácia: Niektoré korpusy sú anotované jazykovými informáciami, ako sú značky častí reči, značky entít a sémantické anotácie. Indexovanie: Korpus sa indexuje, čím sa vytvorí databáza s možnosťou vyhľadávania, ktorá priraďuje slová alebo frázy k ich umiestneniu v textoch.

graf frekvencie slov v korpuse

tags: #ako #vyzera #korpus #lingvisticky