Slovenský národný korpus: Vývoj a využitie v rokoch 2008-2012

Slovenský národný korpus (SNK) predstavuje rozsiahly a systematicky budovaný súbor textov v slovenskom jazyku. Konkrétne ide o databázu rozsiahleho množstva textov v slovenskom jazyku. Tieto texty sú starostlivo zbierané a usporiadané, aby poskytovali reprezentatívny obraz o používaní jazyka v rôznych kontextoch.

V rokoch 2008 až 2012 prešiel SNK významným vývojom, ktorý zahŕňal rozširovanie jeho rozsahu, skvalitňovanie anotácií a sprístupňovanie nových verzií a špecializovaných korpusov. Tento článok sa zameriava na kľúčové aspekty vývoja SNK v uvedenom období, jeho využitie a prínos pre slovakistiku a ďalšie oblasti.

Vývoj SNK v rokoch 2008-2012

Vývoj SNK v rokoch 2008-2012 bol spojený s viacerými projektmi a publikáciami, ktoré dokumentujú jeho využitie a prínos.

2008: Paralelný korpus, WordNet a zber hovorených dát

V roku 2008 sa SNK zameral na vybudovanie paralelného slovensko-českého a česko-slovenského korpusu. Cieľom bolo vytvoriť rozsiahly zdroj pre koncipovanie prekladového slovníka a realizáciu porovnávacích výskumov v rozsahu min. 5 mil. textových jednotiek pre potreby koncipovania prekladového slovníka a porovnávacích výskumov. Súčasťou tohto úsilia bolo aj vytvorenie nástrojov na zarovnávanie textov, automatizované označkovanie a efektívne využívanie dát.

Ďalším významným krokom bolo vytvorenie slovenského elektronického slovníka WordNet a jeho integrácia do projektu EuroWordNet, rozsiahleho sémantického slovníka pre viaceré európske jazyky. Paralelne prebiehal zber a prepis dát pre hovorený korpus.

Schéma vývoja Slovenského národného korpusu

2009: Frekvenčný a retrográdny slovník, terminologická databáza

Na báze korpusu písaných textov bol v roku 2009 vytvorený Frekvenčný slovník súčasnej slovenčiny a Retrográdny slovník súčasnej slovenčiny. Tieto slovníky predstavujú cenný zdroj informácií o frekvencii a štruktúre slov v slovenskom jazyku. Zároveň bola vytvorená prvá verzia Slovenskej terminologickej databázy. Pokračoval aj zber a prepis dát pre hovorený korpus.

2010: Rozšírenie korpusu a anotácie

V roku 2010 sa SNK rozširoval z hľadiska reprezentatívneho zastúpenia štýlov, žánrov a časových období. Dobudovanie Slovenského národného korpusu z hľadiska reprezentatívneho zastúpenia štýlov, žánrov a časových období - cca 100 mil. textových jednotiek vo verzii SNK2010 s morfologickou anotáciou celého korpusu a syntaktickou anotáciou vybraných textov.

2011: Nová verzia všeobecného korpusu a pilotný hovorený korpus

V roku 2011 bola sprístupnená nová verzia všeobecného korpusu písaných textov, ktorá obsahovala 600 mil. textových jednotiek. Dôležitým míľnikom bolo vybudovanie a sprístupnenie pilotného korpusu hovorených komunikátov v rozsahu cca 2 mil. textových jednotiek. Vybudovanie a sprístupnenie pilotného korpusu hovorených komunikátov v rozsahu cca 2 mil. textových jednotiek.

2012: Historický a paralelný korpus, príručka korpusovej lingvistiky

Rok 2012 priniesol koncepciu tvorby a anotácie historického korpusu v kooperácii s Oddelením dejín slovenčiny, onomastiky a etymológie JÚĽŠ SAV. Sprístupnená bola pilotná verzia historického korpusu. Vybudovanie a sprístupnenie paralelného slovensko-latinského korpusu. Sprístupnenie novej rozšírenej verzie Slovenského národného korpusu, webového korpusu slovenčiny a Slovenského hovoreného korpusu. Vydanie príručky korpusovej lingvistiky.

Štruktúra korpusov a citovanie zdrojov

Pri použití citácie z korpusových databáz alebo výsledkov hľadania z jednotlivých zdrojov SNK sa odkazuje na konkrétnu verziu a/alebo podkorpus SNK (prim-10.0-public-sane, s-hovor-7.0, r-mak-6.0, par-sken-all-4.0 a pod.). Všetky dostupné zdroje sú uvedené v časti Štruktúra korpusov, v ponuke korpusov vo vyhľadávacom programe NoSketchEngine, ako aj v osobitnom zozname verejne prístupných korpusov SNK.

Používanie a citovanie korpusových zdrojov má byť v súlade s ustanoveniami zákona č. 185/2015 Z. z. (Autorský zákon). Presné informácie o použitých korpusoch a podkorpusoch sú nevyhnutné aj preto, aby bolo vždy zrejmé, z akého druhu textov a z akého rozsahu dát pochádzajú získané údaje. Zápisy odkazov na ďalšie korpusy a podkorpusy príslušných verzií sa dajú analogicky odvodiť.

Príklady verzií a podkorpusov SNK:

  • Slovenský národný korpus - prim-8.0-public-all. Bratislava: Jazykovedný ústav Ľ. Štúra SAV 2018.
  • Slovenský národný korpus - prim-8.0-public-sane. Bratislava: Jazykovedný ústav Ľ. Štúra SAV 2018.
  • Slovenský národný korpus - prim-7.0-public-all. Bratislava: Jazykovedný ústav Ľ. Štúra SAV 2015.

Hovorený korpus

Aktuálna verzia s-hovor-7.0 v rozsahu 7 852 469 textových jednotiek je prístupná od 28. marca 2022 a obsahuje 869 nahrávok, čo je viac ako 851 hodín zvukových záznamov. Prvá verzia s-hovor bola sprístupnená 20. 12. 2008, verzia s-hovor-2.0 v januári 2010, verzia s-hovor-3.0 vo februári 2011, verzia s-hovor-4.0 v auguste 2012, verzia s-hovor-5.0 v apríli 2015, verzia s-hovor-6.0 v novembri 2017.

Od verzie s-hovor-6.0 sú používateľom k dispozícii značky používané v prepise v podobe štruktúrnych značiek a tiež možnosť vypočuť si príslušnú časť zvukového záznamu (turn.[ogg|spx|flac]) priamo vo vyhľadávacom nástroji NoSketch Engine. Od verzie s-hovor-4.0 sú k dispozícii aj dva subkorpusy: s-hovor-x-upn obsahuje len prepisy výpovedí pamätníkov z projektu Oral History Ústavu pamäti národa, s-hovor-x-sane obsahuje všetky ostatné nahrávky z primárneho hovoreného korpusu.

Štruktúra Slovenského hovoreného korpusu

Využitie SNK

SNK je rozsiahly zdroj jazykových dát, ktorý má široké využitie v rôznych oblastiach:

  • Lexikografia: SNK sa využíva pri tvorbe slovníkov, ako Slovník súčasného slovenského jazyka, a pri analýze slovnej zásoby. Príprava slovesnej časti Slovníka spájateľnosti v slovenčine. Finálna podoba Retrográdneho slovníka súčasnej slovenčiny.
  • Gramatika: Korpusové dáta umožňujú skúmať gramatické javy, ako skloňovanie podstatných mien a slovies, a tvoriť gramatické príručky. Tvorba a vydanie gramatických príručiek s plnými paradigmami podstatných mien a slovies (pre školu a prax, ako aj pre cudzincov učiacich sa po slovensky).
  • Štylistika: SNK umožňuje analyzovať jazykové štýly a žánre, identifikovať jazykové stereotypy a skúmať dynamiku jazyka.
  • Sociolingvistika: Hovorený korpus poskytuje cenné dáta pre výskum hovorenej slovenčiny, nárečí a sociálnych variet jazyka.
  • Terminológia: SNK sa využíva pri tvorbe a dopĺňaní terminologických databáz pre rôzne vedné odbory. Zhromažďovanie a spracúvanie odborných textov pre databázu termínov vybraných vedných odborov, dopĺňanie Slovenskej terminologickej databázy. Sprístupnenie rozšírenej verzie Slovenskej terminologickej databázy.
  • Preklad: Paralelné korpusy sú neoceniteľným zdrojom pre prekladateľov a prekladateľský výskum. Vybudovanie a sprístupnenie paralelného slovensko-nemeckého a slovensko-maďarského korpusu.
  • Výučba jazykov: SNK je užitočný nástroj pre učiteľov slovenského jazyka a cudzích jazykov, ktorí môžu využívať korpusové dáta pri príprave vyučovacích materiálov a úloh. Publikácia umožňuje predstaviť možnosti využitia korpusov v školskej praxi pri príprave konkrétnych úloh alebo ukážok preberaného učiva.
  • Počítačové spracovanie jazyka: SNK slúži ako tréningový a testovací materiál pre vývoj nástrojov na automatizované spracúvanie slovenčiny, ako sú analyzátory, generátory a lematizátory.
  • Jazykovedný výskum: Korpus umožňuje skúmať jazykové javy, ako sú frekvencia slov, gramatické štruktúry, štylistické vlastnosti a zmeny v jazyku.
  • Výučba slovenčiny: SNK je cenným zdrojom pre učiteľov slovenského jazyka ako materinského i cudzieho jazyka. Umožňuje im pripravovať autentické materiály a ilustrovať rôzne jazykové javy na reálnych príkladoch. Publikácia umožňuje predstaviť možnosti využitia korpusov v školskej praxi pri príprave konkrétnych úloh alebo ukážok preberaného učiva.
  • Počítačové spracovanie prirodzeného jazyka: SNK sa využíva na trénovanie a testovanie algoritmov pre automatickú analýzu textu, strojový preklad a iné aplikácie.
  • Prekladateľstvo: Paralelné korpusy pomáhajú prekladateľom nájsť vhodné ekvivalenty pre slová a frázy v rôznych jazykoch.
  • Štúdium jazyka: SNK je užitočný pre študentov, ktorí sa chcú zlepšiť v slovenskom jazyku a získať hlbšie porozumenie jeho štruktúry a používania.

Prístup ku Slovenskému národnému korpusu

Slovenský národný korpus je online dostupný odborníkom aj širokej verejnosti na vyhľadávanie jazykových informácií od roku 2002. Používatelia môžu vyhľadávať v korpuse pomocou rôznych kritérií, ako sú slová, frázy, gramatické kategórie a kontext. Na ich tvorbu sa vyvíjajú vlastné alebo sa využívajú existujúce počítačové nástroje. Tvorbou, skvalitňovaním, spravovaním a sprístupňovaním uvedených zdrojov je poverený kolektív Slovenského národného korpusu Jazykovedného ústavu Ľ. Štúra SAV aktuálne na základe Zmluvy o združení prostriedkov na tvorbu a rozvoj Slovenského národného korpusu (č. 0323/2017) uzavretej medzi Ministerstvom školstva, vedy, výskumu a športu SR, Ministerstvom kultúry SR, SAV, JÚĽŠ SAV.

Publikácie o Slovenskom národnom korpuse

K dispozícii je učebnica "Slovenský národný korpus Používanie, príklady, postupy" (kolektív autorov), ktorá naväzuje na publikáciu "Slovenský národný korpus Texty, anotácie, vyhľadávania". Táto učebnica je určená lingvistom, učiteľom slovenského jazyka a cudzích jazykov na všetkých stupňoch škôl, prekladateľom, študentom a všetkým záujemcom o korpusové a jazykové databázy. Rámcovým cieľom autorov je predstavenie čo najviac spôsobov vyhľadávania v istej postupnosti aj podľa poznaných potrieb a daností doterajších používateľov a zároveň poukázať na pestrosť jazyka a jeho dynamiku. Publikácia umožňuje predstaviť možnosti využitia korpusov v školskej praxi pri príprave konkrétnych úloh alebo ukážok preberaného učiva.

Otázky a odpovede o slovenskom jazyku (s využitím SNK)

Slovenský národný korpus môže pomôcť nájsť odpovede na rôzne otázky týkajúce sa slovenského jazyka. Napríklad:

  • Ktoré slovo v slovenčine je najdlhšie? (SNK umožňuje vyhľadať a porovnať dĺžku slov.)
  • Ktoré slovo začína na hlásku é? (SNK umožňuje vyhľadávanie slov podľa začiatočnej hlásky.)
  • Ako prenikajú anglické slová do slovenčiny? (SNK umožňuje sledovať frekvenciu a kontext používania anglických slov v slovenských textoch.)
  • Aké zmeny v slovnej zásobe nastali v posledných desaťročiach? (SNK umožňuje porovnávať slovnú zásobu v rôznych obdobiach.)
  • Je slovenčina mäkká a ľubozvučná? (Hoci táto otázka je subjektívna, SNK umožňuje analyzovať fonetické vlastnosti slov a posúdiť ich zvuk.)
  • Nezrušíme konečne ypsilon? (SNK môže poskytnúť informácie o frekvencii používania písmena y a argumenty pre a proti jeho zrušeniu.)

tags: #slovensky #hovoreny #korpus #2008 #2012