Jazykové korpusy pro hispanisty

Výhody práce s korpusy

  • Korpusy nabízejí velké množství autentického jazykového materiálu, který není zatížen žádnou předchozí interpretací, můžete ho tedy samostatně okomentovat.
  • Jazykový materiál, který z nich získáte, není omezen na idiolekt jediného mluvčího.
  • Práce s korpusy vám nabízí možnost vytvořit si na zkoumaný jev vlastní názor, nejste omezeni tím, co se říká v gramatikách.
  • Veškeré závěry, které nakonec v práci předložíte, budete moci opřít o konkrétní data.
  • Korpusy umožňují porovnat normu s reálným územ.
  • Na korpusu je možné zobrazit i typ textů, z nichž pocházejí výsledky, národnost autora i rok publikace – díky tomu můžete sledovat, zda je nějaký jev omezen např. na určitý styl nebo region, případně zda v současnosti tendence jeho užívání klesá, či stoupá.
  • Práce s korpusem vás učí analyzovat informace, třídit materiál, vybírat to podstatné a abstrahovat od toho nedůležitého.
  • Řada korpusů je dostupná zcela zdarma (někde je vyžadována jen předchozí registrace, kterou potvrdíte, že nebudete výsledky používat ke komerčním účelům).

Korpusy pro hispanisty

Existují korpusy jednojazyčné i vícejazyčné, které je možné využít pro kontrastivní studie (španělština – čeština, španělština – jiný románský jazyk, španělština – angličtina). Pokud byste se o nich chtěli dozvědět více, doporučujeme článek Lucie Chlumecké „Není korpus jako korpus: Korpusy v kontrastivní lingvistce a translatologii“ (http://cejsh.icm.edu.pl/cejsh/element/bwmeta1.element.desklight-455f2da7-c2c8-4903-acb2-e22273401cb3).

Podrobné informace o korpusech, inspiraci pro práci s nimi i praktické ukázky jsou hlavní náplní volitelného kurzu Úvod do románské korpusové lingvistiky (ASZRS0024), který se koná vždy v letním semestru. Pokud si kurz nemůžete z časových důvodů zapsat, je možné využít materiálů a prezentací, které jsou k dispozici v Moodle – http://dl1.cuni.cz/enrol/index.php?id=3523, pro hostovský přístup k materiálům je třeba použít heslo Corpora.

Studenti Hispanistiky většinou pracují s těmito korpusy:

 

CREA (= Corpus de Referencia del Español Actual)

Obecné informace: http://www.rae.es/recursos/banco-de-datos/crea

Přístup k vyhledávání: http://web.frl.es/CREA/

Referenční korpus vytvořený RAE, který zahrnuje texty z let 1975-2004.

Výhody:

  • Velikost korpusu
  • Vyrovnané žánrové zastoupení, korpus obsahuje beletrii, publicistiku i odborné texty, jeho součásti je i menší korpus orální
  • Rovnoměrné zastoupení Španělska a Hispánské Ameriky
  • Intuitivní ovládání, snadné vyhledávání, které zvládne i začátečník
  • Užívání je zcela zdarma

Nevýhody:

  • Nedokonalé vyhledávací nástroje (korpus nezvládne komplexní dotazy)
  • Horší práce s výsledky (neexistuje tu možnost např. zobrazit si frekvenci konkrétního tvaru nebo dokonce delší konstrukce, vše je třeba procházet ručně), statistiky výsledků, které korpus nabízí automaticky, jsou poměrně strohé (týkají se v zásadě jen typu textů a místa jejich vzniku)
  • Výsledky se déle načítají, práce tak může někdy být trochu zdlouhavá

 

CORPES XXI (= Corpus del Español del Siglo XXI)

Obecné informace: http://www.rae.es/recursos/banco-de-datos/corpes-xxi

Přístup k vyhledávání: http://web.frl.es/CORPES/

Referenční korpus vytvořený RAE, který zahrnuje texty od r. 2001.

Výhody:

  • Velikost korpusu
  • Vyrovnané žánrové zastoupení, korpus obsahuje beletrii, publicistiku i odborné texty, jeho součásti je i menší korpus orální
  • Rovnoměrné zastoupení Španělska a Hispánské Ameriky
  • Intuitivní ovládání, snadné vyhledávání, které zvládne i začátečník
  • Užívání je zcela zdarma

Nevýhody:

  • Nedokonalé vyhledávací nástroje (korpus nezvládne komplexní dotazy)
  • Horší práce s výsledky (neexistuje tu možnost např. zobrazit si frekvenci konkrétního tvaru nebo dokonce delší konstrukce, vše je třeba procházet ručně), statistiky výsledků, které korpus nabízí automaticky, jsou poměrně strohé (týkají se v zásadě jen typu textů a místa jejich vzniku)
  • Výsledky se déle načítají, práce tak může někdy být trochu zdlouhavá

 

CORDE  (= Corpus Diacrónico del Español)

Obecné informace: http://www.rae.es/recursos/banco-de-datos/corde

Přístup k vyhledávání: http://corpus.rae.es/cordenet.html

Diachronní korpus vytvořený RAE, který obsahuje starší texty (od těch úplně prvních až do r. 1975). Hodí se pro diachronní studie, kde se zkoumá užívání nějakého jazykového jevu v minulosti.

Výhody:

  • Jednoduché intuitivní ovládání
  • Užívání je zcela zdarma

Nevýhody:

  • Malé možnosti následné práce s výsledky a jejich statistického zpracování, vše je třeba procházet ručně

 

InterCorp

Obecné informace: http://wiki.korpus.cz/doku.php/cnk:intercorp

Přístup k vyhledávání: https://kontext.korpus.cz/

Paralelní korpus vytvořený Ústavem Českého národního korpusu, který obsahuje originály ve 38 jazycích a jejich překlady.

Výhody:

  • Korpus umožňuje porovnávání španělštiny s jiným jazykem, tzv. pivotním jazykem korpusu je čeština, takže zde nenajdete žádný text, který by postrádal český protějšek
  • Výborné vyhledávací nástroje, na korpusu můžete zadávat i velmi komplikované dotazy
  • Široká nabídka práce s výsledky, jejich třídění, statistického zpracování atd.
  • Přehledný česky psaný manuál, který vás provede funkcemi korpusu: http://wiki.korpus.cz/doku.php/kurz:uvod#zaklady_prace_s_korpusem_v_7_lekcich
  • Užívání je zcela zdarma (je nutná pouze předchozí registrace, při níž potvrdíte, že nebudete výsledky používat ke komerčním účelům).

Nevýhody:

  • Španělská část InterCorpu je pochopitelně menší než je tomu např. u korpusů od RAE, pokud vyhledávání omezíte jen na španělské originály, budete výrazně omezeni i žánrově, protože vám zůstanou jen romány španělských a hispanoamerických autorů
  • Ruku v ruce s lepšími vyhledávacími nástroji jde i menší intuitivnost v ovládání, je třeba projít si manuál, který vás naučí, jak vytvářet dotazy a jak pracovat s výsledky – jakmile se s ním však seznámíte, vytváření dotazů už jde relativně snadno a možnosti, které máte, jsou opravdu velice široké

Pravidla pro práci s InterCorpem

Studenti tento korpus nejčastěji využívají při porovnávání španělských konstrukcí a jejich českých překladů. Korpus je tedy ideální nástroj, pokud vás zajímá, jak se něco, co v češtině nemá přímý protějšek, překládá do češtiny. Při tomto typu analýz je však třeba mít na paměti jednu důležitou věc: není vhodné porovnávat společně španělský překlad např. z angličtiny a český překlad téhož textu také z angličtiny, je důležité omezit si vyhledávání pouze na španělské originály a jejich přímé české překlady (opačně, tedy české originály a jejich španělské překlady, to jde také, ale textů je v tomto případě méně a navíc je třeba si dát pozor, zda se jedná opravdu o přímé překlady – španělští překladatelé se někdy opírají např. o německé překlady, nikoli o původní český text).

Nejlepší je hned v začátku si stanovit, s jakými díly budete pracovat a vytvořit si subkorpus tvořený pouze jimi. Návod na jeho vytvoření naleznete zde.

Když už máte subkorpus vytvořený, můžete se pustit do práce. Všechny potřebné informace o korpusu, zadávání dotazů a práci s nimi, naleznete zde: http://wiki.korpus.cz/doku.php/kurz:uvod#zaklady_prace_s_korpusem_v_7_lekcich

 

Araneum Hispanicum Maius

Obecné informace: http://wiki.korpus.cz/doku.php/cnk:aranea

Přístup k vyhledávání: https://kontext.korpus.cz

Relativně nový korpus webových textů patřící do rodiny Aranea (srovnatelné webové korpusy pro různé jazyky).

Výhody:

  • Velikost korpusu.
  • Texty jsou opravdu z poslední let, jazyk je tedy aktuální. Pocházejí z webových stránek a blogů, jazyk se tedy hodně blíží jazyku mluvenému.
  • Výborné vyhledávací nástroje, na korpusu můžete zadávat i velmi komplikované dotazy.
  • Široká nabídka práce s výsledky, jejich třídění, statistického zpracování atd.
  • Přehledný česky psaný manuál, který vás provede funkcemi korpusu: http://wiki.korpus.cz/doku.php/kurz:uvod#zaklady_prace_s_korpusem_v_7_lekcich
  • Vyhledávací rozhraní i způsob zadávání a zpracovávání dotazů jsou stejné jako u InterCorpu, pokud tedy umíte pracovat s tímto korpusem, zvládnete bez potíží i Araneum (a naopak).

Nevýhody:

  • Žánrová omezenost (webové stránky a blogy), je třeba mít na paměti, že jazyk webu má svá specifika, často také není na příliš vysoké úrovni

 

 

 

Úvod > Španělština > Závěrečné práce > Téma práce – lingvistika > Jazykové korpusy pro hispanisty