Výhody práce s korpusy
- Korpusy nabízejí velké množství autentického jazykového materiálu, který není zatížen žádnou předchozí interpretací, můžete ho tedy samostatně okomentovat.
- Jazykový materiál, který z nich získáte, není omezen na idiolekt jediného mluvčího.
- Práce s korpusy vám nabízí možnost vytvořit si na zkoumaný jev vlastní názor, nejste omezeni tím, co se říká v gramatikách.
- Veškeré závěry, které nakonec v práci předložíte, budete moci opřít o konkrétní data.
- Korpusy umožňují porovnat normu s reálným územ.
- Na korpusu je možné zobrazit i typ textů, z nichž pocházejí výsledky, národnost autora i rok publikace – díky tomu můžete sledovat, zda je nějaký jev omezen např. na určitý styl nebo region, případně zda v současnosti tendence jeho užívání klesá, či stoupá.
- Práce s korpusem vás učí analyzovat informace, třídit materiál, vybírat to podstatné a abstrahovat od toho nedůležitého.
- Řada korpusů je dostupná zcela zdarma (někde je vyžadována jen předchozí registrace, kterou potvrdíte, že nebudete výsledky používat ke komerčním účelům).
Korpusy pro hispanisty
Existují korpusy jednojazyčné i vícejazyčné, které je možné využít pro kontrastivní studie (španělština – čeština, španělština – jiný románský jazyk, španělština – angličtina). Pokud byste se o nich chtěli dozvědět více, doporučujeme článek Lucie Chlumecké „Není korpus jako korpus: Korpusy v kontrastivní lingvistce a translatologii“ (http://cejsh.icm.edu.pl/cejsh/element/bwmeta1.element.desklight-455f2da7-c2c8-4903-acb2-e22273401cb3).
Podrobné informace o korpusech, inspiraci pro práci s nimi i praktické ukázky jsou hlavní náplní volitelného kurzu Úvod do románské korpusové lingvistiky (ASZRS0024), který se koná vždy v letním semestru. Pokud si kurz nemůžete z časových důvodů zapsat, je možné využít materiálů a prezentací, které jsou k dispozici v Moodle – http://dl1.cuni.cz/enrol/index.php?id=3523, pro hostovský přístup k materiálům je třeba použít heslo Corpora.
Studenti Hispanistiky většinou pracují s těmito korpusy:
CREA (= Corpus de Referencia del Español Actual)
Obecné informace: http://www.rae.es/recursos/banco-de-datos/crea
Přístup k vyhledávání: http://web.frl.es/CREA/
Referenční korpus vytvořený RAE, který zahrnuje texty z let 1975-2004.
Výhody:
- Velikost korpusu
- Vyrovnané žánrové zastoupení, korpus obsahuje beletrii, publicistiku i odborné texty, jeho součásti je i menší korpus orální
- Rovnoměrné zastoupení Španělska a Hispánské Ameriky
- Intuitivní ovládání, snadné vyhledávání, které zvládne i začátečník
- Užívání je zcela zdarma
Nevýhody:
- Nedokonalé vyhledávací nástroje (korpus nezvládne komplexní dotazy)
- Horší práce s výsledky (neexistuje tu možnost např. zobrazit si frekvenci konkrétního tvaru nebo dokonce delší konstrukce, vše je třeba procházet ručně), statistiky výsledků, které korpus nabízí automaticky, jsou poměrně strohé (týkají se v zásadě jen typu textů a místa jejich vzniku)
- Výsledky se déle načítají, práce tak může někdy být trochu zdlouhavá
CORPES XXI (= Corpus del Español del Siglo XXI)
Obecné informace: http://www.rae.es/recursos/banco-de-datos/corpes-xxi
Přístup k vyhledávání: http://web.frl.es/CORPES/
Referenční korpus vytvořený RAE, který zahrnuje texty od r. 2001.
Výhody:
- Velikost korpusu
- Vyrovnané žánrové zastoupení, korpus obsahuje beletrii, publicistiku i odborné texty, jeho součásti je i menší korpus orální
- Rovnoměrné zastoupení Španělska a Hispánské Ameriky
- Intuitivní ovládání, snadné vyhledávání, které zvládne i začátečník
- Užívání je zcela zdarma
Nevýhody:
- Nedokonalé vyhledávací nástroje (korpus nezvládne komplexní dotazy)
- Horší práce s výsledky (neexistuje tu možnost např. zobrazit si frekvenci konkrétního tvaru nebo dokonce delší konstrukce, vše je třeba procházet ručně), statistiky výsledků, které korpus nabízí automaticky, jsou poměrně strohé (týkají se v zásadě jen typu textů a místa jejich vzniku)
- Výsledky se déle načítají, práce tak může někdy být trochu zdlouhavá
CORDE (= Corpus Diacrónico del Español)
Obecné informace: http://www.rae.es/recursos/banco-de-datos/corde
Přístup k vyhledávání: http://corpus.rae.es/cordenet.html
Diachronní korpus vytvořený RAE, který obsahuje starší texty (od těch úplně prvních až do r. 1975). Hodí se pro diachronní studie, kde se zkoumá užívání nějakého jazykového jevu v minulosti.
Výhody:
- Jednoduché intuitivní ovládání
- Užívání je zcela zdarma
Nevýhody:
- Malé možnosti následné práce s výsledky a jejich statistického zpracování, vše je třeba procházet ručně
InterCorp
Obecné informace: http://wiki.korpus.cz/doku.php/cnk:intercorp
Přístup k vyhledávání: https://kontext.korpus.cz/
Paralelní korpus vytvořený Ústavem Českého národního korpusu, který obsahuje originály ve 38 jazycích a jejich překlady.
Výhody:
- Korpus umožňuje porovnávání španělštiny s jiným jazykem, tzv. pivotním jazykem korpusu je čeština, takže zde nenajdete žádný text, který by postrádal český protějšek
- Výborné vyhledávací nástroje, na korpusu můžete zadávat i velmi komplikované dotazy
- Široká nabídka práce s výsledky, jejich třídění, statistického zpracování atd.
- Přehledný česky psaný manuál, který vás provede funkcemi korpusu: http://wiki.korpus.cz/doku.php/kurz:uvod#zaklady_prace_s_korpusem_v_7_lekcich
- Užívání je zcela zdarma (je nutná pouze předchozí registrace, při níž potvrdíte, že nebudete výsledky používat ke komerčním účelům).
Nevýhody:
- Španělská část InterCorpu je pochopitelně menší než je tomu např. u korpusů od RAE, pokud vyhledávání omezíte jen na španělské originály, budete výrazně omezeni i žánrově, protože vám zůstanou jen romány španělských a hispanoamerických autorů
- Ruku v ruce s lepšími vyhledávacími nástroji jde i menší intuitivnost v ovládání, je třeba projít si manuál, který vás naučí, jak vytvářet dotazy a jak pracovat s výsledky – jakmile se s ním však seznámíte, vytváření dotazů už jde relativně snadno a možnosti, které máte, jsou opravdu velice široké
Pravidla pro práci s InterCorpem
Studenti tento korpus nejčastěji využívají při porovnávání španělských konstrukcí a jejich českých překladů. Korpus je tedy ideální nástroj, pokud vás zajímá, jak se něco, co v češtině nemá přímý protějšek, překládá do češtiny. Při tomto typu analýz je však třeba mít na paměti jednu důležitou věc: není vhodné porovnávat společně španělský překlad např. z angličtiny a český překlad téhož textu také z angličtiny, je důležité omezit si vyhledávání pouze na španělské originály a jejich přímé české překlady (opačně, tedy české originály a jejich španělské překlady, to jde také, ale textů je v tomto případě méně a navíc je třeba si dát pozor, zda se jedná opravdu o přímé překlady – španělští překladatelé se někdy opírají např. o německé překlady, nikoli o původní český text).
Nejlepší je hned v začátku si stanovit, s jakými díly budete pracovat a vytvořit si subkorpus tvořený pouze jimi. Návod na jeho vytvoření naleznete zde.
Když už máte subkorpus vytvořený, můžete se pustit do práce. Všechny potřebné informace o korpusu, zadávání dotazů a práci s nimi, naleznete zde: http://wiki.korpus.cz/doku.php/kurz:uvod#zaklady_prace_s_korpusem_v_7_lekcich
Araneum Hispanicum Maius
Obecné informace: http://wiki.korpus.cz/doku.php/cnk:aranea
Přístup k vyhledávání: https://kontext.korpus.cz
Relativně nový korpus webových textů patřící do rodiny Aranea (srovnatelné webové korpusy pro různé jazyky).
Výhody:
- Velikost korpusu.
- Texty jsou opravdu z poslední let, jazyk je tedy aktuální. Pocházejí z webových stránek a blogů, jazyk se tedy hodně blíží jazyku mluvenému.
- Výborné vyhledávací nástroje, na korpusu můžete zadávat i velmi komplikované dotazy.
- Široká nabídka práce s výsledky, jejich třídění, statistického zpracování atd.
- Přehledný česky psaný manuál, který vás provede funkcemi korpusu: http://wiki.korpus.cz/doku.php/kurz:uvod#zaklady_prace_s_korpusem_v_7_lekcich
- Vyhledávací rozhraní i způsob zadávání a zpracovávání dotazů jsou stejné jako u InterCorpu, pokud tedy umíte pracovat s tímto korpusem, zvládnete bez potíží i Araneum (a naopak).
Nevýhody:
- Žánrová omezenost (webové stránky a blogy), je třeba mít na paměti, že jazyk webu má svá specifika, často také není na příliš vysoké úrovni