Základy využití korpusu v praxi cjbb75 Středa: 9.10-10.50 G13 1. 3. Dú: získat přístupová práva (uživatelské jméno/heslo), přečíst si charakteristiky dostupných korpusů ÚČNK, znát odpovědi na otázky v hdt. 8. 3. Kontext – příkazový řádek – vyhledávání podle atributů (word, lemma, tag, lc), cql, regulární výrazy, KWIC, konkordanční seznam a frekvenční seznam jako zdroj poznání o jazykových vlastnostech vyhledaných jednotek (způsob psaní/pravopis: přejatá slova /mailovat/mejlovat/majlovat/, aplikace pravidel – varianty /ismus/izmus/, varianty pravopisu zdrobnělin vlastních jmen – Terinka/Terynka). https://wiki.korpus.cz/doku.php/manualy:kontext:novy_dotaz Cvičení Jak česky píšeme? mail ? mailovat, meilovat, majlovat, mejlovat ? Složitější formulace dotazu [lemma="m(ai|ei|aj|ej)l.*"] https://wiki.korpus.cz/doku.php/manualy:kontext:frekvencni_distribuce Můžeme sledovat frekvence pravopisných variant. Pracujeme s korpusem psaných textů, které navíc prošly jazykovou kontrolou. Úzus, který není jednotný, se může stát zdrojem pro úvahy o kodifikaci, která má odrážet úzus. Dvojice typu Terinka/Terynka lemma ter[iy]nka Není rozpoznáno (X), tvar na –ynka není doložen. Je opravdu takový pravopis zdrobnělin vlastních jmen možný? Položme obecněji zadaný dotaz. Všechna podobná slova – užití regulárních výrazů. Dotaz: Vyhledej všechna lemmata taková, že pro ně platí, že začínají libovolným znakem, za nímž následuje libovolný počet opakování libovolného znaku a končí na řetězec inka nebo ynka. .* [iy]nka Přestože Barinka není hypokoristikum od Bára, může nám nalezení tohoto dokladu pomoci. Jak? Omezíme se na případy podobné, tedy na lemmata u nichž před [iy] předchází tzv. tvrdá souhláska [rkh] .*[rkh][iy]nka To už vypadá lépe. Ale najdeme vůbec nějaké relevantní doklady? Co nám říká IJP a co lze nalézt v korpusech P-filtr .*ynka Závěr: Je patrné, že analýza korpusových dat může přinést některé poznatky odporující běžným poučkám a pravidlům. Analýza deminutivního sufixu –inka užívaného pro tvoření podob vlastních jmen prokázala rozkolísanost úzu, který je v rozporu s pravidly uvedenými v IJP. Naučili jsme se: Používat některé regulární výrazy v jazyce cql. (.*, [], |) Používat statistiky a zobrazení. Používat filtry. Ukázali jsme, jak lze používat jazykový korpus k hledání odpovědí na otázky týkající se grafické podoby jazyka. Doplňující četba: OSOLSOBĚ, Klára a Jana MACHALOVÁ. Hypokoristika z rodných jmen v Korpusu soukromé korespondence. In Hladká, Zdeňka a kol.. Soukromá korespondence jako lingvistický pramen. Vyd. 1. Brno: Masarykova univerzita, 2013. s. 33-59. 16. 3. Dú: Jaká jsou lemmata/tvary adaptovaných slov a jaké je frekvenční rozložení variantních způsobů jejich grafické realizace (slovesa utvořená od anglických základů: použí(va)t Skype= ????, použí(va)t google = ???, použí(va)t twitter = ???). Uvědomte si, že nově přejatá slova nebudou ve slovníku automatické analýzy, a je tedy třeba na ní moc nespoléhat.