CJp022 Základy korpusové lingvistiky

Pedagogická fakulta
podzim 2024
Rozsah
0/2/0. 2 kr. Ukončení: z.
Vyučováno prezenčně.
Vyučující
Mgr. Adriana Válková, Ph.D. (přednášející)
Garance
PhDr. Ivana Kolářová, CSc.
Katedra českého jazyka a literatury – Pedagogická fakulta
Kontaktní osoba: Petra Rozbořilová
Dodavatelské pracoviště: Katedra českého jazyka a literatury – Pedagogická fakulta
Omezení zápisu do předmětu
Předmět je určen pouze studentům mateřských oborů.
Mateřské obory/plány
Cíle předmětu
Cílem kurzu je seznámit studenty/studentky s vyhledáváním v jazykovém korpusu a ukázat jim různé možnosti získávání a zpracovávání jazykových dat.
Předmět zohledňuje požadavky akreditace zaměřené na informační a komunikační technologie (ICT).
Výstupy z učení
Na konci kurzu je student/ka schopen:
1. Prakticky užívat Český národní korpus; vyhledat v korpusu SYN2020 jevy hláskové/pravopisné, tvaroslovné a lexikální s využitím dotazů "základní", "slovní tvar", "lemma".
2. Sestavit složitější dotazy typu CQL např. pro vyhledání gramatického tvaru nebo fráze.
3. Zvolit vhodný postup vyhledávání jazykových jevů v ČNK při řešení konkrétního problému.
4. Utřídit vyhledané jevy pomocí korpusových nástrojů (frekvence, kolokace) a zpracovat je na základě lingvistických znalostí.
5. Využívat Intercorp.
6. Využívat další nástroje Českého národního korpusu: Morfio, Slovo v kostce.
Osnova
  • 1. Typy korpusů, reprezentativnost korpusů. KonText. Korpusy psané a mluvené češtiny. Atributy pro vyhledávání jevů v Českém národním korpusu.
  • 2. Pravopisné varianty v současné češtině, jejich typy. Vyhledávání pravopisných variant v korpusu SYN2020. Lemma, sublemma a word.
  • 3. Vyhledávání vybraných tvaroslovných variant, obzvláště dublet podstatných jmen. Dublety maskulinních substantiv. Posuzování jejich konkurence.
  • 4. Dublety femininních a neuterních substantiv. Posuzování jejich konkurence v Českém národním korpusu.
  • 5. Variantní slovesné tvary prézentní v Českém národním korpusu. Typy krýt, kupovat, mazat.
  • 6. Jiné variantní slovesné tvary v Českém národním korpusu.
  • 7. Adverbia, partikule a předložky v Českém národním korpusu.
  • 8. Vyhledávání vybraných slov a sousloví. Frazeologie v českém národním korpusu.
  • 9. Konkurenty slovotvorné v Českém národním korpusu. Hledání substantiv a adjektiv podle sufixů.
  • 10. Vyhledávání sloves podle sufixů a prefixů.
  • 11. Kombinace dotazů a další nástrojů webového rozhraní (pozitivní a negativní filtr).
  • 12. Tvorba vlastních subkorpusů. Využití Intercorpu.
  • 13. Korpusové aplikace.
Literatura
    povinná literatura
  • Wiki Českého národního korpusu [online]. Dostupné z: https://wiki.korpus.cz/doku.php/start
  • Tomáš Machálek (2019): Slovo v kostce – agregátor slovních profilů. FF UK, Praha. Dostupný z WWW:
  • Tomáš Machálek (2014): KonText – aplikace pro práci s jazykovými korpusy. FF UK, Praha. Dostupný z WWW:
    neurčeno
  • OSOLSOBĚ, Klára. Česká morfologie a korpusy. Vyd. 1. Praha: Karolinum, 2014, 236 s. ISBN 978-80-246-2562-1. URL info
  • ČERMÁK, František, Karel KUČERA a Vladimír PETKEVIČ. Korpusová lingvistika Praha 2011, 2 Výzkum a výstavba korpusů. Praha: Nakladatelství Lidové noviny, Ústav Českého národního korpusu, 2011. Studie z korpusové lingvistiky 15. ISBN 978-80-7422-115-6. info
Výukové metody
Seminář - problémová metoda, řízený rozhovor o odborných problémech tohoto kurzu. Vyhledávání v Českém národním korpusu.
Analýza vyhledaných jazykových jevů.
Metody hodnocení
Podmínkou pro získání zápočtu je prokázání dovedností vyhledávat a zpracovávat jazykové jevy, které bude ověřeno testováním v závěrečném semináři. Studenti dostanou cca 15 úkolů zaměřených na vyhledání a zpracování vybraných jazykových jevů, z nichž musejí správně zvládnout minimálně 10. Předpokládá se též zpracovávání zadaných úkolů v průběhu semestru.
Informace učitele
V případě zahraniční mobility student/ka sleduje interaktivní osnovu a plní všechny povinnosti, které jsou zadávány, zejm. průběžné (seminární a domácí) úkoly.
Další komentáře
Předmět je vyučován každoročně.
Výuka probíhá každý týden.
Předmět je zařazen také v obdobích podzim 2018, podzim 2019, podzim 2020, podzim 2021, podzim 2022, podzim 2023.