PLIN041 Vývoj počítačové lingvistiky

Filozofická fakulta
podzim 2026
Rozsah
2/0/0. 5 kr. Doporučované ukončení: z. Jiná možná ukončení: k.
Vyučováno kontaktně
Vyučující
Mgr. Dana Hlaváčková, Ph.D. (přednášející)
Garance
Mgr. Dana Hlaváčková, Ph.D.
Ústav českého jazyka – Filozofická fakulta
Kontaktní osoba: Bc. Silvie Hulewicz, DiS.
Dodavatelské pracoviště: Ústav českého jazyka – Filozofická fakulta
Předpoklady
TYP_STUDIA(N)
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Předmět si smí zapsat nejvýše 20 stud.
Momentální stav registrace a zápisu: zapsáno: 0/20, pouze zareg.: 0/20, pouze zareg. s předností (mateřské obory): 0/20
Mateřské obory/plány
Anotace
Předmět nabízí seznámení s vývojem počítačové lingvistiky (PL) - discipliny orientované na zkoumání přirozeného jazyka a vycházející z použití algoritmických popisů jednotlivých jazykových rovin. Při tomto postupu je základem formální popis jazyka, který umožňuje budovat jednotlivé algoritmy a posléze je implementovat jako konkrétní programy a programové systémy. Postupy PL jsou obvykle založeny buď na pravidlovém přístupu, kdy jazykové jevy jsou popisovány pravidly formulovanými jako konkrétní implementovatelné algoritmy, nebo přístupu statistickém, v němž jsou jazykové jevy popisovány statistickými technikami, implementovanými jako programové nástroje. Počátky PL spadají do konce 50. let minulého století, kdy v USA a SSSR začaly pokusy se strojovým překladem (MT) mezi angličtinou a ruštinou (P. Toma) a ruštinou a francouzštinou (O. Kulagina). PL je svým způsobem i předchůdcem umělé inteligence. První pokusy se strojovým překladem nebyly hodnoceny jako dostatečně úspěšné (zpráva ALPAC, 1966), proto se pozornost badatelů obrátila k automatickému zpracování přirozeného jazyka jako obecnému problému spočívajícímu v počítačovém zpracování jazykových dat. V 60. letech byl vývoj PL paradoxně ovlivněn N. Chomským (1963), jehož výsledky v oblasti formálních gramatik, jazyků a hierarchie automatů vedly k pokusům vytvořit jak formální popisy jednotlivých jazykových rovin, tj. fonologie, morfologie a syntaxe, tak i k pokusům formulovat je v algoritmické podobě a verifikovat jako konkrétní implementace. V průběhu 60. let se ukázalo, že uvedené (introspektivní) přístupy nedostačují. Tak se objevily první velké soubory textů na počítačích - korpusy (Brown Corpus,Francis, Kučera, 1961). V 70. a 80. letech se pozornost badatelů postupně obracela k empirickému paradigmatu, což vedlo k budování dalších korpusů a nástrojů (korpusových manažerů) pro ně. Objevily se také aplikace jako korektory překlepů, různé typy elektronických slovníků a lexikálních databází. V 90. letech se staly standardem korpusy čítající kolem 100 mil. tokenů, např. BNC, u nás pak ČNK, resp. SYN2000. Po r. 2000 se v oblasti PL začala pozornost více orientovat na statistické techniky a přístupy opírající se o strojové učení. V návaznosti na velké soubory textů se objevil statistický strojový překlad (SMP), který umožnil získat relativně lepší výsledky než dosavadní systémy (Google Translator, 2007). V oblasti PL v současnosti (2010 ...) probíhá intenzivní výzkum automatické morfologické analýzy, syntaktických analyzátorů a sémantiky (zjednoznačňování významů slov - Word Sense Disambiguation - WSD). Pozornost se rovněž věnuje počítačové analýze emocí. Předmět má výrazně interdisciplinární povahu, propojuje v sobě přístupy lingvistické, počítačové a spadá do umělé inteligence a kognitivní vědy. Studenti v něm získají základní představu o problematice počítačové lingvistiky a o jejím vývoji v domácím i mezinárodním kontextu.
Výstupy z učení
Student je po absolvování kurzu schopen:
- orientovat se v časovém sledu vývoje oblastí počítačové lingvistiky,
- popsat stručně historii oborů spadajících pod počítačovou lingvistiku,
- orientovat se v hlavních osobnostech a klíčových událostech historie počítačové lingvistiky.
Klíčová témata
1960 - pokusy se strojovým překladem. Na začátku 60. let - vznik počítačové lingvistiky (PL) jako disciplíny, formální popis rovin jazyka - morfologie, syntaxe, sémantiky, pragmatiky v podobě počítačových aplikací. V průběhu 60. let počátek textových korpusů. Typy korpusů, korpusové nástroje, značkování korpusových textů. Disambiguace, pravidlové a statistické systémy. 70.-80. léta - výzkum morfologických struktur, notace, morfologické algoritmy a analyzátory, syntaktické analyzátory. 90. léta -sémantická (lexikální) analýza, elektronické slovníky, lexikální databáze (WordNet, EuroWordNet, thesaury), nástroje pro práci s lexikálními zdroji. 2000-10 - orientace na sémantickou analýzu věty využívající formalismu transparentní intenzionální logiky - normální translační algoritmus. 2000-10 - nástroje pro rozpoznávání anaforických vztahů a koreference. Průběžně - programové nástroje pro práci s přirozeným jazykem - korektory překlepů, gramatické korektory, překladače. 2000 - do současnosti - dialogové systémy - komunikace člověka se strojem. Nástroje pro reprezentaci znalostí v počítačích. Celkově - výklad zahrnuje PL v českém i mezinárodním kontextu.
Studijní zdroje a literatura
  • The Oxford handbook of computational linguistics. Edited by Ruslan Mitkov. Oxford: Oxford University Press, 2003, xx, 784. ISBN 0198238827. info
  • HAJIČOVÁ, Eva; Jarmila PANEVOVÁ a Petr SGALL. Úvod do teoretické a počítačové lingvistiky. Praha: Karolinum, 2002, 156 s. ISBN 8024604701. info
  • CHOMSKY, Noam. Syntaktické struktury : logický základ teorie jazyka : o pojmu "gramatické pravidlo". Vyd. 1. Praha: Academia, 1966, 209 s. URL info
Přístupy, postupy a metody používané ve výuce
Výuka probíhá formou přednášek a seminářů, v nichž se kombinuje ústní projev učitele s použitím slidů a ukázek relevantních softwarových nástrojů. Studenti absolvují domácí úkoly, připravují prezentace na základě prostudované literatury a vypracovávají menší projekty. Na vhodných místech výuky se pracuje formou otevřeného dialogu mezi učitelem a studenty.
Způsob ověření výstupů z učení a požadavky na ukončení
V případě potřeby rozprava či orientační dialog, prezentace prostudované literatury (na slidech), tj. vybraných odborných článků z časopisů nebo konferenčních sborníků a též kapitol v relevantních knižních publikacích.
Další komentáře
Předmět je vyučován každoročně.
Výuka probíhá každý týden.
Předmět je zařazen také v obdobích podzim 2013, jaro 2014, podzim 2014, jaro 2015, jaro 2016, jaro 2017, jaro 2018, jaro 2019, podzim 2019, podzim 2020, podzim 2021, podzim 2022, podzim 2023, podzim 2024, podzim 2025.