FF:PLIN041 Vývoj počítačové lingvistiky - Informace o předmětu
PLIN041 Vývoj počítačové lingvistiky
Filozofická fakultapodzim 2014
- Rozsah
- 2/0/0. 4 kr. Ukončení: k.
- Vyučující
- prof. PhDr. Karel Pala, CSc. (přednášející)
- Garance
- doc. PhDr. Zdeňka Hladká, Dr.
Ústav českého jazyka – Filozofická fakulta
Kontaktní osoba: Jaroslava Vybíralová
Dodavatelské pracoviště: Ústav českého jazyka – Filozofická fakulta - Rozvrh
- Út 10:50–12:25 G13
- Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
Předmět si smí zapsat nejvýše 20 stud.
Momentální stav registrace a zápisu: zapsáno: 0/20, pouze zareg.: 0/20, pouze zareg. s předností (mateřské obory): 0/20 - Mateřské obory/plány
- Český jazyk se specializací počítačová lingvistika (program FF, N-FI)
- Cíle předmětu
- Předmět nabízí seznámení s vývojem počítačové lingvistiky (PL) - discipliny orientované na zkoumání přirozeného jazyka a vycházející z použití algoritmických popisů jednotlivých jazykových rovin. Při tomto postupu je základem formální popis jazyka, který umožňuje budovat jednotlivé algoritmy a posléze je implementovat jako konkrétní programy a programové systémy. Postupy PL jsou obvykle založeny buď na pravidlovém přístupu, kdy jazykové jevy jsou popisovány pravidly formulovanými jako konkrétní implementovatelné algoritmy, nebo přístupu statistickém, v němž jsou jazykové jevy popisovány statistickými technikami, implementovanými jako programové nástroje. Počátky PL spadají do konce 50. let minulého století, kdy v USA a SSSR začaly pokusy se strojovým překladem (MT) mezi angličtinou a ruštinou (P. Toma) a ruštinou a francouzštinou (O. Kulagina). PL je svým způsobem i předchůdcem umělé inteligence. První pokusy se strojovým překladem nebyly hodnoceny jako dostatečně úspěšné (zpráva ALPAC, 1966), proto se pozornost badatelů obrátila k automatickému zpracování přirozeného jazyka jako obecnému problému spočívajícímu v počítačovém zpracování jazykových dat. V 60. letech byl vývoj PL paradoxně ovlivněn N. Chomským (1963), jehož výsledky v oblasti formálních gramatik, jazyků a hierarchie automatů vedly k pokusům vytvořit jak formální popisy jednotlivých jazykových rovin, tj. fonologie, morfologie a syntaxe, tak i k pokusům formulovat je v algoritmické podobě a verifikovat jako konkrétní implementace. V průběhu 60. let se ukázalo, že uvedené (introspektivní) přístupy nedostačují. Tak se objevily první velké soubory textů na počítačích - korpusy (Brown Corpus,Francis, Kučera, 1961). V 70. a 80. letech se pozornost badatelů postupně obracela k empirickému paradigmatu, což vedlo k budování dalších korpusů a nástrojů (korpusových manažerů) pro ně. Objevily se také aplikace jako korektory překlepů, různé typy elektronických slovníků a lexikálních databází. V 90. letech se staly standardem korpusy čítající kolem 100 mil. tokenů, např. BNC, u nás pak ČNK, resp. SYN2000. Po r. 2000 se v oblasti PL začala pozornost více orientovat na statistické techniky a přístupy opírající se o strojové učení. V návaznosti na velké soubory textů se objevil statistický strojový překlad (SMP), který umožnil získat relativně lepší výsledky než dosavadní systémy (Google Translator, 2007). V oblasti PL v současnosti (2010 ...) probíhá intenzivní výzkum automatické morfologické analýzy, syntaktických analyzátorů a sémantiky (zjednoznačňování významů slov - Word Sense Disambiguation - WSD). Pozornost se rovněž věnuje počítačové analýze emocí. Předmět má výrazně interdisciplinární povahu, propojuje v sobě přístupy lingvistické, počítačové a spadá do umělé inteligence a kognitivní vědy. Studenti v něm získají základní představu o problematice počítačové lingvistiky a o jejím vývoji v domácím i mezinárodním kontextu.
- Osnova
- 1960 - pokusy se strojovým překladem. Na začátku 60. let - vznik počítačové lingvistiky (PL) jako disciplíny, formální popis rovin jazyka - morfologie, syntaxe, sémantiky, pragmatiky v podobě počítačových aplikací. V průběhu 60. let počátek textových korpusů. Typy korpusů, korpusové nástroje, značkování korpusových textů. Disambiguace, pravidlové a statistické systémy. 70.-80. léta - výzkum morfologických struktur, notace, morfologické algoritmy a analyzátory, syntaktické analyzátory. 90. léta -sémantická (lexikální) analýza, elektronické slovníky, lexikální databáze (WordNet, EuroWordNet, thesaury), nástroje pro práci s lexikálními zdroji. 2000-10 - orientace na sémantickou analýzu věty využívající formalismu transparentní intenzionální logiky - normální translační algoritmus. 2000-10 - nástroje pro rozpoznávání anaforických vztahů a koreference. Průběžně - programové nástroje pro práci s přirozeným jazykem - korektory překlepů, gramatické korektory, překladače. 2000 - do současnosti - dialogové systémy - komunikace člověka se strojem. Nástroje pro reprezentaci znalostí v počítačích. Celkově - výklad zahrnuje PL v českém i mezinárodním kontextu.
- Literatura
- The Oxford handbook of computational linguistics. Edited by Ruslan Mitkov. Oxford: Oxford University Press, 2003, xx, 784. ISBN 0198238827. info
- HAJIČOVÁ, Eva, Jarmila PANEVOVÁ a Petr SGALL. Úvod do teoretické a počítačové lingvistiky. Praha: Karolinum, 2002, 156 s. ISBN 8024604701. info
- CHOMSKY, Noam. Syntaktické struktury : logický základ teorie jazyka : o pojmu "gramatické pravidlo". Vyd. 1. Praha: Academia, 1966, 209 s. URL info
- Výukové metody
- Výuka probíhá formou přednášek a seminářů, v nichž se kombinuje ústní projev učitele s použitím slidů a ukázek relevantních softwarových nástrojů. Studenti absolvují domácí úkoly, připravují prezentace na základě prostudované literatury a vypracovávají menší projekty. Na vhodných místech výuky se pracuje formou otevřeného dialogu mezi učitelem a studenty.
- Metody hodnocení
- - v případě potřeby orientační dialog, - prezentace prostudované literatury (na slidech)
- Další komentáře
- Studijní materiály
- Statistika zápisu (podzim 2014, nejnovější)
- Permalink: https://is.muni.cz/predmet/phil/podzim2014/PLIN041