PV061 Úvod do strojového překladu

Fakulta informatiky
podzim 2017
Rozsah
2/0/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
Mgr. et Mgr. Vít Baisa, Ph.D. (přednášející)
prof. PhDr. Karel Pala, CSc. (přednášející)
Garance
doc. RNDr. Aleš Horák, Ph.D.
Katedra strojového učení a zpracování dat - Fakulta informatiky
Kontaktní osoba: prof. PhDr. Karel Pala, CSc.
Dodavatelské pracoviště: Katedra strojového učení a zpracování dat - Fakulta informatiky
Rozvrh
Po 12:00–13:50 B411
Předpoklady
Je doporučeno absolvovat PA153 a Logické programování I
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
Cíle předmětu
Cílem kursu je seznámit studenty: - s principy strojového překladu, jeho hlavními fázemi při strojovém překládání;
- s přehledem hlavních překladových systémů.;
- s problematikou víceznačnosti;
- se vztahy k reprezentaci znalosti a reprezentaci významu. - s teorií překladu a typy překladů, vztah k umělé inteligenci (AI);
Studenti porozumí: historii strojového překladu a jeho současnému stavu;
- hlavním typům strojového překladu: jsou to binární překlady, překlady na bázi převodního jazyka, techniky překladové paměti využívající paralelních korpusů, statistický překlad, faktorovaný překlad;
- fázím překladu: lexikální analýze a strojovým slovníkům, morfologické a syntaktické analýze a reprezentaci větných struktur, transferu, reprezentaci významu, syntéze;
Dále budou předmětem výkladu: sémantické otázky strojového překladu, typy víceznačnosti a jejich řešení, význam slov a slovních spojení, terminologie, znalosti o světě;
Budou probrány některé úspěšné systémy strojového překladu, např. METEO, TAUM, SYSTRAN, EUROTRA, TRADOS, DeJavu, Google Translator aj. a také systémy pro češtinu - PC Translator, SKIK2, TRANSEN, Matrix; a rovněž techniky evaluace systémů SP a systémy SP na bázi mluvené řeči (Verbmobil);
Cílem kursu jsou rovněž experimenty s jednoduchým překladovým systémem pro češtinu a angličtinu na bázi Prologu;
Výstupy z učení
Student bude po absolvování předmětu schopen:
- klasifikovat systémy strojového překladu a uvést konkrétní příklady;
- rozlišit a charakterizovat základní typy strojového překladu;
- definovat základní pojmy z oblasti strojového překladu;
- vyjmenovat jazykové jevy, které snižují kvalitu strojového překladu;
- vyjmenovat způsoby automatického hodnocení kvality SP, uvést příklady;
- vyjmenovat jazykové zdroje potřebné pro budování systémů SP;
Osnova
 • Teorie překladu a typy překladů, vztah k AI.
 • Vznik strojového překladu (SP) a současný stav;
 • Koncepce strojového překladu: binární překlady, překlady na bázi převodního jazyka, techniky překladové paměti využívající paralelních korpusů.
 • Proces překladu: lexikální analýza a strojové slovníky, morfologická a syntaktická analýza a reprezentace větných struktur, transferová pravidla, reprezentace významu, syntéza;
 • Klíčové otázky strojového překladu, problém víceznačnosti, reprezentace znalostí, vztah k umělé inteligenci (AI);
 • SP s mluveným vstupem a výstupem;
 • význam slov a slovních spojení, terminologie;
 • Přehled významných systémů SP: METEO, TAUM, SYSTRAN, EUROTRA, TRADOS, Dejavu, Rosetta, Google Translator aj.;
 • Překladové systémy pro češtinu - PC Translator, SKIK2, TRANSEN; Matrix;
 • Příklady a experimenty: malý překladový systém v Prologu - čeština - angličtina;
 • Techniky evaluace systémů SP;
 • SP a vztahy k reprezentaci znalostí a umělé inteligenci;
Literatura
 • HUTCHINS, W. John a Harold L. SOMERS. An introduction to machine translation. London: Academic Press, 1992. xxi, 362 s. ISBN 0-12-362830-X. info
Výukové metody
Výuka probíhá formou ústních přednášek a seminářů, v nichž se kombinuje použití slidů a ukázek relevantních softwarových nástrojů. Studenti vypracovávají domácí úlohy, připravují prezentace na základě prostudované literatury a realizují menší projekty. Ve vhodných místech výuky se pracuje formou otevřeného dialogu mezi učitelem a studenty.
Metody hodnocení
ústní zkouška, písemný test
Další komentáře
Předmět je vyučován jednou za dva roky.
Předmět je zařazen také v obdobích podzim 2002, podzim 2003, podzim 2004, podzim 2005, podzim 2006, podzim 2007, podzim 2008, podzim 2009, podzim 2010, podzim 2011, podzim 2012, podzim 2015, podzim 2019, podzim 2021.