PV061 Úvod do strojového překladu

Fakulta informatiky
podzim 2017
Rozsah
2/0/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
Mgr. et Mgr. Vít Baisa, Ph.D. (přednášející)
prof. PhDr. Karel Pala, CSc. (přednášející)
Garance
doc. RNDr. Aleš Horák, Ph.D.
Katedra strojového učení a zpracování dat - Fakulta informatiky
Kontaktní osoba: prof. PhDr. Karel Pala, CSc.
Dodavatelské pracoviště: Katedra strojového učení a zpracování dat - Fakulta informatiky
Rozvrh
Po 12:00–13:50 B411
Předpoklady
Je doporučeno absolvovat PA153 a Logické programování I
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 43 mateřských oborů, zobrazit
Cíle předmětu
Cílem kursu je seznámit studenty: - s principy strojového překladu, jeho hlavními fázemi při strojovém překládání;
- s přehledem hlavních překladových systémů.;
- s problematikou víceznačnosti;
- se vztahy k reprezentaci znalosti a reprezentaci významu. - s teorií překladu a typy překladů, vztah k umělé inteligenci (AI);
Studenti porozumí: historii strojového překladu a jeho současnému stavu;
- hlavním typům strojového překladu: jsou to binární překlady, překlady na bázi převodního jazyka, techniky překladové paměti využívající paralelních korpusů, statistický překlad, faktorovaný překlad;
- fázím překladu: lexikální analýze a strojovým slovníkům, morfologické a syntaktické analýze a reprezentaci větných struktur, transferu, reprezentaci významu, syntéze;
Dále budou předmětem výkladu: sémantické otázky strojového překladu, typy víceznačnosti a jejich řešení, význam slov a slovních spojení, terminologie, znalosti o světě;
Budou probrány některé úspěšné systémy strojového překladu, např. METEO, TAUM, SYSTRAN, EUROTRA, TRADOS, DeJavu, Google Translator aj. a také systémy pro češtinu - PC Translator, SKIK2, TRANSEN, Matrix; a rovněž techniky evaluace systémů SP a systémy SP na bázi mluvené řeči (Verbmobil);
Cílem kursu jsou rovněž experimenty s jednoduchým překladovým systémem pro češtinu a angličtinu na bázi Prologu;
Výstupy z učení
Student bude po absolvování předmětu schopen:
- klasifikovat systémy strojového překladu a uvést konkrétní příklady;
- rozlišit a charakterizovat základní typy strojového překladu;
- definovat základní pojmy z oblasti strojového překladu;
- vyjmenovat jazykové jevy, které snižují kvalitu strojového překladu;
- vyjmenovat způsoby automatického hodnocení kvality SP, uvést příklady;
- vyjmenovat jazykové zdroje potřebné pro budování systémů SP;
Osnova
  • Teorie překladu a typy překladů, vztah k AI.
  • Vznik strojového překladu (SP) a současný stav;
  • Koncepce strojového překladu: binární překlady, překlady na bázi převodního jazyka, techniky překladové paměti využívající paralelních korpusů.
  • Proces překladu: lexikální analýza a strojové slovníky, morfologická a syntaktická analýza a reprezentace větných struktur, transferová pravidla, reprezentace významu, syntéza;
  • Klíčové otázky strojového překladu, problém víceznačnosti, reprezentace znalostí, vztah k umělé inteligenci (AI);
  • SP s mluveným vstupem a výstupem;
  • význam slov a slovních spojení, terminologie;
  • Přehled významných systémů SP: METEO, TAUM, SYSTRAN, EUROTRA, TRADOS, Dejavu, Rosetta, Google Translator aj.;
  • Překladové systémy pro češtinu - PC Translator, SKIK2, TRANSEN; Matrix;
  • Příklady a experimenty: malý překladový systém v Prologu - čeština - angličtina;
  • Techniky evaluace systémů SP;
  • SP a vztahy k reprezentaci znalostí a umělé inteligenci;
Literatura
  • HUTCHINS, W. John a Harold L. SOMERS. An introduction to machine translation. London: Academic Press, 1992. xxi, 362 s. ISBN 0-12-362830-X. info
Výukové metody
Výuka probíhá formou ústních přednášek a seminářů, v nichž se kombinuje použití slidů a ukázek relevantních softwarových nástrojů. Studenti vypracovávají domácí úlohy, připravují prezentace na základě prostudované literatury a realizují menší projekty. Ve vhodných místech výuky se pracuje formou otevřeného dialogu mezi učitelem a studenty.
Metody hodnocení
ústní zkouška, písemný test
Další komentáře
Předmět je vyučován jednou za dva roky.
Předmět je zařazen také v obdobích podzim 2002, podzim 2003, podzim 2004, podzim 2005, podzim 2006, podzim 2007, podzim 2008, podzim 2009, podzim 2010, podzim 2011, podzim 2012, podzim 2015, podzim 2019, podzim 2021, podzim 2022.