Úvod do strojového překladu – PV061 Vít Baisa, Karel Pala vit.baisa@gmail.com pala@fi.muni.cz Centrum ZPJ FI MU Historie strojového překladu •C. Shannon, W. Weaver (1948-49): text v čínštině je stejný jako v angličtině, je jen v jiném kódu •Georgetownský experiment – 1956, R-A, P. Toma •Rusové – O. Kulagina, I. Mel'čuk, 1958, Fr – Ruš. •Systran P. Tomy – oficiální SP systém EU •Verbmobil – v letech 1993-2001, hlasový překlad angličtina-japonština-němčina (Tuebingen, 100 mil.) •v posl. době: pravidlový vs. statistický přístup, •RBMT v kombinaci se SMT + hybridní řešení •Google Translator – využití paralelních korpusů •Pokrok, rozdíly u jazykových dvojic, kvalita? SP v českém prostředí •Seminář SP na FF UK, B. Palek, P. Sgall, Novák, Konečná, 1958-60 a dále •Pokusy s českým SP z angličtiny – P. Sgall, E. Hajičová, počítače SAPO, LGP, EPOS •Po r. 1968 rozštěpení skupiny na dvě, FF UK (Novák, Palek), MFF UK (Sgall, Hajičová) •Experimenty se systémem Ruslan, K. Oliva, J. Hajič (VÚMS, Svoboda, sálové počítače) •V současnosti – ÚFAL, J. Hajič, EuroMatrix, EUM+ •Zčásti se SP věnuje pozornost i v CZPJ (V. Baisa) SP – pokračování historie •Zpráva ALPAC, J. R. Pierce,1964(6), vláda USA •(Automatic Language Processing Advisory Committee, 7 odborníků) •Skepticky hodnotila výzkum v oblasti PL (CL) a SP •Potřeba posílit základní výzkum v oblasti PL a SP •Zpráva vedla v USA ke snížení finanční podpory v oblasti SP, negativní efekt •https://en.wikipedia.org/wiki/ALPAC •UK, Francie, později zpráva JTEC 1992 (J.Tech.C.), •Velký projekt Eurotra – financován EK 1978-1992 •proj. EuroMatrix a EuroMatrix-plus 2006-09-12) • • • Příklad Viz G. Translator Shrinkage Úbytek, ztráta, snížení, redukce woman drive drunk Systémy strojového překladu •RBMT- pravidlové •a) Přímé systémy – 1. generace, doslovný překlad zdroj.text -> MFA -> slovník -> přeuspoř. -> cílový text, např.: ruská věta My trebuem mira. se přeloží do ang. jako We want world. nebo We want peace. •Nepřímé systémy – 2. generace b) transferové - zdroj.text -> analýza: lex.,mf.,synt. (Ri) -> transfer (Ri -> Rj) -> syntéza: synt., mf. -> cílový text (postred.), novým prvkem je syntaktická (příp. i sém.) reprezentace, mezireprezentace, transferová (převodní) pravidla, jazyková závislost Ri i Rj Systémy SP … •c) s převodním jazykem - univerzální, multilinguální. •Zdr.text -> nezávislá analýza -> reprez. v PJ -> nezávislá syntéza -> cílový text, - poskytuje možnost zpětného překladu a testování - PJ? - vhodný symbolický systém, logický kalkul, PK1 nebo formule v systému TIL, je jazykově nezávislý, •přidání nového jazyka vyžaduje přidat jen 2 moduly, u transferových systémů – 4, •u PJ jsou komplikace s jazykově nezávislými reprezentacemi. •Systém Rosetta 1986 – http://mt-archive.info/IAI-1986-Appelo.pdf Systémy SP… •Statistický SP (SMT) •Využití velkých dat, paralelních korpusů •Jazykové modely •Představitel Google Translator a další •Hybridní – EuroMatrix •S překladovou pamětí – Trados •Využití databází již přeložených textů Vybrané příklady systémů SP •TAUM Meteo 1981, ang.-franc. Univ. of Montreal – práce s podjazykem •TAUM Aviation 1985, ang.-franc., oba RBMT •Pravidlový – Systran (Apollo, US AF, EU) •Statistický – Google, Moses, v současnosti •Hybridní – faktorovaný – EuroMatrix •PRESEMT – EU projekt 2011-2014 •Hlasový SP, Verbmobil, 1993-2001 Statistický SP (evaluace) Automatické metriky •Bleu – kandidátský překlad proti vícenásobným referenčním překladům (viz později) •NIST – modifikace Bleu, n-gramy •METEOR – vážený harmonický průměr přesnosti a pokrytí unigramu •Levenshteinova vzdálenost mezi dvěma slovy je minimální počet editačních kroků (vložení,přesunutí) Manuální evaluace, viz dále •Srozumitelnost a věrnost, viz dále Kritéria kvality překladu I •Věrnost – překlad musí přenášet tutéž informaci jako originál, např. •Srozumitelnost – míra jasnosti a srozumitelnosti každé přeložené věty, •Stylistická vhodnost – nakolik je cílový text vhodný pro cílového uživatele vzhledem k danému komunikačnímu záměru, japonština •To jsou základní a zcela obecná kritéria. •Další parametry pro hodnocení kvality překladu a) jazyková obecnost – kolik vstupních a výstupních jazyků systém zahrnuje Kritéria kvality překladu II b) rozsah pokrytí ve slovníku – počet slovních druhů (otevřených, uzavřených) ve slovníku, c) gramatické pokrytí – procento kompletních vět, jež systém beze zbytku analyzuje nebo generuje, d) procento negramatických vstupů, které je systém schopen zpracovat (podle testovacího seznamu), e) hodnocení kvality přiřazení mezi lexikálními jednotkami v obecném slovníku systému, f) aplikační a tematická obecnost – počet věcných oblastí (domén), jež systém pokrývá, a rozsah pokrytí jednotlivých oblastí, Kritéria kvality překladu III •Stupeň automatizace - míra, v níž musí člověk intervenovat v překladovém cyklu - čím méně, tím lépe - pre- a posteditace, interaktivní desamb. •Množství času potřebného pro lidský zásah/celkový čas potřebný pro úplný překlad - to je míra automatizace charakteristická pro MT systém, •lze přihlédnout ke kvalifikaci - posteditor je obvykle zkušený překladatel, preeditor (desamb.) nemusí znát cílový jazyk, nižší kvalifikace - nižší náklady, Kritéria kvality překladu IV •Sémantická přesnost - míra, v níž přeložený text vyjadřuje stejný význam jako vstupní text - centrální kritérium pro posouzení kvality překladu, je to důležité u manuálů, předpovědí počasí, zákonů a předpisů - výrazy jako - rozdělovač, hlava motoru, státní podpora, daňový poplatník musí být přeloženy přesně, •Srozumitelnost - míra srozumitelnosti, v níž je přeložený text srozumitelný pro čtenáře cílového jazyka, aniž se musí dívat do zdrojového textu. Těsně souvisí s sémantickou přesností, počítá s ní. Kritéria kvality překladu V •Stylistická adekvátnost (vhodnost) – míra, v níž je cílový text vhodný pro zamýšlené adresáty, např. angl. - japonština – překlad může být srozumitelný i významově přesný, ale nevhodný sociálně kvůli honorifikaci – použití zdvořilostní frazeologie, obratů, bez nich by text nebyl použit •Pak je nutná posteditace – podobně v češtině: tykání a vykání •Podobně – text s výrazy předpokládajícími vyšší vzdělání (pro odborníka) je nevhodný pro člověka z ulice, implicitní presupozice – nevyslovený předpoklad, kvantifikace – číselné vyjádření aj. Kritéria kvality překladu VI •Tyto rozdíly je nesnadné kvantifikovat. •Tematická a jazyková portabilita – míra, s níž lze přidat k systému další věcné oblasti a jazyky, dá se měřit množstvím času potřebného pro přidání souboru gram. pravidel dalšího jazyka a slovníku termínů pro novou oblast včetně přiřazení ekviv. cílového jazyka. •Rozdíly: u bin. systémů se závislou analýzou a syntézou mezi dvěma jazyky a u systémů s PJ, kde se přidává jazykově nezávislá reprezentace dané tematické oblasti. Kritéria kvality systémů •Rozšiřitelnost – míra, v níž MT systém dovoluje hladkou a inkrementální extenzi gramatických pravidel a slovníku a věcné oblasti pro jazyk, s nímž se už v systému pracuje. Závisí to na míře deklarativnosti a transparence použité reprezentace gramatických pravidel a slovníkových hesel a na nástrojích používaných pro údržbu systému. •Lze ji měřit množstvím času potřebným pro: - kódování pravidel a hesel - jejich testování - verifikaci a kontrolu, že přidání nezpůsobí nečekané a nežádoucí konflikty. Kritéria kvality překladu VII •Zlepšitelnost – míra, v níž systém umožňuje zlepšit úroveň automatizace bez kompromisů v kvalitě překladu, fakticky jde o míru otevřenosti systému: zlepšení bez přebudování designu. •Ergonomičnost – míra, v níž systém poskytuje minimum příležitostí pro vznik chyb, pomůcky pro uživatele, kvalita rozhraní (pokročilost), snadnost napojení na strojově čitelné slovníky, hypertextové odkazy do textu překladu, vazby na archiv překladů (viz též systémy jako TRADOS). •Integrovatelnost – možnost začlenění do jin.syst. •Softwarová portabilita – přenos na sw. platformy Lexikální data I •Data pro SP (MT) – gramatická pravidla, popisují stavbu věty, tj. formální gramatika potřebná pro analýzu a syntézu (generování), - lexikální: informace o každé lexikální jednotce (slovníkovém heslu) - slova, kolokace, např. škola, vysoká škola, mateřská škola, •Jde o vztah slovníku a gramatiky – obvykle se tato data v SP systémech drží odděleně – problém: co kam dát? •Lze pro SP použít normální elektronické slovníky – Leda, Lingea, PC Translator? Lexikální data II •Informace ve slovníku: morfologická, subkategorizace, valence, výběrová omezení, SR •Organizace lex. dat je dána typem SP systému - a) systémy s přímým překladem - typicky jeden dvojjazyčný sl. - na jedné straně údaje o LJ vstupního jazyka, na druhé straně přiřazení ekvivalentů cílového jazyka, b) mívá podobu seznamu všech tvarů (ang.) nebo kmenů (češ.) + mf.inf., synt. inf., SR, inf. potřebná pro výběr alternativ, infce pro syntakt. změny v syntéze – výsl. značně složitý slovník. Lexikální data III •Nepřímé systémy – moduly analýzy a syntézy jsou od sebe odděleny, oddělené jednojaz. slovníky pro vst. a cílový jazyk, dále dvojjazyčný/é transf.sl., bývají jednodušší než u přímých syst. U každé LJ - mf.inf., POS, SR, výb.omezení, valence •Časté jsou samost.sl. homografů – bank (fin.inst., břeh), stát (země, zaujímat polohu, mít cenu). •Informace pro výběr cílových ekv. (jeho formy) se často umisťuje do transf.dvojj.slovníku, •v praxi: slovník velmi četných výrazů, sl.idiomů, sl.nepravid.tv., sl.homografů, mikrosl.- výměnné - zeměd., fyzika, žurnal., IT, terminologické Vstupy – výstupy •Obecné sl., interaktivní syst., řeší to víceznačnost. •Psaný vstup – ošetření pravopisu, korigování, interp., oddělovače, převod do výstupního jazyka (This year, the man, however, and his wife, too, will go on holiday. – Letos ale ten člověk a taky jeho žena pojedou na dovolenou.), •Fonty - rozlišný úzus, pomlčky, uvozovky, užití kurzívy, prostrkaného písma, polotučného apod. Morfologie při SP •Typy jazyků - analytické: angličtina, franc., němč., - syntetické, flektivní: slov.jazyky – ruš., češ., polš. - aglutinační: ugrofinské, maď., finština, turečtina, •Pro každý typ jazyka – morfologická analýza, tj. pro vstupní větu – předzpracování, slova, kolokace, pak vlastní analýza •segmentace slovních tvarů, získání kmenů a gramatické informace (koncovky, alternace), •Morfologické analyzátory, viz např. AJKA, •Struktura morf. analyzátorů, slovník kmenů, koncovkové množiny Syntaktická analýza při SP •Při analýze – zjistit prvky věty a vztahy mezi nimi, vstupní text - řetězy znaků, identifikace slov - mfa a slovník = přiřadí slovům nějaké atributy, např. kopu - k1gMnSc2 (Nedvěd dal branku z rohového kopu) - k1gFnSc4 (nedávej to na jednu kopu) - k5eAp1nStPmIaI (kopu si hrob) –to nestačí, kromě informace o významu, kterou se budu zabývat až při transferu, je potřeba provést desambiguaci: •3 významy, zkusíme provést synt. anal. a nějak reprezentovat vztahy mezi prvky ve větě – jak? •Syntaktický strom vstupní věty - jak jej lze získat? - vhodný typ formální gramatiky a analyzátor Synt.analýza při SP II •Jak poznat, že kopu je v daném řetězu k1 (jméno)? •Příklad deriv.stromu (s použitím CFG)‏ Reprezentace znalostí •Znalosti o světě – jejich zdroje •Ontologie, sémantické sítě, WordNet a EWN •Encyklopedie, terminologie •Znalosti o jazyce, lex.databáze •Common sense •KBMT Sémantická analýza •Rozpadá se do dvou částí: lexikální a logické •Lexikální analýza zahrnuje významy slov a kolokací – problém slovníků pro SP, otázka kvality a zachycení kontextových vztahů •Logická analýza se týká významu celých vět a jejich reprezentace, též ve vztahu k reprezentaci znalostí Analýza souvislého textu – vztahy odkazování (koreference, anafora)‏