Hodnocení kvality strojového překladu oooooooooooooo PLIN009 - Strojový překlad Automatické hodnocení kvality SP Drobné kapitoly o SP Vít Baisa jaro 2012 Hodnocení kvality strojového překladu »0000000000000 Úvod Motivace • plynulost (fluency) - je překlad plynulý, má přirozený slovosled? « adekvátnost (adequacy) - zachovává překlad význam, nebo je změněn, nekompletní? • srozumitelnost (intelligibility) « neplést s přesností (precision) a pokrytím (recall) Hodnocení kvality strojového překladu o«oooooooooooo Úvod Stupnice hodnocení plynulost 5 | bezchybný jazyk 4 dobrý jazyk 3 nepřirozený 2 neplynulý jazyk 1 nesrozumitelný adekvátnost 5 veškerý význam 4 většina významu 3 dostatečně významu 2 málo z původního významu 1 žádný význam Hodnocení kvality strojového překladu oo»ooooooooooo Úvod Anotační nástroj Judge Sentence Y nu huve uliYuily julIíciI 14 "I 31 "'4 semeiK ..h. uik me i-;i i 4 sevnnds per sentence, Rtftrtnct-i rullier . llie Iv. m aumlries liuni li iLihiHLiliuy needed Im ľ Ih c ii Hern ;il v. ink ins nf Ihe eu . Translation Adequacy Fluency hiith e-iiun tries are reither a nee^^ary kihiireitiiry Ihe ink'null i iperaliiiii of the eu . 12 3 4 5 r r r r ŕ 1 2 3 4 5 both countries are li ik\,ssliiv k i 1 ■ ■ ■ i" u i ■ ■ i" ■- lil iiil.iiiliI functicining of the eu . r r c r r 1 2 3 4 5 r r p r r 1 2 3 4 5 the two a iu til tics Lire iLilher li kit-i uliu h y necessLiry II ir Ihe hue null ■• i ukings u 1" the- eu . c r r p r 1 2 3 4 5 C C C f C 1 2 3 4 5 the two countries Lire tLilhcr li liihnriiinry fur llic iincnuil « likings of the eu . r r (f r r 1 2 3 4 5 r c c r f 1 2 3 4 5 ihc iv n countries Lire ralber li nevessLiiy kihniLili uy inleniLiI vi i irk in as of theeu . c r p r r 1 2 3 4 5 r r p r r 1 2 3 4 5 Annotator: Philipp Koehn Tusk: WMT06 Fiench-English ™, 1 Instructions 5= All Meaning 4= Most Meaning 3= Much Meaning 2= Little Meaning 1 - None 5= Flawless English 4= Good English 3= Non-native English 2= Disfluent English 1= Incomprehensible Hodnocení kvality strojového překladu 000*0000000000 Úvod Nevýhody ručního hodnocení « ruční hodnocení je pomalé, drahé, subjektivní • mezianotátorská shoda (MAS) ukazuje, že se lidé shodnou více na plynulosti než na adekvátnosti • jiné hodnocení: je X lepší překlad než Y? • ->•ještě větší MAS Hodnocení kvality strojového překladu 0000*000000000 Automatické hodnocení kvality Automatické hodnocení překladu • výhody: rychlost, cena; nevýhody: měříme opravdu kvalitu? • gold standard: ručně připravené referenční překlady • kandidát c se srovnává s n referenčními překlady r, • paradox automatického hodnocení: úkol AHKSP odpovídá situaci, kdy má student hodnotit svou vlastní písemnou práci: jak pozná, v čem udělal chybu? • různé přístupy: n-gramová shoda mezi c a n, editační vzdálenost, ... Hodnocení kvality strojového překladu ooooo»oooooooo Automatické hodnocení kvality Pokrytí a přesnost na slovech Nejjednodušší způsob automatického hodnocení system a: Israeli officials rosponsibility ef airport safety reference: Israeli officials are responsible for airport security přesnost pokrytí f-score correct 3 = 5Q% output-length 6 correct 3 43% reference-length 7 precision x recall .5 x .43 {precision + recall)/2 (.5 + .43)/2 46% Hodnocení kvality strojového překladu OOOOOO0OOOOOOO Automatické hodnocení kvality Pokrytí a přesnost - nedostatky system a: Israeli officials rosponsibility ef airport safety reference: Israeli officials are responsible for airport security system b: airport security Israeli officials are responsible metrika systém A systém B přesnost 50% 100% pokrytí 43% 100% f-score 46% 100% Nepostihuje se nesprávný slovosled. Hodnocení kvality strojového překladu ooooooo»oooooo Automatické hodnocení kvality BLEU • nejznámější (standard), nejpoužívanější, nejstarší (2001) • IBM, Papineni • n-gramová shoda mezi referencí a kandidáty • počítá se přesnost pro 1 až 4-gramy • extra postih za krátkost (brevity penalty) BLEU = min (1, o^put-len9th \ « i V reference-length) lj Hodnocení kvality strojového překladu oooooooo#ooooo Automatické hodnocení kvality BLEU - příklad system a: | Israeli officials | responsibility of | airport | safety 2-gram match 1-gram match reference: Israeli officials are responsible for airport security system b: | airport security 11 Israeli officials are responsible! 2-gram match 4-gram match metrika systém A systém B přesnost (1gram) 3/6 6/6 přesnost (2gram) 1/5 4/5 přesnost (3gram) 0/4 2/4 přesnost (4gram) 0/3 1/3 brevity penalty 6/7 6/7 BLEU 0% 52% Hodnocení kvality strojového překladu ooooooooo»oooo Automatické hodnocení kvality Další metriky • NIST • NIST: National Institute of Standards and Technology • vážení shod n-gramů podle informační hodnoty • velmi podobné výsledky jako BLEU (varianta) • N EVA • Ngram EVAluation • úprava BLEU skóre pro kratší věty • bere v potaz i synonyma (kladně hodnotí použití synonyma ve smyslu stylistické bohatosti) • WAFT • Word Accuracy for Translation • editační vzdálenost mezi car • WAFT = 1-^vj Hodnocení kvality strojového překladu oooooooooo#ooo Automatické hodnocení kvality Další metriky II TER • Translation Edit Rate • nejmenší počet kroků (smazání, přidání, prohození, změna) « TER — počet editací ~~ prum. počet ref. slov • r — dnes jsem si při fotbalu zlomil kotník • c — při fotbalu jsem si dnes zlomil kotník • TER = 4/7 HTER • Human TER • nejdříve ručně vytvořena r a na ni aplikováno TER METEOR • uvažuje synonyma (WordNet) a • morfologické varianty slov Hodnocení kvality strojového překladu ooooooooooo»oo Hodnocení hodnocení Hodnocení hodnotících metrik Korelace automatického hodnocení s manuálním. ♦ Adequacy o Fluency 0 F RJ = 9C J - 88.0°. .t nnf E. -3.0 -1 E -1 0 -0 E. 10 1 o : O < * Human Judgments Hodnocení kvality strojového překladu 000000000000*0 Hodnocení hodnocení Hodnocení překladu - EuroMatrix Euro! Matrix Hodnocení kvality strojového překladu ooooooooooooo* Hodnocení hodnocení Hodnocení překladu podle jazykových párů - II lůrgrt LangiugE m 315 3A ■ „ hu -■ .i L, WTT p. 3 D 71 :\ -j.: -r e :2 e ľ 3 :■ 4. H ľ: í :- E- EE E ľo: = 7 2 EE-.r 4= 4 EE E ľ2 E 4E 2 : ľ :■ -: 3 44.7 ľ?~ ľ2^- 32= E-L E J EE ~ EE - b E =4 :■ 4= E 2* :■ 2E- 7 424 22; 4=; b E 2E : 2í.r 44S = :■. 4ľ E EE = =4 ! = 4 | \\ \ DE ľ = r H E J Eľ - 43J. E 2.E- 47.1 2= 7 2E ľ- E E 4 27 E: 42.7 17 E- E j E E ■:■ 2 E3 2 44.1 30.7 Ir4 314 4ľL7. ZJ := - Í2.H 42 i J 4= i. = 4 5 4i i i j 7 = j '■ 41í 17 á- 44J3 =4 ■_■ í: i li i ii-: ii 2 4: 7 ir: 4i i. 4. i 42 i DA ľ T E 2E 7 44.1 Eľ r ■r E4.E *7.5 27 E E. E- 4. E 2^ 2 4E =■ IE _ E2 r 2. . IE- ľ E4 E 4ľ 4 EE I e E ? EE 2 47. Z i. :=: n_í 411 =7.7 —: :4 :■ 15: 2i j 4i i 2i 7 4i 5. 2ř j EIE 2= E- 4i. i Í4J2 :2: i7 2 Ei _ ii i 4E i E E e:- h Ei . 42.7 E7: 444- EE 4 ^ 2í-4 2E ľ . E z*ja 31T IE- E E J.ľ- 21 E. 4E E E E.E ľ7 E EE L e. ~ E E.í 4= J ~ :i j i-1 j E7 E e: L = 7 E 12 2 -j 4 J 37.7 E E 4 e: e E7 i e: :■ E: E m: 43-2 E2 j E7 E ů :■ = ; ^ E 2 E E7 E f1 -e E l e 1 EE j E 2.j = 7 E 27 2 39.7 :- E J 2E ľ- 272 EE e e:j ľ- E Z.l :=.4 4i 7 37J 2E-.: 17 E 2E-2 E7 E = =! E— :■ E-: : ee : 47.4 -i E E-; E 2E.7 e; í J 2:: :e . 2E E E. E Lľ.E :. e E ľ.7 E. ? 4E š ee - e: e 4ľ E -j —E j 21.7 äia ■j j e E i 2ľ-.ľ- Z4.1 2E- E- 2r 4 E j 7 ee : 2E E E L E ti: 361 2E E 34JZ 2^ 7 Iľ E- 2E2 EJ ľ n E. j E2 . 443 EE e 4ľ E- 43 E- 2r E : ľ 3 2r 7 ľ 2 - 24.2 > IE 1 E2 r 21 E ľl- ľ E^ 2 ľE ľ EE e = 2 ľ 34.7 4^ E LT J. e 17.5 ii e = 7 3 Ei i iľ: 2S.1 =4.1 UJO = 44 2i : ii e. 22 2 ii- . ÍL6 3UG 2Í-.e ž. i- í:- i í: í :\ ľ4 :■ 2E . Eľ j E7 =■ EE- ľ- 2E 7 u- E =4.2 ZZA E ľ E- 2E E EE e E34 2E E 4_ ľ E4 4 EE Ě E. 3 e E E E7 . EE.0 V~ n. e: : Í7JZ i7 e = =- = 32.7 42.7 2E- i U 3 4Z> 22 4 43.7 SLZ ii 2 44J i ■ . 4ľ i ii ž = : í 4XLQ 4. i ľ = E n e -E E E7 j -ľ- - Eľ E 4BL7 27 ľ L E H 4E 4 2ľ-.E —: 2E E 317 21.3 J E2 j 47.7 EE 3 e j : E4 E- 4= r PL =■:■ i = . : 4CĽZ — 2 42 J. = 4 I 4i I IE-1 2ř j 4(L0 24 : 4i 2 ZLZ i ľ- 5- 27 í 44 i. J 44H EE i ee 2 EE E 42 i PT e j r E. - -i E EE - 4; e 4 j 2 EŮ ■ 2E-4 2r i ľ E 2 2E B ľ2 3 IE j E L ľ- 21 E 4E E \- ľ J EE 4 = 2 . 344 4= í so iľ.E E: . EE : E7 = 10 E E ľ.e. 4 24; 25 2 -e : 2: j 443 2E 4 2E.E 2E _ 4IH e:- e. -:. : J e. : EM E E.4 E^ EO E- E2 r EE - 43.1 41 .g E E.E 46.Z n e 2E 4 E E 4 27.4 412 EE i E i T 2= ľ 44> EE. 3 4E E Eľ e J 42 E 4. E- e. :■ E E.. E7 E 4E : 42 E E4 : 47.0 E. . 2E E E E 2 11 7 42 e =4 í E 7 E E í :■ 4ľ E EE 2 44.1 e: e EE E 42 7 EV :=: 1=.: 4JJQ Eľ- e 4E E EE E 4E- E £74 EJ r E E E 22 ľ 42 !■ IE 2 EJ 3 2= 7 4ľ E E2 2 442 3Z.T e. E EE ľ J