Dasher - Character LM PA154 Jazykové modelování (4) Pavel Rychlý pary@fi.muni.cz March 16, 2017 Dasher ■ autoři: David MacKay, David Ward ■ Cambridge University; freeware ■ podpora pro vysoce efektivní textový vstup za použití jiných prostředků než standardní počítačové klávesnice ■ zadávání textu na obrazovce pomocí polohovacího zařízení (myš, joystick...) ■ používá pravděpodobnostní prediktivní jazykový model ■ stále se ladí (technologie zůstává stejná) PA154 Jazykové modelování (4) Dasher - Character LM 2/28 ■ Dasher je zdarma ■ open-source software ■ podléhá požadavkům GNU Generel Public License ■ abeceda pro více než 150 jazyků ■ možnost nastavení barvy písma ■ systém se učí a nabízí kombinace písmen, které jsou užívanější PA154 Jazykové modelování (4) Dasher - Character LM Oblasti využití ■ asistivní technologie (postižení - bez rukou, s jednou rukou...) ■ PDA a mobilní telefony ■ složité jazyky (např. japonština) PA154 Jazykové modelování (4) Dasher - Character LM 4/28 Princip File Edit Options Control Prediction Help n a n ne □ t o □ To be or not to be □ 1 ŕ em 1 ost 0 w t písmena v abecedním pořadí, každé písmeno je v obdélníku obdélník s vybraným písmenem obsahuje opět úplnou abecedu, ze které lze vybrat 2.symbol atd. základní myšlenka: písmena s větší pravděpodobností jsou ve větším obdélníku o konkrétním rozložení se rozhoduje na základě jazykového modelu PA154 Jazykové modelování (4) Dasher - Character LM 5/28 "Inverznľaritmetické kódování ■ aritmetické kódování (komprese textu): kódové slovo je číslo z intervalu (0,1), postupným kódováním symbolů se intervaly zjemňují v poměru pravděpodobnosti výskytu znaku ■ v Dasheru reprezentuje ypsilonová souřadnice celý interval (0,1), kde každý symbol abecedy má přiřazen segment délky odpovídající pravděpodobnosti jeho výskytu v daném kontextu PA154 Jazykové modelování (4) Dasher - Character LM 6/28 Jazykový model ■ jazykové modely aproximující přirozený jazyk využívají statistické metody a jsou založeny na odhadech frekvence výskytu sekvencí slov ■ nejpoužívanější jsou n-gramové modely (bigramy, trigramy), které určují pravděpodobnost výskytu určitého slova se znalostí n-1 okolních slov ■ n-gramové modely je potřeba natrénovat z korpusu PA154 Jazykové modelování (4) Dasher - Character LM 7/28 PPM (Prediction by Partial Match) ■ jazykový model použitý v Dasheru se neomezuje jen na koncept slov ■ spojuje informace o n-gramech s pravděpodobnostmi výskytu jednotlivých symbolů ze slovníku ■ kontext 4-5 symbolů PA154 Jazykové modelování (4) Dasher - Character LM 8/28 PPM - 3 módy Standard letter-based PPM (podle částečné shody počítá pravděpodobnost) Word-based model (slovník s četností slov) Mixture model (PPM/dictionary) PA154 Jazykové modelování (4) Dasher - Character LM 9/28 Jazykový model (3) ■ jazykový model se učí v čase (učí se nové uživatelovy výrazy a obraty) ■ vše, co napíšeme, se automaticky ukládá do souboru jako další trénovací data PA154 Jazykové modelování (4) Dasher - Character LM 10/28 Další vlastnosti ■ import trénovacích dat jednoduše načtením souboru ■ zdroj dat pro češtinu: Ústav Českého národního korpusu FF UK ■ jakékoliv abecedy: např. i LaTeX, C, IPA ■ ostatní software - 2 módy: běžné psaní a doplňování slov (uživatel mezi nimi musí přepínat) ■ Dasher tyto režimy nerozlišuje PA154 Jazykové modelování (4) Dasher - Character LM 11/28 Druhy vstupních metod počítačová myš touchpad touchscreen eyetracker headmouse dech tlačítka PA154 Jazykové modelování (4) Dasher - Character LM 12/28 Myš, touchpad, touchscreen File Edit Options Help Dasher is great 2.1 :■:■:■:■: Rychlost vstupu s použitím myši: po 10 minutách tréninku 5-15 slov/min., po hodině 15-25 slov/min., zkušení uživatelé 40 slov za minutu ukázka Dasheru video: ipaq PA154 Jazykové modelování (4) Dasher - Character LM 13/28 Eyetracker kamera + senzory snímající, na které místo na obrazovce zaměřuje uživatel pohled cena: 3000 USD PA154 Jazykové modelování (4) Dasher - Character LM 14/28 Eye Dasher ■ rychlost vstupu: po deseti minutách tréninku 7 slov/min., po hodině 20 slov/min., zkušení uživatelé 30 slov za minutu ■ eyetracking bez Dasheru, jen s virtuální (on-screen) klávesnicí: 15 slov/min., error-rate 5x vyšší ■ poslední položka. PA154 Jazykové modelování (4) Dasher - Character LM 15/28 Eye Dasher - Uživatelská přívětivost ■ vstup za pomoci virtuální (on-screen) klávesnice je diskrétní (čekání na vypršení časovače, popř.mrknutí) ■ Dasher poskytuje spojitý vstup ■ video: eye_dasher PA154 Jazykové modelování (4) Dasher - Character LM 16/28 Headmouse IR kamera reflexivní body cena: 150-300 USD PA154 Jazykové modelování (4) Dasher - Character LM 17/28 Breath Dasher ■ prima umera mezi objemem plic a hodnotou ypsilonové souřadnice ■ jednodimenzionální (nelze zpět) ■ proto: Control mode ■ Control area (Stop, Pause, Move, Delete) ■ video: breath_dasher PA154 Jazykové modelování (4) Dasher - Character LM 18/28 Button Dasher 3 smery ■ dopredu nahoru ■ dopredu dolü ■ zpet PA154 Jazykove modeloväni (4) Dasher - Character LM 19/28 Dasher vs. rozpoznávání řeči ■ nepoužitelnost systémů pro automatické rozpoznávání řeči v hlučném prostředí ■ i u nejlepších rozpoznávačů asi 5 % chyb (náročná editace chyb) PA154 Jazykové modelování (4) Dasher - Character LM 20/28 Speech Dasher ■ 1. krok: standardní rozpoznávání řeči ■ 2. krok: kontrola a oprava rozpoznané promluvy pomocí Dasheru ■ rychlejší než oprava s použitím samostatného rozpoznávání řeči (speciální příkazy) ■ rychlejší než samostatný Dasher ■ video: speech.dasher PA154 Jazykové modelování (4) Dasher - Character LM 21/28 Další možnosti - Swype ■ vyvinuto společností Nuance Communications ■ psaní nepřerušovaným tahem na klávesách QWERTY ■ odhadování slov pomocí prediktivního slovníku (můžeme doplňovat i vlastní slova) ■ větší přesnost pro delší slova (krátká obvykle více možností interpretace tahu na obrazovce) ■ zápis bez diakritiky, nabízené varianty s diakritikou PA154 Jazykové modelování (4) Dasher - Character LM 22/28 Swype (2) ■ zvládá i jednoduchou interpunkci (i smajlíky) ■ aplikace je schopna učit se z Facebooku, Gmailu, Twitteru... ■ dostupný i v češtině ■ možnost diktování v angličtině pomocí modulu Dragon Dictation ■ video http://www.youtube.com/watch?v=SJ-RAefCG_c PA154 Jazykové modelování (4) Dasher - Character LM 23/28 Další možnosti -SwiftKey ■ zdarma pro Android (pro iOS pouze v angličtině) ■ učí se pomocí předchozí textové komunikace (SMS, Gmail, texty v RSS, přizpůsobuje se i písmenům, která opakovaně mačkáte mírně mimo) ■ více jazyků (i více zároveň) ■ oprava překlepů ■ predikce příštího slova (nabízí nepravděpodobnější varianty následujících slov) PA154 Jazykové modelování (4) Dasher - Character LM 24/28 SwiftKey (2) kvalitní slovníky (odpovídají trendům v komunikaci) lze psát ve stylu Swype (tažením) - pod funkcí Flow lze zapnout funkce diktování v angličtině video: http://www.youtube.com/watch?v=kA5Horw_SOE PA154 Jazykové modelování (4) Dasher - Character LM 25/28 Další možnosti -SlidelT podobné klávesnici Swype - psaní tažením mezi znaky nižší požadavky na přesnost psaní kvalitní slovníky (možnost doinstalovat další) dopočítává varianty slov, které chtěl uživatel napsat automatické doplňování mezer a velkých písmen (bohužel chybové) video: http://www.youtube.com/watch?v=Tp_7bWuvQwQ PA154 Jazykové modelování (4) Dasher - Character LM 26/28 Další možnosti -GO Keyboard predikce v mnoha jazycích možnost změny skinů a pozadí možnost importu jmen a SMS do slovníku podpora zadávání textu Swype stylem video: http://www.youtube.com/watch?v=XQRRvSwpmWc PA154 Jazykové modelování (4) Dasher - Character LM 27/28 Další možnosti ■ Perfect keyboard ■ Touch Pal keyboard ■ Google keyboard ■ Siine Shortcut keyboard