Dasher Dasher - Character LM PA154 Jazykové modelování (4) Pavel Rychlý pary@fi.muni.cz March 16, 2017 autoři: David MacKay, David Ward Cambridge University; freeware podpora pro vysoce efektivní textový vstup za použití jiných prostředků než standardní počítačové klávesnice zadávání textu na obrazovce pomocí polohovacího zařízení (myš, joystick...) používá pravděpodobnostní prediktivní jazykový model stále se ladí (technologie zůstává stejná) PA154 Jazykové modelování (4) Dasher - Character LM O Dasheru Oblasti využití Dasher je zdarma open-source software podléhá požadavkům GNU Generel Public License abeceda pro více než 150 jazyků možnost nastavení barvy písma systém se učí a nabízí kombinace písmen, které jsou užívanější asistivní technologie (postižení - bez rukou, s jednou rukou...) PDA a mobilní telefony složité jazyky (např. japonština) PA154 Jazykové modelování (4) Dasher - Character LM PA154 Jazykové modelování (4) Dasher - Character LM Princip File Edit Options Control Prediction Help □ t o □ be oe or not to bE l öthltP em □ "b 1 písmena v abecedním pořadí, každé písmeno je v obdélníku obdélník s vybraným písmenem obsahuje opět úplnou abecedu, ze které lze vybrat 2.symbol atd. základní myšlenka: písmena s větší pravděpodobností jsou ve větším obdélníku o konkrétním rozložení se rozhoduje na základě jazykového modelu "Inverznľaritmetické kódování aritmetické kódování (komprese textu): kódové slovo je číslo z intervalu (0,1), postupným kódováním symbolů se intervaly zjemňují v poměru pravděpodobnosti výskytu znaku v Dasheru reprezentuje ypsilonová souřadnice celý interval (0,1), kde každý symbol abecedy má přiřazen segment délky odpovídající pravděpodobnosti jeho výskytu v daném kontextu PA154 Jazykové modelování (4) Dasher - Character LM PA154 Jazykové modelování (4) Dasher - Character LM Jazykový model PPM (Prediction by Partial Match) jazykové modely aproximující přirozený jazyk využívají statistické metody a jsou založeny na odhadech frekvence výskytu sekvencí slov nejpoužívanější jsou n-gramové modely (bigramy, trigramy), které určují pravděpodobnost výskytu určitého slova se znalostí n-1 okolních slov n-gramové modely je potřeba natrénovat z korpusu jazykový model použitý v Dasheru se neomezuje jen na koncept slov spojuje informace o n-gramech s pravděpodobnostmi výskytu jednotlivých symbolů ze slovníku kontext 4-5 symbolů PA154 Jazykové modelování (4) Dasher - Character LM PA154 Jazykové modelování (4) Dasher - Character LM PPM - 3 módy Jazykový model (3) Standard letter-based PPM (podle částečné shody počítá pravděpodobnost) Word-based model (slovník s četností slov) Mixture model (PPM/dictionary) jazykový model se učí v čase (učí se nové uživatelovy výrazy a obraty) vše, co napíšeme, se automaticky ukládá do souboru jako další trénovací data PA154 Jazykové modelování (4) Dasher - Character LM PA154 Jazykové modelování (4) Dasher - Character LM Další vlastnosti Druhy vstupních metod import trénovacích dat jednoduše načtením souboru zdroj dat pro češtinu: Ústav Českého národního korpusu FF UK jakékoliv abecedy: např. i LaTeX, C, IPA ostatní software - 2 módy: běžné psaní a doplňování slov (uživatel mezi nimi musí přepínat) Dashertyto režimy nerozlišuje počítačová myš touchpad touchscreen eyetracker headmouse dech tlačítka PA154 Jazykové modelování (4) Dasher - Character LM PA154 Jazykové modelování (4) Dasher - Character LM Myš, touchpad, touchscreen Eyetracker File Edit Options Help Rychlost vstupu s použitím myši: po 10 minutách tréninku 5-15 slov/min., po hodině 15-25 slov/min., zkušení uživatelé 40 slov za minutu ukázka Dasheru video: ipaq kamera + senzory snímající, na které místo na obrazovce zaměřuje uživatel pohled cena: 3000 USD PA154 Jazykové modelování (4) Dasher - Character LM PA154 Jazykové modelování (4) Dasher - Character LM Eye Dasher Eye Dasher - Uživatelská přívětivost rychlost vstupu: po deseti minutách tréninku 7 slov/min., po hodině 20 slov/min., zkušení uživatelé 30 slov za minutu eyetracking bez Dasheru, jen s virtuální (on-screen) klávesnicí: 15 slov/min., error-rate 5x vyšší poslední položka. vstup za pomoci virtuální (on-screen) klávesnice je diskrétní (čekání na vypršení časovače, popř.mrknutí) Dasher poskytuje spojitý vstup video: eye_dasher PA154 Jazykové modelování (4) Dasher - Character LM PA154 Jazykové modelování (4) Dasher - Character LM Headmouse Breath Dasher IR kamera reflexivní body cena: 150-300 USD m prima umera mezi objemem plic a hodnotou ypsilonové souřadnice jednodimenzionální (nelze zpět) proto: Control mode Control area (Stop, Pause, Move, Delete) video: breath_dasher PA154 Jazykové modelování (4) Dasher - Character LM PA154 Jazykové modelování (4) Dasher - Character LM Button Dasher Dasher vs. rozpoznávání řeči 3 směry ■ dopředu nahoru ■ dopředu dolů ■ zpět nepoužitelnost systémů pro automatické rozpoznávání řeči v hlučném prostředí i u nejlepších rozpoznávačů asi 5 % chyb (náročná editace chyb) PA154 Jazykové modelování (4) Dasher - Character LM PA154 Jazykové modelování (4) Dasher - Character LM Speech Dasher Další možnosti - Swype 1. krok: standardní rozpoznávání řeči 2. krok: kontrola a oprava rozpoznané promluvy pomocí Dasheru rychlejší než oprava s použitím samostatného rozpoznávání řeči (speciální příkazy) rychlejší než samostatný Dasher video: speech.dasher vyvinuto společností Nuance Communications psaní nepřerušovaným tahem na klávesách QWERTY odhadování slov pomocí prediktivního slovníku (můžeme doplňovat i vlastní slova) větší přesnost pro delší slova (krátká obvykle více možností interpretace tahu na obrazovce) zápis bez diakritiky, nabízené varianty s diakritikou PA154 Jazykové modelování (4) Dasher - Character LM PA154 Jazykové modelování (4) Dasher - Character LM Swype (2) Další možnosti -SwiftKey zvládá i jednoduchou interpunkci (i smajlíky) aplikace je schopna učit se z Facebooku, Gmailu, Twitteru. dostupný i v češtině možnost diktování v angličtině pomocí modulu Dragon Dictation video http://www.youtube■com/watch?v=SJ-RAefCG_c zdarma pro Android (pro iOS pouze v angličtině) učí se pomocí předchozí textové komunikace (SMS, Gmail, texty v RSS, přizpůsobuje se i písmenům, která opakovaně mačkáte mírně mimo) více jazyků (i více zároveň) oprava překlepů predikce příštího slova (nabízí nejpravděpodobnější varianty následujících slov) PA154 Jazykové modelování (4) Dasher - Character LM PA154 Jazykové modelování (4) Dasher - Character LM SwiftKey (2) Další možnosti -SlidelT kvalitní slovníky (odpovídají trendům v komunikaci) lze psát ve stylu Swype (tažením) - pod funkcí Flow lze zapnout funkce diktování v angličtině video: http://www.youtube.com/watch?v=kA5Horw_SOE PA154 Jazykové modelování (4) Dasher - Character LM Další možnosti -GO Keyboard predikce v mnoha jazycích možnost změny skinů a pozadí možnost importu jmen a SMS do slovníku podpora zadávání textu Swype stylem video: http://www.youtube.com/watch?v=XQRRvSwpmWc PA154 Jazykové modelování (4) Dasher - Character LM podobné klávesnici Swype - psaní tažením mezi znaky nižší požadavky na přesnost psaní kvalitní slovníky (možnost doinstalovat další) dopočítává varianty slov, které chtěl uživatel napsat automatické doplňování mezer a velkých písmen (bohužel chybové) video: http://www.youtube.com/watch?v=Tp_7bWuvQwQ PA154 Jazykové modelování (4) Dasher - Character LM Další možnosti Perfect keyboard TouchPal keyboard Google keyboard Siine Shortcut keyboard PA154 Jazykové modelování (4) Dasher - Character LM