Lingvistický software n Morfologický analyzátor -- AJKA n Morfologická databáze -- I_PAR n Desambiguace Základní pojmy n Značka (tag, index) -- kód přiřazený k jednotlivým tvarům slov nesoucí informaci o jejich gramatických charakteristikách n Tagset -- soubor používaných značek n Značkování (tagování, tagging, anotace, indexování) -- ruční, automatické, poloautomatické n Desambiguace -- zjednoznačnění, výběr správné značky v závislosti na postavení slova v kontextu Využití morfologického analyzátoru n Morfologická databáze n Morfologické značkování korpusů, syntaktická analýza, sémantická analýza n Využití pro jiné slovanské jazyky -- slovenština n Kontrola pravopisu, překladače, slovníky, webové prohlížeče Formální popis morfologie n slovo = řetězec znaků ohraničený z obou stran mezerami n Segmentace slova KMZ -- IS -- T (kmenový základ, intersegment, koncovka) n Koncovkové množiny, slovník kmenů a intersegmentů n Seznam vzorů Počet vzorů a lemmat v I_PARu n substantiva 778 lemmat 131 738 n adjektiva 69 lemmat 170 768 n zájmena 105 lemmat 199 n slovesa 757 lemmat 42 716 n adverbia 72 lemmat 41 593 n všech vzorů 1838 celkem lemmat 389 732 Průběh morfologické analýzy n Rozeznání neohebných slovních druhů n Rozeznávání slova od začátku - záporka --ne - superlativní prefix --nej n Segmentace slova odzadu - koncovka - intersegment - kmenový základ - přiřazení ke vzoru Homografie + Homomymie - Desambiguace n Ruční, automatická n Nástroj pro desambiguaci CED n Nelze desambiguovat Německá firma Tebis v Hannoveru představila kompaktní zařízení pro firemní modelárny. Technické řešení těsnění nádrží a podlah... Myrha je přírodní pryskyřice, aloe je vonné dřevo. V osmi letech měl za sebou účinkování v mnoha televizních show... Dolní listy jsou obvejčité, čepel se zužuje v ouškatý řapík. Jak lze z názvu vytušit, jde o nástroje pro zprostředkování databázových transakcí a tvorbu dotazů prostřednictvím standardu SQL. Jak nám řekl ředitel tohoto závodu, nebyla to jejich chyba...