Základy matematiky a statistiky pro humanitní obory II Pavel Rychlý Vojtěch Kovář Fakulta informatiky, Masarykova univerzita Botanická 63a, 602 00 Brno, Czech Republic {pary, xkovar3}@fi.mimi.cz 3.5.2011 Pavel Rychlý, Vojtěch Kovář (Fl MU Brno) PLIN004 3.5.2011 1 /6 Obsah přednášky Obsah přednášky Statistika a zpracování jazyka Vyhledávání kolokací N-gramové jazykové modely Pavel Rychlý, Vojtěch Kovář (Fl MU Brno) PLIN004 3.5.2011 2 /6 Statistika a zpracování jazyka Statistika a zpracování jazyka Statistika a zpracování jazyka ^ Statistika je nástroj, který ► — pravděpodobnosti jevů, predikce ► Velké soubory dat o přirozeném jazyce ► ► ► ► ► Pavel Rychlý, Vojtěch Kovář (Fl MU Brno) PLIN004 3.5.2011 3/6 ■■I -1........1...... ..I .|........I...... Vyhledávání kolokací ^ Kolokace ► ► ► Jakým způsobem vyhledat v korpusu kolokace? ► dat? ► Pavel Rychlý, Vojtěch Kovář (Fl MU Brno) PLIN004 3.5.2011 4 /6 '■l -1........1...... ..I .|........I...... Jakým způsobem vyhledat v korpusu kolokace? ► ►— ► ► ►— ► ► ► ► hypotéza) = podle svých obvyklých pravděpodobnostních rozložení ► ► Pavel Rychlý, Vojtěch Kovář (Fl MU Brno) PLIN004 3.5.2011 5 /6 N-gramové jazykové modely N-gramové jazykové modely N-gramové jazykové modely ► ► «- P(wn\wi, ...,W„-l) ► Použiti ► ► ► ► ► není dost dat — špatný model Pavel Rychlý, Vojtěch Kovář (Fl MU Brno) PLIN004 3.5.2011 6 /6