IB047 Syntaktické značkování korpusů Pavel Rychlý pary@fi.muni.cz 17. března 2014 Pavel Rychlý IB047 Morfologické značkování ■ každý token značka ■ několik desítek až tisíc značek (obsahující gramatické kategorie) ■ Universal Tagset (Google) 12 značek - pouze slovní druhy ■ jeden sloupec ve vertkálním tvaru Pavel Rychlý IB047 Přístupy k syntaxi ■ pro každou větu vytvoříme strom zachycující vztahy mezi slovy a/nebo skupinami slov ■ frázový (složkový) postupně ze slov vytváříme skupiny ■ závislostní určujeme závislosti mezi jednotlivými slovy Outline Introduction State of the art Bushbank Sketch grammar SET parser Applications Conclusions Phrase structure formalism - example saw man

with a telescope Vojtěch Kovář Fl MU Brno Automatic syntactic analysis for real-world applications Outline Introduction State of the art Bushbank Sketch grammar SET parser Applications Conclusions Dependency formalism - example [root] adet Vojtěch Kovář Fl MU B ■mo Automatic syntactic analysis for real -world applications Outline Introduction State of the art Bushbank Sketch grammar SET parser Applications Conclusions Dependency vs. phrase-structure ■ Non-projectivity ■ disconnected phrases ■ not natural in the phrase structure notation ■ 20% of Czech sentences are reported to contain a non-projective dependency ■ Phrase structure - more fine-grained analysis ■ (new (queen of beauty)) ■ (new generation)(of fighters) ■ Coordinations and other "flat" phenomena ■ not natural in the dependency notation ■ problem for dependency analysis Vojtěch Kovář Fl MU B ■mo Automatic syntactic analysis for real -world applications Outline Introduction State of the art Bushbank Sketch grammar SET parser Applications Conclusions Non-projectivity - example Vojtěch Kovář Automatic syntactic analysis for real-world applications Fl MU Brno Outline Introduction State of the art Bushbank Sketch grammar SET parser Applications Conclusions Non-projectivity in phrase structure formalism Vojtěch Kovář Automatic syntactic analysis for real-world applications Fl MU Brno Outline Introduction State of the art Bushbank Sketch grammar SET parser Applications Conclusions Non-projectivity in phrase structure formalism měl Malou chaloupku < □ ► < [5? ► ■< .g ► ■< š ► ■= -OcvO Vojtěch Kovář Fl MU Brno Automatic syntactic analysis for rea -world applications Outline Introduction State of the art Bushbank Sketch grammar SET parser Applications Conclusions Non-projectivity in phrase structure formalism met Malou chaloupku Vojtěch Kovář Automatic syntactic analysis for real-world applications Fl M U Brno Outline Introduction State of the art Bushbank Sketch grammar SET parser Applications Conclusions Phrase structure expressivity [root] ^^prep-object fi9hters prep-object < □ ► 4 [5? ► ■< -š ► ■< š ► ■= •o<\ queen

1 1 1 1

1 1 1 of 1 beauty 1 New 1 generation 1 of 1 fighters Vojtěch Kovář Fl MU Brno Automatic syntactic analysis for rea l-world applic ations Outline Introduction State of the art Bushbank Sketch grammar SET parser Applications Conclusions Coordinations - dependency structure Vojtěch Kovář Automatic syntactic analysis for real-world applications Fl MU Brno Outline Introduction State of the art Bushbank Sketch grammar SET parser Applications Conclusions Coordinations - phrase structure fragment velmi těžký a rozměrný < □ ► < [5? ► ■< -š ► ■< š ► ■= -OcvO Vojtěch Kovář Fl MU Brno Automatic syntactic analysis for re al-world applications