PA153 Počítačové zpracování přirozeného jazyka 06 - Korpusy a korpusové nástroje, značkování Karel Pala, Vít Suchomel Centrum ZPJ, Fl MU, Brno 21. října 2013 Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 1/42 Q Korpusy • Co je korpus • Tradiční textové korpusy • Webové korpusy • Paralelní a jiné korpusy Q Korpusové nástroje • Nástroje k získávání korpusů • Korpusové manažery Q Anotace • Co jsou anotace • Druhy • Problémy Q Literatura Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Definice Korpus je soubor dat (textů) v přirozeném jazyce. Použití • obecně: data ke studiu přirozeného jazyka • lexikografové: slovníky • lingvisté: jazykové analýzy, změny jazyka • sociologové: jak a o čem píšeme, která témata jsou aktuální • marketingoví experti: hodnocení značek a výrobků v textech • statistické nástroje ZPJ: jazykové modely pro značkovače, analyzátory, překladové systémy, prediktivní psaní,... Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značková Příklady zdrojů dat • tištěná média: knihy, časopisy, noviny, básně • internet: články, prezentace, blogy, diskuze, tweety • řeč: přepis záznamů řeči, filmové titulky • ostatní: osobní korespondence, školní eseje Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Zvláštní vlastnosti korpusů • podle data vzniku obsahu: synchronní x diachrónni • jednojazyčné x vícejazyčné • srovnatelné x paralelní • podle zkrácení dokumentů: plné texty x zkrácené vzorky • média: audio (záznam dialogu), video (záznam emocí) Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 5/42 Q Korpusy • Co je korpus • Tradiční textové korpusy • Webové korpusy • Paralelní a jiné korpusy Q Korpusové nástroje • Nástroje k získávání korpusů • Korpusové manažery Q Anotace 9 Co jsou anotace • Druhy • Problémy Q Literatura Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 6/42 Tradiční textové korpusy Vznik • obvykle na objednávku vládní instituce, univerzity nebo nakladatelství • zdroje: obvykle z tištěných médií - nakladatelství, skenování knih, přepisy rozhovorů Výhody tradičních korpusů • kontrolovaný obsah (vyvážená reprezentace žánrů a stylů) • kvalitní a bohaté informace o datech (autor, název, rok vydání, žánr, styl, oblast) • možnost opravy chyb Nevýhody tradičních korpusů • nedostatenčná velikost pro některá použití • obtížné získávání dat, vysoké náklady • problémy s autorskými právy Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 7/42 Standard Corpus of Present-Day American English (Brown corpus) • Brown University (Henry Kučera, W. Nelson Francis) • 1964 (1971, 1979) • 500 vzorků textu délky 2000 slov každý = 1 mil. slov • http://khnt.aksis.uib.no/icame/manuals/brown/ Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 8/42 British National Corpus (BNC) • Oxford University, Longman • 1991-1994 (2001, 2007) • vzorky textu délky 100 mil. slov dohromady • 90% psaná řeč, 10% mluvená řeč • http://www.natcorp.ox.ac.uk/ Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 9/42 Corpus of Contemporary American English (COCA) Brigham Young University (Mark Davies) od 1990, každý rok přidáno 20 mil. slov 450 mil. slov (2013) http://corpus.byu.edu/coca/ Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 10 / 42 Český národní korpus SYN • Ústav ČNK na FF UK v Praze • texty od 1990 vydání SYN2000, SYN2005, SYN2010 • 1,3 mld. slov (2010) • http://korpus.cz/ Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 11 / 42 Korpus DESAM • CZPJ Fl MU • morfologicky označkovaný korpus českých textu • desambiguované (jednoznačné) značkovaní • 1 mil. slov Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 12 / 42 Q Korpusy • Co je korpus • Tradiční textové korpusy • Webové korpusy • Paralelní a jiné korpusy Q Korpusové nástroje • Nástroje k získávání korpusů • Korpusové manažery Q Anotace 9 Co jsou anotace • Druhy • Problémy Q Literatura Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 13 / 42 Web je největší korpus Myšlenka a iniciativa „Web as Corpus" (http://sigwac.org.uk/) Výhody internetových korpusů • obrovské množství dat • dokumenty různých druhů • aktuální podoba psané formy jazyka • snadná dostupnost, nízké náklady Nevýhody internetových korpusů • neuspořádanost • nežádoucí obsah • duplicity • chyby • víme, co stahujeme? Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 14 / 42 Proč potrebujeme velké korpusy? Přínosy velkých korpusů • větší slovník (více různých slov) • více/lepší příklady použití slov ve větách • lepší pokrytí řídkých jazykových jevů • více dat pro přesnější jazykové modely Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 15 / 42 Velké textové korpusy získané z internetu v CZPJ velikost velikost doba korpusu korpusu stahování jazyk [GB] [109 tokenů] [dny] enTenTenl2 108 17.8 17 esAmTenTenll 44 8.7 14 arTenTenl2 58 6.6 28 czTenTenll 5.8 40 frTenTenl2 72 12.4 15 jpTenTenll 61 11.1 28 ruTenTenl2 198 20.2 14 turecké texty 26 4.1 14 V NLPC máme k dispozici také kolekci dat ClueWeb '09 — vyčištěná anglická část obsahuje zhruba 70 miliard tokenů. Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 16 / 42 Q Korpusy • Co je korpus • Tradiční textové korpusy • Webové korpusy • Paralelní a jiné korpusy Q Korpusové nástroje • Nástroje k získávání korpusů • Korpusové manažery Q Anotace 9 Co jsou anotace • Druhy • Problémy Q Literatura Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 17 / 42 Paralelní korpus InterCorp Ustav ČNK na FF UK v Praze jazykové páry (vždy s češtinou) zarovnané na větách 10-30 mil. slov každý pár http://korpus.cz/intercorp/ Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 18 / 42 Další paralelní korpusy • OPUS - dosptupná paralelní data (http://opus.lingfil.uu.se/) • Europarl - jednání EP (http://www.statmt.org/europarl/) • 1984 - Orwellův román (http://nl.ij s.si/ME/Vault/CD/docs/1984.html) Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Google Books Ngrams Vyhledávání ve skenovaných knihách Pouze ntice slov (r? £ {1..5}) https://books.google.com/ngrams Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 20 / 42 Q Korpusy • Co je korpus • Tradiční textové korpusy • Webové korpusy • Paralelní a jiné korpusy Q Korpusové nástroje • Nástroje k získávání korpusů • Korpusové manažery Q Anotace 9 Co jsou anotace • Druhy • Problémy O Literatura Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 21 / 42 Postup získávání webových korpusů v CZPJ • příprava jayzkově závislých modelů používaných v dalších krocích -učení na dokumentech z Wikipedie • spuštění crawleru (SpiderLing) • zpracování a vyhodnocování během běhu crawleru ► detekce znakové sady dokumentu (Chared) ► filtrování jazyka (vektor trigramů znaků) ► odstraňování nežádoucího obsahu (Justext) ► kontrola duplicitních dokumentů ► vyhodnocování průběžné výtěžnosti webových domén • zpracování získaných dat ► odstranění podobných odstavců (Onion) ► tokenizace (Unitok nebo jiný nástroj) ► značkování morfologické a syntaktické — externími nástroji, jsou-li dostupné ► zakódovania nahrání do korpusového manažeru (Manatee/Bonito) Více v predmetu PA154 nástroje pro korpusy Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 22 / 42 Web crawler Web crawler je druh počítačového programu • prochází internet (stránky propojené odkazy) • stahuje dokumenty (metainformace, obsah) • ukládá části dokumentů v různých formátech k dalšímu použití Crawlery • k získávání obsahu dokumentů - GoogleBot (navíc k indexování), Heritrix a mnoho dalších • ke sbírání odkazů • k získávání textových dokumentů pro ZPJ - SpiderLing Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování Ukázka dat v korpusu - XML vertikální formát Po sedmi letech v kouzelné Parizi i • Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 24 / 42 Q Korpusy • Co je korpus • Tradiční textové korpusy • Webové korpusy • Paralelní a jiné korpusy Q Korpusové nástroje • Nástroje k získávání korpusů • Korpusové manažery Q Anotace 9 Co jsou anotace • Druhy • Problémy Q Literatura Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 25 / 42 Obecný korpusový manažer • příprava textu - převod z různých formátů • zahrnutí metadat (informací o datech - zdroj, autor, téma, žánr, datum) • tokenizace (rozdělení na slova, interpunkce, znaky) • anotace (značkování) • efektivní uchování korpusu - datové struktury umožňující rychlé získání uložených dat • konkordance - získání úseků textů odpovídajících uživatelským dotazům • výpočet statistik - vyhledání typických vzorů v datech, frekvenční distribuce, souvýskyty Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 26 / 42 Word Sketch Engine • korpusový manažer (a více) • vyvíjený od roku 2000 v CZPJ Fl MU (dizertační práce Pavla Rychlého) • od 2003 spolupráce s průmyslovým partnerem Lexical Computing • hlavní komponenty ► Manatee - korpusový manažer ► Bonito - uživatelské rozhraní a API ► Corpus Architect - vytváření uživatelských korpusů a jejich nahrávání do Manatee • pro zaměstnance a studenty MU zdarma na https://ske.f i.muni.cz Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 27 / Manatee - korpusový manažer • akceptuje XML vertikální formát dat • podporuje metadata a anotace, jsou-li správně předzpracovány • korpusy uchovává efektivně • konkordance - získání úseků textů odpovídajících uživatelským dotazům • Word Sketch = slovní profil - stručný přehled kolokačního a gramatického chování slova • výpočet statistik - vyhledání typických vzorů v datech, frekvenční distribuce, souvýskyty • více v předmětu PA154 Statistické nástroje pro korpusy (jaro 2014) Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 28 Corpus Query Language (CQL) • dotazovací jazyk podporovaný Manatee • slouží k vyhledání tokenů v korpuse • využívá regulárních výrazů • příklad: [lemma=11 červený" | lemma="černý"] [tag="kl. *nP. *"] dvě bezprostředně následující slova, prvníma základní tvar „červený" nebo „černý", druhé je podstatné jméno v množném čísle, například „červenými domky" je platný odpovídající výraz Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 29 / Bonito - uživatelské rozhraní a API • převádí uživatelské dotazy do CQL • volá funkce Manatee • výsledek zobrazuje uživateli nebo ve formátu JSON pro API • ukázka: https://ske.fi.muni.cz Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 30 / 42 Corpus Architect - uživatelské korpusy • zajišťuje autentizaci a přístup uživatelů k jejich korpusům • ukládá a zpracovává uživatelská data • zpracovaná data nahrává do Manatee • obsahuje univerzální tokenizaci • pracuje s morfologickými analyzátory pro více než 10 jazyků • zahrnuje nástroj WebBootCaT k získávání korpusů z internetu Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkován Alternativy k některým funkcím Sketch Engine • samostatné vyhledávací nástroje pro daný korpus (např. BNC) • WordSmith (Mike Scott, http://www.lexically.net/wordsmith) • AntConc (Laurence Anthony, http://www.antlab.sci.waseda.ac.jp/antconc_index.html) Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 32 / 42 Q Korpusy • Co je korpus • Tradiční textové korpusy • Webové korpusy • Paralelní a jiné korpusy Q Korpusové nástroje • Nástroje k získávání korpusů • Korpusové manažery Q Anotace • Co jsou anotace • Druhy • Problémy Q Literatura Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 33 / 42 Anotace Anotace je přidávání lingvistických informací do korpusu. • informace o zpracování dat (např. rozdělení na tokeny) • metadata textů (zdroj, autor, téma, žánr, datum) • struktury (dokument, odstavec, věta, zarovnání, mluvčí) • značkování - přiřazení značky (např. slovního druhu) k tokenu Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování Q Korpusy • Co je korpus • Tradiční textové korpusy • Webové korpusy • Paralelní a jiné korpusy Q Korpusové nástroje • Nástroje k získávání korpusů • Korpusové manažery Q Anotace 9 Co jsou anotace • Druhy • Problémy Q Literatura Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 35 / 42 Druhy anotace • morfologická (slovní druh a jiné gramatické kategorie) ► u nás (čeština): morfologický analyzátor Majka ► jiné: TreeTagger (enTenTenl2), CLAWS (BNC, COCA), FreeLing (esTenTenll) • syntaktická (parsing - závislostní nebo složkové stromy, chunking -rozdělení na fráze jmennou /NP/, slovesnou /VP/, předložkovou /PP/) ► u nás (čeština): Synt, SET, DIS/VADIS, IOBBER (polština) ► jiné: MST Parser, MaltParser • sémantická (word sense tagging/desambiguation /WSD/ - rozlišení významu slova, named entity recognition - rozpoznání jmenných entit /NER/) ► u nás (čeština): DESAMB - desambiguace morfologických značek ► jiné: WordNet, SuperSenseTagger - WSD, NER • koreference (určení anafory) ► u nás (angličtina): SARA • pragmatická (označení mluvčího, komunikační situace) Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 36 / 42 Ukázka anotací v korpusu - XML vertikální formát Po po k7c6 0 8 sedmi sedm k4c6 1 7 letech léto klgNnPc6 2 7 v v k7c6 3 10 kouzelné kouzelný k2eAgFnSc6dl 4 9 Paříži Paříž klgFnSc6 5 9 ! ! kx 6 11 7 8 8 11 9 10 10 11 11 — Karel Pala, Vít Suchomel PA153 Zpracování 1 Korpusy, nástroje, značkování 37 / 42 Editory anotací • výstup vždy v XML • GATE http: //gate. ac. uk/ • Brat http://brat.nlplab.org/ • WordSmith http://www.lexically.net/word.smith • u nás: Phrase Annotator (shallow parsing: fráze, závislosti), Sysel (sémantické kategorie) Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování Q Korpusy • Co je korpus • Tradiční textové korpusy • Webové korpusy • Paralelní a jiné korpusy Q Korpusové nástroje • Nástroje k získávání korpusů • Korpusové manažery Q Anotace 9 Co jsou anotace • Druhy Problémy Q Literatura Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 39 / 42 Problémy s anotacemi Manuální x automatická • Ruční anotace je zdlouhavá a nákladná. Přesto nemusí být dokonalá. • Nedokonalá automatická anotace (naučená na ručně anotovaných datech) je pro velká data nevyhnutelná. Cyklické anota Ce (podle lekce Corpus Mark-up) • Data v korpusu pozorujeme skrz anotace. Byly-li kategorie anotací zvoleny a anotace provedena ještě před průzkumem korpusu, došlo k omezení předem, na jaké otázky se můžeme při pozorování korpusu ptát. • Řešením je cyklicky ► analyzovat korpus ► na základě toho volit parametry anotací ► anotace provádět Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 40 / Q Korpusy • Co je korpus • Tradiční textové korpusy • Webové korpusy • Paralelní a jiné korpusy Q Korpusové nástroje • Nástroje k získávání korpusů • Korpusové manažery Q Anotace 9 Co jsou anotace • Druhy • Problémy Q Literatura Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 41 / 42 Literatura • Kilgarriff, Adam, Gregory Grefenstette. Introduction to the special issue on the web as corpus. In Computational linguistics 29.3 (2003): s. 333-347. • RYCHLÝ, Pavel a Pavel SMRŽ. Manatee, Bonito and Word Sketches for Czech. In Proceedings of the Second International Conference on Corpus Linguisitcs. Saint-Petersburg: Saint-Petersburg State University Press, 2004. s. 124-132, 9 s. • KILGARRIFF, Adam, Pavel RYCHLÝ, Pavel SMRŽ a David TUGWELL. The Sketch Engine. In Proceedings of the Eleventh EURALEX International Congress. Lorient, France: Universite de Bretagne-Sud, 2004. s. 105-116, 12 s. • Corpus Query Language ve Sketch Engine: http://trac.sketchengine.co.uk/wiki/SkE/CorpusQuerying • Lekce Corpus Mark-up od Matthew Brook O'Donnela z UoL Summer Institute in Corpus Linguistics: www.lexically.net/courses/ sessions/mar kup/Corpus°/020Mark-up. ppt Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 42 / 42