PA153 Počítačové zpracování přirozeného jazyka
06 - Korpusy a korpusové nástroje, značkování
Karel Pala, Vít Suchomel
Centrum ZPJ, Fl MU, Brno
21. října 2013
Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 1/42
Q Korpusy
• Co je korpus
• Tradiční textové korpusy
• Webové korpusy
• Paralelní a jiné korpusy
Q Korpusové nástroje
• Nástroje k získávání korpusů
• Korpusové manažery
Q Anotace
• Co jsou anotace
• Druhy
• Problémy
Q Literatura
Karel Pala, Vít Suchomel
PA153 Zpracování přirozeného jazyka
Definice
Korpus je soubor dat (textů) v přirozeném jazyce. Použití
• obecně: data ke studiu přirozeného jazyka
• lexikografové: slovníky
• lingvisté: jazykové analýzy, změny jazyka
• sociologové: jak a o čem píšeme, která témata jsou aktuální
• marketingoví experti: hodnocení značek a výrobků v textech
• statistické nástroje ZPJ: jazykové modely pro značkovače, analyzátory, překladové systémy, prediktivní psaní,...
Karel Pala, Vít Suchomel
PA153 Zpracování přirozeného jazyka
Korpusy, nástroje, značková
Příklady zdrojů dat
• tištěná média: knihy, časopisy, noviny, básně
• internet: články, prezentace, blogy, diskuze, tweety
• řeč: přepis záznamů řeči, filmové titulky
• ostatní: osobní korespondence, školní eseje
Karel Pala, Vít Suchomel
PA153 Zpracování přirozeného jazyka
Zvláštní vlastnosti korpusů
• podle data vzniku obsahu: synchronní x diachrónni
• jednojazyčné x vícejazyčné
• srovnatelné x paralelní
• podle zkrácení dokumentů: plné texty x zkrácené vzorky
• média: audio (záznam dialogu), video (záznam emocí)
Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 5/42
Q Korpusy
• Co je korpus
• Tradiční textové korpusy
• Webové korpusy
• Paralelní a jiné korpusy
Q Korpusové nástroje
• Nástroje k získávání korpusů
• Korpusové manažery
Q Anotace
9 Co jsou anotace
• Druhy
• Problémy
Q Literatura
Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 6/42
Tradiční textové korpusy
Vznik
• obvykle na objednávku vládní instituce, univerzity nebo nakladatelství
• zdroje: obvykle z tištěných médií - nakladatelství, skenování knih, přepisy rozhovorů
Výhody tradičních korpusů
• kontrolovaný obsah (vyvážená reprezentace žánrů a stylů)
• kvalitní a bohaté informace o datech (autor, název, rok vydání, žánr, styl, oblast)
• možnost opravy chyb
Nevýhody tradičních korpusů
• nedostatenčná velikost pro některá použití
• obtížné získávání dat, vysoké náklady
• problémy s autorskými právy
Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 7/42
Standard Corpus of Present-Day American English (Brown corpus)
• Brown University (Henry Kučera, W. Nelson Francis)
• 1964 (1971, 1979)
• 500 vzorků textu délky 2000 slov každý = 1 mil. slov
• http://khnt.aksis.uib.no/icame/manuals/brown/
Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 8/42
British National Corpus (BNC)
• Oxford University, Longman
• 1991-1994 (2001, 2007)
• vzorky textu délky 100 mil. slov dohromady
• 90% psaná řeč, 10% mluvená řeč
• http://www.natcorp.ox.ac.uk/
Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 9/42
Corpus of Contemporary American English (COCA)
Brigham Young University (Mark Davies) od 1990, každý rok přidáno 20 mil. slov 450 mil. slov (2013) http://corpus.byu.edu/coca/
Karel Pala, Vít Suchomel
PA153 Zpracování přirozeného jazyka
Korpusy, nástroje, značkování 10 / 42
Český národní korpus SYN
• Ústav ČNK na FF UK v Praze
• texty od 1990 vydání SYN2000, SYN2005, SYN2010
• 1,3 mld. slov (2010)
• http://korpus.cz/
Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 11 / 42
Korpus DESAM
• CZPJ Fl MU
• morfologicky označkovaný korpus českých textu
• desambiguované (jednoznačné) značkovaní
• 1 mil. slov
Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 12 / 42
Q Korpusy
• Co je korpus
• Tradiční textové korpusy
• Webové korpusy
• Paralelní a jiné korpusy
Q Korpusové nástroje
• Nástroje k získávání korpusů
• Korpusové manažery
Q Anotace
9 Co jsou anotace
• Druhy
• Problémy
Q Literatura
Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 13 / 42
Web je největší korpus
Myšlenka a iniciativa „Web as Corpus" (http://sigwac.org.uk/) Výhody internetových korpusů
• obrovské množství dat
• dokumenty různých druhů
• aktuální podoba psané formy jazyka
• snadná dostupnost, nízké náklady
Nevýhody internetových korpusů
• neuspořádanost
• nežádoucí obsah
• duplicity
• chyby
• víme, co stahujeme?
Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 14 / 42
Proč potrebujeme velké korpusy?
Přínosy velkých korpusů
• větší slovník (více různých slov)
• více/lepší příklady použití slov ve větách
• lepší pokrytí řídkých jazykových jevů
• více dat pro přesnější jazykové modely
Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 15 / 42
Velké textové korpusy získané z internetu v CZPJ
velikost velikost doba
korpusu korpusu stahování
jazyk [GB] [109 tokenů] [dny]
enTenTenl2 108 17.8 17
esAmTenTenll 44 8.7 14
arTenTenl2 58 6.6 28
czTenTenll 5.8 40
frTenTenl2 72 12.4 15
jpTenTenll 61 11.1 28
ruTenTenl2 198 20.2 14
turecké texty 26 4.1 14
V NLPC máme k dispozici také kolekci dat ClueWeb '09 — vyčištěná anglická část obsahuje zhruba 70 miliard tokenů.
Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 16 / 42
Q Korpusy
• Co je korpus
• Tradiční textové korpusy
• Webové korpusy
• Paralelní a jiné korpusy
Q Korpusové nástroje
• Nástroje k získávání korpusů
• Korpusové manažery
Q Anotace
9 Co jsou anotace
• Druhy
• Problémy
Q Literatura
Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 17 / 42
Paralelní korpus InterCorp
Ustav ČNK na FF UK v Praze
jazykové páry (vždy s češtinou) zarovnané na větách
10-30 mil. slov každý pár
http://korpus.cz/intercorp/
Karel Pala, Vít Suchomel
PA153 Zpracování přirozeného jazyka
Korpusy, nástroje, značkování 18 / 42
Další paralelní korpusy
• OPUS - dosptupná paralelní data (http://opus.lingfil.uu.se/)
• Europarl - jednání EP (http://www.statmt.org/europarl/)
• 1984 - Orwellův román
(http://nl.ij s.si/ME/Vault/CD/docs/1984.html)
Karel Pala, Vít Suchomel
PA153 Zpracování přirozeného jazyka
Google Books Ngrams
Vyhledávání ve skenovaných knihách
Pouze ntice slov (r? £ {1..5})
https://books.google.com/ngrams
Karel Pala, Vít Suchomel
PA153 Zpracování přirozeného jazyka
Korpusy, nástroje, značkování 20 / 42
Q Korpusy
• Co je korpus
• Tradiční textové korpusy
• Webové korpusy
• Paralelní a jiné korpusy
Q Korpusové nástroje
• Nástroje k získávání korpusů
• Korpusové manažery
Q Anotace
9 Co jsou anotace
• Druhy
• Problémy
O Literatura
Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 21 / 42
Postup získávání webových korpusů v CZPJ
• příprava jayzkově závislých modelů používaných v dalších krocích -učení na dokumentech z Wikipedie
• spuštění crawleru (SpiderLing)
• zpracování a vyhodnocování během běhu crawleru
► detekce znakové sady dokumentu (Chared)
► filtrování jazyka (vektor trigramů znaků)
► odstraňování nežádoucího obsahu (Justext)
► kontrola duplicitních dokumentů
► vyhodnocování průběžné výtěžnosti webových domén
• zpracování získaných dat
► odstranění podobných odstavců (Onion)
► tokenizace (Unitok nebo jiný nástroj)
► značkování morfologické a syntaktické — externími nástroji, jsou-li dostupné
► zakódovania nahrání do korpusového manažeru (Manatee/Bonito) Více v predmetu PA154 nástroje pro korpusy
Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 22 / 42
Web crawler
Web crawler je druh počítačového programu
• prochází internet (stránky propojené odkazy)
• stahuje dokumenty (metainformace, obsah)
• ukládá části dokumentů v různých formátech k dalšímu použití
Crawlery
• k získávání obsahu dokumentů - GoogleBot (navíc k indexování), Heritrix a mnoho dalších
• ke sbírání odkazů
• k získávání textových dokumentů pro ZPJ - SpiderLing
Karel Pala, Vít Suchomel
PA153 Zpracování přirozeného jazyka
Korpusy, nástroje, značkování
Ukázka dat v korpusu - XML vertikální formát
Po
sedmi
letech
v
kouzelné
Parizi i
•
Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 24 / 42
Q Korpusy
• Co je korpus
• Tradiční textové korpusy
• Webové korpusy
• Paralelní a jiné korpusy
Q Korpusové nástroje
• Nástroje k získávání korpusů
• Korpusové manažery
Q Anotace
9 Co jsou anotace
• Druhy
• Problémy
Q Literatura
Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 25 / 42
Obecný korpusový manažer
• příprava textu - převod z různých formátů
• zahrnutí metadat (informací o datech - zdroj, autor, téma, žánr, datum)
• tokenizace (rozdělení na slova, interpunkce, znaky)
• anotace (značkování)
• efektivní uchování korpusu - datové struktury umožňující rychlé získání uložených dat
• konkordance - získání úseků textů odpovídajících uživatelským dotazům
• výpočet statistik - vyhledání typických vzorů v datech, frekvenční distribuce, souvýskyty
Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 26 / 42
Word Sketch Engine
• korpusový manažer (a více)
• vyvíjený od roku 2000 v CZPJ Fl MU (dizertační práce Pavla Rychlého)
• od 2003 spolupráce s průmyslovým partnerem Lexical Computing
• hlavní komponenty
► Manatee - korpusový manažer
► Bonito - uživatelské rozhraní a API
► Corpus Architect - vytváření uživatelských korpusů a jejich nahrávání do Manatee
• pro zaměstnance a studenty MU zdarma na https://ske.f i.muni.cz
Karel Pala, Vít Suchomel
PA153 Zpracování přirozeného jazyka
Korpusy, nástroje, značkování 27 /
Manatee - korpusový manažer
• akceptuje XML vertikální formát dat
• podporuje metadata a anotace, jsou-li správně předzpracovány
• korpusy uchovává efektivně
• konkordance - získání úseků textů odpovídajících uživatelským dotazům
• Word Sketch = slovní profil - stručný přehled kolokačního a gramatického chování slova
• výpočet statistik - vyhledání typických vzorů v datech, frekvenční distribuce, souvýskyty
• více v předmětu PA154 Statistické nástroje pro korpusy (jaro 2014)
Karel Pala, Vít Suchomel
PA153 Zpracování přirozeného jazyka
Korpusy, nástroje, značkování 28
Corpus Query Language (CQL)
• dotazovací jazyk podporovaný Manatee
• slouží k vyhledání tokenů v korpuse
• využívá regulárních výrazů
• příklad: [lemma=11 červený" | lemma="černý"] [tag="kl. *nP. *"] dvě bezprostředně následující slova, prvníma základní tvar „červený" nebo „černý", druhé je podstatné jméno v množném čísle, například „červenými domky" je platný odpovídající výraz
Karel Pala, Vít Suchomel
PA153 Zpracování přirozeného jazyka
Korpusy, nástroje, značkování 29 /
Bonito - uživatelské rozhraní a API
• převádí uživatelské dotazy do CQL
• volá funkce Manatee
• výsledek zobrazuje uživateli nebo ve formátu JSON pro API
• ukázka: https://ske.fi.muni.cz
Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 30 / 42
Corpus Architect - uživatelské korpusy
• zajišťuje autentizaci a přístup uživatelů k jejich korpusům
• ukládá a zpracovává uživatelská data
• zpracovaná data nahrává do Manatee
• obsahuje univerzální tokenizaci
• pracuje s morfologickými analyzátory pro více než 10 jazyků
• zahrnuje nástroj WebBootCaT k získávání korpusů z internetu
Karel Pala, Vít Suchomel
PA153 Zpracování přirozeného jazyka
Korpusy, nástroje, značkován
Alternativy k některým funkcím Sketch Engine
• samostatné vyhledávací nástroje pro daný korpus (např. BNC)
• WordSmith (Mike Scott, http://www.lexically.net/wordsmith)
• AntConc (Laurence Anthony,
http://www.antlab.sci.waseda.ac.jp/antconc_index.html)
Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 32 / 42
Q Korpusy
• Co je korpus
• Tradiční textové korpusy
• Webové korpusy
• Paralelní a jiné korpusy
Q Korpusové nástroje
• Nástroje k získávání korpusů
• Korpusové manažery
Q Anotace
• Co jsou anotace
• Druhy
• Problémy
Q Literatura
Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 33 / 42
Anotace
Anotace je přidávání lingvistických informací do korpusu.
• informace o zpracování dat (např. rozdělení na tokeny)
• metadata textů (zdroj, autor, téma, žánr, datum)
• struktury (dokument, odstavec, věta, zarovnání, mluvčí)
• značkování - přiřazení značky (např. slovního druhu) k tokenu
Karel Pala, Vít Suchomel
PA153 Zpracování přirozeného jazyka
Korpusy, nástroje, značkování
Q Korpusy
• Co je korpus
• Tradiční textové korpusy
• Webové korpusy
• Paralelní a jiné korpusy
Q Korpusové nástroje
• Nástroje k získávání korpusů
• Korpusové manažery
Q Anotace
9 Co jsou anotace
• Druhy
• Problémy
Q Literatura
Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 35 / 42
Druhy anotace
• morfologická (slovní druh a jiné gramatické kategorie)
► u nás (čeština): morfologický analyzátor Majka
► jiné: TreeTagger (enTenTenl2), CLAWS (BNC, COCA), FreeLing (esTenTenll)
• syntaktická (parsing - závislostní nebo složkové stromy, chunking -rozdělení na fráze jmennou /NP/, slovesnou /VP/, předložkovou /PP/)
► u nás (čeština): Synt, SET, DIS/VADIS, IOBBER (polština)
► jiné: MST Parser, MaltParser
• sémantická (word sense tagging/desambiguation /WSD/ - rozlišení významu slova, named entity recognition - rozpoznání jmenných entit /NER/)
► u nás (čeština): DESAMB - desambiguace morfologických značek
► jiné: WordNet, SuperSenseTagger - WSD, NER
• koreference (určení anafory)
► u nás (angličtina): SARA
• pragmatická (označení mluvčího, komunikační situace)
Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 36 / 42
Ukázka anotací v korpusu - XML vertikální formát
Po po k7c6 0 8
sedmi sedm k4c6 1 7
letech léto klgNnPc6 2 7
v v k7c6 3 10
kouzelné kouzelný k2eAgFnSc6dl 4 9
Paříži Paříž klgFnSc6 5 9
! ! kx 6 11
7 8
8 11
9 10
10 11
11 —
Karel Pala, Vít Suchomel PA153 Zpracování 1 Korpusy, nástroje, značkování 37 / 42
Editory anotací
• výstup vždy v XML
• GATE http: //gate. ac. uk/
• Brat http://brat.nlplab.org/
• WordSmith http://www.lexically.net/word.smith
• u nás: Phrase Annotator (shallow parsing: fráze, závislosti), Sysel (sémantické kategorie)
Karel Pala, Vít Suchomel
PA153 Zpracování přirozeného jazyka
Korpusy, nástroje, značkování
Q Korpusy
• Co je korpus
• Tradiční textové korpusy
• Webové korpusy
• Paralelní a jiné korpusy
Q Korpusové nástroje
• Nástroje k získávání korpusů
• Korpusové manažery
Q Anotace
9 Co jsou anotace
• Druhy Problémy
Q Literatura
Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 39 / 42
Problémy s anotacemi
Manuální x automatická
• Ruční anotace je zdlouhavá a nákladná. Přesto nemusí být dokonalá.
• Nedokonalá automatická anotace (naučená na ručně anotovaných datech) je pro velká data nevyhnutelná.
Cyklické anota Ce (podle lekce Corpus Mark-up)
• Data v korpusu pozorujeme skrz anotace. Byly-li kategorie anotací zvoleny a anotace provedena ještě před průzkumem korpusu, došlo k omezení předem, na jaké otázky se můžeme při pozorování korpusu ptát.
• Řešením je cyklicky
► analyzovat korpus
► na základě toho volit parametry anotací
► anotace provádět
Karel Pala, Vít Suchomel
PA153 Zpracování přirozeného jazyka
Korpusy, nástroje, značkování 40 /
Q Korpusy
• Co je korpus
• Tradiční textové korpusy
• Webové korpusy
• Paralelní a jiné korpusy
Q Korpusové nástroje
• Nástroje k získávání korpusů
• Korpusové manažery
Q Anotace
9 Co jsou anotace
• Druhy
• Problémy
Q Literatura
Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 41 / 42
Literatura
• Kilgarriff, Adam, Gregory Grefenstette. Introduction to the special issue on the web as corpus. In Computational linguistics 29.3 (2003): s. 333-347.
• RYCHLÝ, Pavel a Pavel SMRŽ. Manatee, Bonito and Word Sketches for Czech. In Proceedings of the Second International Conference on Corpus Linguisitcs. Saint-Petersburg: Saint-Petersburg State University Press, 2004. s. 124-132, 9 s.
• KILGARRIFF, Adam, Pavel RYCHLÝ, Pavel SMRŽ a David TUGWELL. The Sketch Engine. In Proceedings of the Eleventh EURALEX International Congress. Lorient, France: Universite de Bretagne-Sud, 2004. s. 105-116, 12 s.
• Corpus Query Language ve Sketch Engine:
http://trac.sketchengine.co.uk/wiki/SkE/CorpusQuerying
• Lekce Corpus Mark-up od Matthew Brook O'Donnela z UoL Summer Institute in Corpus Linguistics: www.lexically.net/courses/ sessions/mar kup/Corpus°/020Mark-up. ppt
Karel Pala, Vít Suchomel PA153 Zpracování přirozeného jazyka Korpusy, nástroje, značkování 42 / 42