Korpusová lingvistika - 2 Vývoj korpusové lingvistiky Mgr. Dana Hlaváčková, Ph.D. CJBB105 PRZA009 Vývoj korpusové lingvistiky • raná korpusová lingvistika (90. léta 19. st. - 50. léta 20. st.) • předěl - generativní lingvistika (50. léta 20. st.) • počátky počítačové techniky (50.-80. léta 20. st.) • rozvoj počítačové techniky (od. 80. let 20. st.) Raná korpusová lingvistika konec 19. st - 50. léta 20. st. štrukturalistická tradice, americký deskriptivismus, metody založené na zkoumání souborů textů a na empirii shromažďování jazykového materiálu, nahrávky výpovědí (analýza bottom-up) archiv, kartotéka, deníky, seznamy, slovníky společné prvky s pozdější korpusovou lingvistikou: - rozsah je důležitým parametrem - žánrová vyváženost souboru textů - zkoumání významů slov a homonymie - problematika slovní jednotky a lemmatizace (lemma = základní tvar slova) - morfologické, syntaktické i sémantické analýzy jazyka na základě textového materiálu Raná korpusová lingvistika • frekvence a lexikografie • akvizice jazyka • komparativní lingvistika • dialektologie a výzkum indiánských jazyků Raná korpusová lingvistika • 1) frekvence a počátky moderní lexikografie - excerpční lístky (ručně, na stroji) - kartotéky, výpisky z beletrie, novin, zapojení slova v kontextu (konkordance) - frekvenční studie - Friedrich Wilhelm Käding, 1897-1898 (11 mil. slov), Häufigkeitswörterbuch der deutschen Sprache, na dlouhou dobu nejrozsáhlejší jazykový materiál v podobě frekvenčních seznamů a frekvenčního slovníku - výuka jazyka pro cizince - frekvenční seznamy slov, frekvenční slovníky, navazující slovníky a učebnice k výuce jazyka pro cizince, např. Edward L. Thorndike (am. psycholog) - The Teacher's Word Book, 1921 Raná korpusová lingvistika • 2) akvizice jazyka - zápisy dětské mluvy, rodičovské deníky, později malý vzorek dětí a dlouhodobé sledování • William Thierry Preyer (1841-1897) • narodil se v Anglii, studoval a žil v Německu • působil v Jeně jako ředitel fyziologického ústavu • zakladatel dětské psychologie - založena na empirickém pozorovania experimentech - k výzkumu využívá rodičovské deníky - významné dílo Die Seele des Kindes - vývojová psychologie Raná korpusová lingvistika • 3) komparativní lingvistika - srovnávání významů slov z různých jazyků, studium jazyka Bible a dalších kanonických textů (užívání konkordancí) • 4) dialektologie a zapisování indiánských jazyků • dialektologie - pro češtinu v souvislosti s národním obrozením (pol. 19. st.) - historickosrovnávací a později štrukturalistický přístup • Franz Boas (1858-1942), pův. Němec, zakladatel moderní americké antropologie, studie indiánských kmenů - vystudoval fyziku a geografii - při výpravě do severní Kanady ho okouzlil jazyk a kultura domorodých kmenů - emigroval do USA-profesorem antropologie na Columbia University Korpusový přístup - kritika Kritika • kolem 1950 - Noam Chomsky - generativní lingvistika • racionalismus x empirie, kompetence x performance • odpor ke korpusovému přístupu k jazyku, korpusy nejsou v lingvistice potřebné, poskytují pokřivená data • před počítačové období - ruční hledání v rozsáhlých datech je příliš pracné • X rozvoj počítačové techniky po 2. sv. v. Korpusová lingvistika a počátky výpočetní techniky (50.-80. I. 20. st.) • vývoj i pod kritikou N. Chomského a jeho stoupenců • využívání prvních počítačů • konkordanční seznamy, strojově čitelné texty • počátky Digital Humanities - výzkum starověkých jazyků - Roberto Busa (1913-2011) - italský jezuitský kněz, studium spisů Tomáše Akvinského - spojení s IBM, konkordance, lemmatizace, 30 let práce, 56 tištěných svazků (70. léta 20. st.) - Index Thomisticus (webová verze 2005) - The Busa Price v oblasti DH Korpusová lingvistika a počítačová lexikografie (od 60. let 20. st.) BROWN CORPUS - průkopníci korpusové lingvistiky Henry Kučera (Jindřich Kučera), 1925-2010 studoval filozofii a lingvistiku na UK v Praze po r. 1948 emigrace do USA, doktorát na Harvardu, od r. 1955 profesor na Brown University (Slavic Department) autor jednoho z prvních automatických korektorů pravopisu W. Nelson Francis, 1910-2002, americký lingvista studoval na Harvardu a University of Pennsylvania, literatura, angličtina, řečtina, latina a francouzština profesor na Brown University (navštěvoval Kučerův kurz počítačové lingvistiky) Brown Corpus • Brown Corpus (Brown Standard Corpus of Present-Day American English), 1963-1964, Brown University • americká angličtina rodilých mluvčích • 500 textových vzorků (vždy 2000 slov) • 15 žánrových kategorií (časopisy, noviny, beletrie, odborná lit.), snaha o vyváženost • 1 mil. slov, vše z roku 1961 • morfologicky označkován (PoS tagging - 80 kategorií) • na delší dobu vzor pro další korpusy • na MU dostupný přes Sketch Engine • American Heritage Dictionary of the English Language, 1969 - 1. slovník založený na korpusu (Brown Corpus, třířádkové citace, preskripce i deskripce), Boston Sketch Br Q> 1 Zpětná vazba korpus] Brown M Konkordancí Seznamy ílov Word Sketch Tezaurus Najdi X Sketch-Diff Korpus info We úlohy Uložit jako subkorpus Možnosti zobrazení KWIC Věta Třídění Levý kontext Pravý kontext N ode Reference Zamíchat Vzorek Filtr Prekryvy 1. výskyt/dok. Frekvence Značky (tagsj Slovní tvary Dotazgo." 4,429 ^3,767.20 v milionu) B I Poslední Strana 1 ■222 Jdi ACM A01 A01 AO 1 A01 A01 A01 A01 A01 A 02 A 02 A 02 A 03 A 03 which inure to the best interest of both governments /NNS/govtrnmciit governor /NN/governor G0P /NP/&OP governor /NN/governor Gov- /NP/Gov. Gov- /NP/Gov. tP /W/go governor /NN/goverrwr Gov- /NP/Gov. got ,