Disertační práce

Better Web Corpora For Corpus Linguistics And NLP

RNDr. Vít Suchomel, učo 139723
Anotace

Počítačoví lingvisté využívají internet jako zdroj obrovského množství textových dat k rozličným úkolům zpracování přirozeného jazyka a jazykovým studiím. Internetové korpusy můžeme vytvářet ve velikostech steží dosažitelných pomocí tradičních metod sestavování korpusů. Tato práce představuje stahovač navržený k získávání textů z internetu. Umožňuje sestavovat velké textové korpusy pro úlohy zpracování …více

Abstract

The internet is used by computational linguists, lexicographers and social scientists as an immensely large source of text data for various NLP tasks and language studies. Web corpora can be built in sizes which would be virtually impossible to achieve using traditional corpus creation methods. This thesis presents a web crawler designed to obtain texts from the internet allowing to build large text …více

Práce zkontrolována:
1. 7. 2020 13:47, doc. Mgr. Pavel Rychlý, Ph.D., učo 3692
Jazyk práce
angličtina angličtina
Termín obhajoby
8. 7. 2020
Práce byla úspěšně obhájena

Vedoucí

doc. Mgr. Pavel Rychlý, Ph.D., učo 3692
KSUZD FI MU

Oponenti

doc. Mgr. Václav Cvrček, Ph.D.
FF UK v Praze, Ústav Českého národního korpusu
Dr. Serge Sharoff
University of Leeds, School of Languages, Cultures and Societies

  • Přidání souboru

    Soubor nebo složku lze nahrát pomocí tlačítka Přidat.
  • Další operace se soubory

    Podrobnosti lze zjistit označením příslušného řádku.
  • Pohled pro experty

    Pro častou práci je možné zvolit režim Více možností.
  • Vyhledávání souborů

    Vyhledávaný výraz můžete zadat přímo do adresního řádku.
  • Rychlý přístup k souborům

    Pomocí funkce Nedávné je možné se rychle vrátit k právě prohlíženým souborům. Oblíbené soubory je také možné označit Hvězdičkou.