Better Web Corpora For Corpus Linguistics And NLP

Suchomel, Vít

Disertační práce

Better Web Corpora For Corpus Linguistics And NLP

RNDr. Vít Suchomel, učo 139723

Anotace

Počítačoví lingvisté využívají internet jako zdroj obrovského množství textových dat k rozličným úkolům zpracování přirozeného jazyka a jazykovým studiím. Internetové korpusy můžeme vytvářet ve velikostech steží dosažitelných pomocí tradičních metod sestavování korpusů. Tato práce představuje stahovač navržený k získávání textů z internetu. Umožňuje sestavovat velké textové korpusy pro úlohy zpracování …víceméně

Abstract

The internet is used by computational linguists, lexicographers and social scientists as an immensely large source of text data for various NLP tasks and language studies. Web corpora can be built in sizes which would be virtually impossible to achieve using traditional corpus creation methods. This thesis presents a web crawler designed to obtain texts from the internet allowing to build large text …víceméně

Klíčová slova

Web corpora Web crawling Text processing Language identification Discerning similar languages Spam removal Corpus annotation Inter-annotator agreement Text types Text topic Text genre

Administrativní informace

Práce zkontrolována:
1. 7. 2020 13:47, doc. Mgr. Pavel Rychlý, Ph.D., učo 3692

Zadáno/změněno 9. 7. 2020 10:20, Ada Nazarejová, DiS., učo 215785
Záznam založen 10. 7. 2012 10:55, Ada Nazarejová, DiS., učo 215785
Zveřejnit od 4. 5. 2020 12:15, Ada Nazarejová, DiS., učo 215785
Práce převzata 4. 5. 2020 12:15, Ada Nazarejová, DiS., učo 215785

Plný text práce

4,8 MB / soubor PDF

Přílohy (1)

Přílohy

Rozhodnuti_o_komisi_-_VS.pdf

Příloha

Jazyk práce

angličtina

Termín obhajoby

8. 7. 2020

Práce byla úspěšně obhájena

Vedoucí

doc. Mgr. Pavel Rychlý, Ph.D., učo 3692
KSUZD FI MU

Posudek vedoucího

Oponenti

doc. Mgr. Václav Cvrček, Ph.D.
FF UK v Praze, Ústav Českého národního korpusu

Posudek oponenta

Dr. Serge Sharoff
University of Leeds, School of Languages, Cultures and Societies

Posudek oponenta

Citovat tuto práci

Citace dle normy ČSN ISO 690

SUCHOMEL, Vít. Better Web Corpora For Corpus Linguistics And NLP. Online. Disertační práce. Brno: Masarykova univerzita, Fakulta informatiky. 2020. Dostupné z: https://is.muni.cz/th/u4rmz/.

@PhdThesis{Suchomel2020thesis, AUTHOR = {Suchomel, Vít}, TITLE = {Better Web Corpora For Corpus Linguistics And NLP}, YEAR = {2020}, TYPE = {Disertační práce}, INSTITUTION = {Masarykova univerzita, Fakulta informatiky}, LOCATION = {Brno}, SUPERVISOR = {Pavel Rychlý}, URL = {https://is.muni.cz/th/u4rmz/}, URL_DATE = {2026-07-21}, }

{{Citace kvalifikační práce | příjmení = Suchomel | jméno = Vít | instituce = Masarykova univerzita, Fakulta informatiky | odkaz na instituci = Fakulta informatiky Masarykovy univerzity | titul = Better Web Corpora For Corpus Linguistics And NLP | url = https://is.muni.cz/th/u4rmz/ | typ práce = Disertační práce | vedoucí = Pavel Rychlý | odkaz na vedoucího = {{UČO na článek|3692}} | místo = Brno | rok = 2020 | počet stran = | strany = | citace = 2026-07-21 | poznámka = | jazyk = en }}

Masarykova univerzita Fakulta informatiky

Studijní program

Informatika (čtyřleté)

Obor

Počítačové systémy a technologie

Práce na příbuzné téma

Seznam prací, které mají shodná klíčová slova.

Corpora from reddit.com texts

Mgr. Jan Brichta
Topic Classification for Web Corpora: Method Comparison and Crosslingual Transfer

Mgr. Rastislav Papčo
Návrh a implementace algoritmu pro analýzu a komparaci edukačně-medicínských dat

Mgr. Kateřina Ježová
Token-level Language Identification Using Pre-trained Language Models

Bc. Emma Bednaříková, učo 536251
Vergleichende Analyse der Sprache der Zeitungen "Die Tagespost" und "Mainpost"

Mgr. et Mgr. Pavel Peřina
Learner Translation Corpus: CELTraC (Czech-English Learner Translation Corpus)

Mgr. Kristýna Štěpánková
Porovnávání textových dat z oblasti lékařských a zdravotnických oborů

Mgr. Petra Růžičková
Mapa akcií pre verejnosť

Mgr. Lenka Horváthová

Podobné práce

Název

Vložil

Vloženo

Práva

Archiv závěrečné práce Vít Suchomel FI D-IN4 PST, učo 139723 u4rmz/8

Nazarejová, A.

10. 7. 2012

Složky

Soubory

Anotace anglicky annotation_english.txt

Suchomel, V.

30. 6. 2020

Anotace česky annotation.txt

Suchomel, V.

30. 6. 2020

Klíčová slova keywords.txt

Suchomel, V.

30. 6. 2020

Plný text práce Better_Web_Corpora_For_Corpus_Linguistics_And_NLP.pdf

Suchomel, V.

4. 5. 2020

Posudek oponenta posudek_oponenta_Cvrcek.pdf

Nazarejová, A.

12. 6. 2020

Posudek oponenta posudek_oponenta_Sharoff.pdf

Nazarejová, A.

22. 6. 2020

Posudek vedoucího posudek_vedouciho_Rychly.pdf

Nazarejová, A.

14. 5. 2020

Příloha Rozhodnuti_o_komisi_-_VS.pdf

Nazarejová, A.

7. 7. 2020

Přidání souboru

Soubor nebo složku lze nahrát pomocí tlačítka Přidat.
Další operace se soubory

Podrobnosti lze zjistit označením příslušného řádku.
Pohled pro experty

Pro častou práci je možné zvolit režim Více možností.
Vyhledávání souborů

Vyhledávaný výraz můžete zadat přímo do adresního řádku.
Rychlý přístup k souborům

Pomocí funkce Nedávné je možné se rychle vrátit k právě prohlíženým souborům. Oblíbené soubory je také možné označit Hvězdičkou.

Závěrečná práce: RNDr. Vít Suchomel, učo 139723: Better Web Corpora For Corpus Linguistics And NLP

Disertační práce

Better Web Corpora For Corpus Linguistics And NLP

Anotace

Abstract

Klíčová slova

Přílohy

Rozhodnuti_o_komisi_-_VS.pdf

Vedoucí

Oponenti

Citace dle normy ČSN ISO 690

Práce na příbuzné téma

Složky

Soubory

Přidání souboru

Další operace se soubory

Pohled pro experty

Vyhledávání souborů

Rychlý přístup k souborům