Do we need very large corpora?

PALA, Karel a Pavel RYCHLÝ. Do we need very large corpora? první. Praha: Nakladatelství Lidové Noviny, 2011, s. 33-39, 379 s. ISBN 978-80-7422-114-9.

Další formáty: BibTeX LaTeX RIS

Základní údaje
Originální název	Do we need very large corpora?
Název česky	Potřebujeme velmi velké korpusy?
Autoři	PALA, Karel a Pavel RYCHLÝ.
Vydání	první. Praha, od s. 33-39, 379 s. 2011.
Nakladatel	Nakladatelství Lidové Noviny

Další údaje
Originální jazyk	angličtina
Typ výsledku	Stať ve sborníku
Obor	10201 Computer sciences, information science, bioinformatics
Stát vydavatele	Česká republika
Utajení	není předmětem státního či obchodního tajemství
Organizační jednotka	Fakulta informatiky
ISBN	978-80-7422-114-9
Klíčová slova česky	korpusy, korpusové nástroje
Klíčová slova anglicky	corpora, corpus tools
Změnil	Změnil: prof. PhDr. Karel Pala, CSc., učo 455. Změněno: 22. 10. 2012 13:50.

Anotace

In the paper we are dealing with building very large corpora from Web. First, we discuss motivation and needs for this kind of resources both for linguists, lexicographers, and NLP specialists. Second, we mention the techniques used for building large (more than billion tokens) corpora and present the results obtained at NLP Centre FI MU, i.e. both tools and corpora. Then we pay attention to the analysis of the consequences following from building large text data resources and the ways in which they are used in corpus linguistics and various NLP applications.

Anotace česky

V příspěvku věnujeme pozornost velmi velkým korpusům získávaným z webu. Nejprve uvádíme motivaci vedoucí ke vzniku zdrojů tohoto typu a jejich potřebnost jak pro lingvisty. Dále se probírají techniky používané pro budování velkých korpusů čítajících více než miliardu tokenů a prezentují se výsledky získané v Centru zpracování přirozeného jazyka FI MU, tj. jak nástroje, tak i korpusy. Následuje analýza důsledků vyplývajících z budování velkých textových datových zdrojů a způsobů, jimiž se s nimi pracuje v korpusové lingvistice a aplikacích v oblasti zpracování přirozeného jazyka.

Návaznosti
LC536, projekt VaV	Název: Centrum komputační lingvistiky
LC536, projekt VaV	Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky

VytisknoutZobrazeno: 20. 9. 2024 12:50

Do we need very large corpora?

Další aplikace