PALA, Karel a Pavel RYCHLÝ. Do we need very large corpora? první. Praha: Nakladatelství Lidové Noviny, 2011, s. 33-39, 379 s. ISBN 978-80-7422-114-9.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Do we need very large corpora?
Název česky Potřebujeme velmi velké korpusy?
Autoři PALA, Karel a Pavel RYCHLÝ.
Vydání první. Praha, od s. 33-39, 379 s. 2011.
Nakladatel Nakladatelství Lidové Noviny
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 10201 Computer sciences, information science, bioinformatics
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
Organizační jednotka Fakulta informatiky
ISBN 978-80-7422-114-9
Klíčová slova česky korpusy, korpusové nástroje
Klíčová slova anglicky corpora, corpus tools
Změnil Změnil: prof. PhDr. Karel Pala, CSc., učo 455. Změněno: 22. 10. 2012 13:50.
Anotace
In the paper we are dealing with building very large corpora from Web. First, we discuss motivation and needs for this kind of resources both for linguists, lexicographers, and NLP specialists. Second, we mention the techniques used for building large (more than billion tokens) corpora and present the results obtained at NLP Centre FI MU, i.e. both tools and corpora. Then we pay attention to the analysis of the consequences following from building large text data resources and the ways in which they are used in corpus linguistics and various NLP applications.
Anotace česky
V příspěvku věnujeme pozornost velmi velkým korpusům získávaným z webu. Nejprve uvádíme motivaci vedoucí ke vzniku zdrojů tohoto typu a jejich potřebnost jak pro lingvisty. Dále se probírají techniky používané pro budování velkých korpusů čítajících více než miliardu tokenů a prezentují se výsledky získané v Centru zpracování přirozeného jazyka FI MU, tj. jak nástroje, tak i korpusy. Následuje analýza důsledků vyplývajících z budování velkých textových datových zdrojů a způsobů, jimiž se s nimi pracuje v korpusové lingvistice a aplikacích v oblasti zpracování přirozeného jazyka.
Návaznosti
LC536, projekt VaVNázev: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
VytisknoutZobrazeno: 20. 9. 2024 12:50