RYCHLÝ, Pavel. Frequency of Low-Frequency Words in Text Corpora. In Petr Sojka, Aleš Horák. Proceedings of Recent Advances in Slavonic Natural Language Processing, RASLAN 2010. Brno: Tribun EU, 2010, s. 53-57. ISBN 978-80-7399-246-0.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Frequency of Low-Frequency Words in Text Corpora
Autoři RYCHLÝ, Pavel (203 Česká republika, garant, domácí).
Vydání Brno, Proceedings of Recent Advances in Slavonic Natural Language Processing, RASLAN 2010, od s. 53-57, 5 s. 2010.
Nakladatel Tribun EU
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 60200 6.2 Languages and Literature
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
Forma vydání tištěná verze "print"
WWW URL
Kód RIV RIV/00216224:14330/10:00067070
Organizační jednotka Fakulta informatiky
ISBN 978-80-7399-246-0
Klíčová slova anglicky Computational linguistics Language model; Low-frequency; Text analysis; Text corpora
Změnil Změnil: doc. Mgr. Pavel Rychlý, Ph.D., učo 3692. Změněno: 7. 6. 2021 17:26.
Anotace
Low-frequency words, esp. words occurring only once in a text corpus, are very popular in text analysis. Also many lexicographers draw attention to such words. This paper lists a detailed statistical analysis of low-frequency words. The results provides important information for many practical applications, including lexicography and language modeling.
Návaznosti
GAP401/10/0792, projekt VaVNázev: Temporální aspekty znalostí a informací
Investor: Grantová agentura ČR, Temporální aspekty znalostí a informací
GA407/07/0679, projekt VaVNázev: Právní e-slovník - PES
Investor: Grantová agentura ČR, Právní e-slovník - PES
LC536, projekt VaVNázev: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
2C06009, projekt VaVNázev: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce (Akronym: COT-SEWing)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce
VytisknoutZobrazeno: 25. 4. 2024 13:38