RYCHLÝ, Pavel a Samuel ŠPALEK. Utok: The Fast Rule-based Tokenizer. In Aleš Horák, Pavel Rychlý, Adam Rambousek. Proceedings of the Sixteenth Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2022. Brno: Tribun EU, 2022, s. 149-154. ISBN 978-80-263-1752-4.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Utok: The Fast Rule-based Tokenizer
Autoři RYCHLÝ, Pavel (203 Česká republika, garant, domácí) a Samuel ŠPALEK (703 Slovensko, domácí).
Vydání Brno, Proceedings of the Sixteenth Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2022, od s. 149-154, 6 s. 2022.
Nakladatel Tribun EU
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 10200 1.2 Computer and information sciences
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
Forma vydání tištěná verze "print"
WWW Plný text Domovská stránka workshopu
Kód RIV RIV/00216224:14330/22:00127488
Organizační jednotka Fakulta informatiky
ISBN 978-80-263-1752-4
ISSN 2336-4289
Klíčová slova anglicky tokenizer; tokenization; text processing
Změnil Změnila: Mgr. Jitka Nováčková, učo 444407. Změněno: 20. 12. 2022 12:38.
Anotace
Tokenization is one of the first processing steps in most natural language processing applications. The papper introduces a new tokenizer Utok which follows the Unitok tokenizer in the form of simplicity of configuration for different languages and is much faster in processing speed.
Návaznosti
LM2018101, projekt VaVNázev: Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy (Akronym: LINDAT/CLARIAH-CZ)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, LINDAT/CLARIAH-CZ - Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy
VytisknoutZobrazeno: 26. 4. 2024 15:02