Utok: The Fast Rule-based Tokenizer

D 2022

Utok: The Fast Rule-based Tokenizer

RYCHLÝ, Pavel a Samuel ŠPALEK

Základní údaje

Originální název

Utok: The Fast Rule-based Tokenizer

Autoři

RYCHLÝ, Pavel (203 Česká republika, garant, domácí) a Samuel ŠPALEK (703 Slovensko, domácí)

Vydání

Brno, Proceedings of the Sixteenth Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2022, od s. 149-154, 6 s. 2022

Nakladatel

Tribun EU

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10200 1.2 Computer and information sciences

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Odkazy

Plný text Domovská stránka workshopu

Kód RIV

RIV/00216224:14330/22:00127488

Organizační jednotka

Fakulta informatiky

ISBN

978-80-263-1752-4

ISSN

Klíčová slova anglicky

tokenizer; tokenization; text processing

Změněno: 15. 5. 2024 10:07, RNDr. Pavel Šmerk, Ph.D.

Anotace

V originále

Tokenization is one of the first processing steps in most natural language processing applications. The papper introduces a new tokenizer Utok which follows the Unitok tokenizer in the form of simplicity of configuration for different languages and is much faster in processing speed.

Návaznosti

LM2018101, projekt VaV

Název: Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy (Akronym: LINDAT/CLARIAH-CZ)

Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, LINDAT/CLARIAH-CZ - Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy

Podrobný výpis o publikaci