POMIKÁLEK, Jan a Vít SUCHOMEL. chared: Character Encoding Detection with a Known Language. In Aleš Horák, Pavel Rychlý. RASLAN 2011. 5. vyd. Brno, Czech Republic: Tribun EU, 2011, s. 125-129. ISBN 978-80-263-0077-9.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název chared: Character Encoding Detection with a Known Language
Autoři POMIKÁLEK, Jan (203 Česká republika, garant, domácí) a Vít SUCHOMEL (203 Česká republika, domácí).
Vydání 5. vyd. Brno, Czech Republic, RASLAN 2011, od s. 125-129, 5 s. 2011.
Nakladatel Tribun EU
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 10201 Computer sciences, information science, bioinformatics
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
Forma vydání tištěná verze "print"
WWW URL
Kód RIV RIV/00216224:14330/11:00050165
Organizační jednotka Fakulta informatiky
ISBN 978-80-263-0077-9
UT WoS 000374561700014
Klíčová slova anglicky character encoding; character encoding detection; charset; Unicode
Změnil Změnil: RNDr. Vít Suchomel, Ph.D., učo 139723. Změněno: 25. 5. 2021 19:17.
Anotace
chared is a system which can detect character encoding of a text document provided the language of the document is known. The system supports a wide range of languages and the most commonly used character encodings. We explain the details of the algorithm, describe the process of creating models for various languages and present results of an evaluation on a collection of Web pages.
Anotace česky
chared je systém, který dokáže detekovat kódování znaků textu dokumentu, za předpokladu, že jazyk dokumentu je znám. Systém podporuje širokou škálu jazyků a nejčastěji používaná kódování znaků. Článek vysvětluje detaily algoritmu, popisuje proces vytváření modelů pro různé jazyky a prezentuje výsledky vyhodnocení na kolekci webových stránek.
Návaznosti
GAP401/10/0792, projekt VaVNázev: Temporální aspekty znalostí a informací
Investor: Grantová agentura ČR, Temporální aspekty znalostí a informací
248307, interní kód MUNázev: Pattern Recognition-based Statistically Enhanced MT (Akronym: PRESEMT)
Investor: Evropská unie, Pattern Recognition-based Statistically Enhanced MT, Spolupráce
VytisknoutZobrazeno: 19. 9. 2024 16:23