POMIKÁLEK, Jan a Vít SUCHOMEL. Chared. 2011.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Chared
Název česky Chared
Autoři POMIKÁLEK, Jan (203 Česká republika, domácí) a Vít SUCHOMEL (203 Česká republika, garant, domácí).
Vydání 2011.
Další údaje
Originální jazyk angličtina
Typ výsledku Software
Obor 60200 6.2 Languages and Literature
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
WWW Domovská stránka software, online demo Repozitář zdrojového kódu, instalační balíček ke stažení
Kód RIV RIV/00216224:14330/11:00056802
Organizační jednotka Fakulta informatiky
Klíčová slova anglicky character encoding; character encoding detection; charset; Unicode
Technické parametry Software pro detekci kódování znaků textových dokumentů. Implementace v jazyce Python. Licence: New BSD License. Odpovědná osoba pro jednání: doc. PhDr. Karel Pala, CSc.; email: pala@fi.muni.cz; telefon: 549495616; adresa: Karel Pala, Fakulta informatiky Masarykovy univerzity, Botanická 68a, 602 00 Brno.
Příznaky Mezinárodní význam
Změnil Změnil: RNDr. Vít Suchomel, Ph.D., učo 139723. Změněno: 11. 4. 2013 14:54.
Anotace
Chared is a software tool which can detect character encoding of a text document provided the language of the document is known. The language of the text has to be specified as an input parameter so that the corresponding language model can be used. The package contains models for a wide range of languages (currently 57 --- covering all major languages). Furthermore, it provides a training script to learn models for additional languages using a set of user supplied sample html pages in the given language. The detection algorithm is based on determining similarity of byte trigrams vectors. In general, chared should be more accurate than other character encoding detection tools with no language constraints. This is an important advantage allowing precise character decoding needed for building large textual corpora. The tool has been used for building corpora in American Spanish, Arabic, Czech, French, Japanese, Russian, Tajik, and six Turkic languages consisting of 70 billions tokens altogether. Chared is an open source software, licensed under New BSD License and available for download (including the source code) at http://code.google.com/p/chared/. The research leading to this piece of software was published in POMIKÁLEK, Jan a Vít SUCHOMEL. chared: Character Encoding Detection with a Known Language. In Aleš Horák, Pavel Rychlý. RASLAN 2011. 5. vyd. Brno, Czech Republic: Tribun EU, 2011. od s. 125-129, 5 s. ISBN 978-80-263-0077-9.
Návaznosti
LC536, projekt VaVNázev: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
VytisknoutZobrazeno: 5. 5. 2024 22:55