Závěrečná práce: Emma Bednaříková, učo 536251: Token-level Language Identification Using Pre-trained Language Models
Bakalářská práce
Token-level Language Identification Using Pre-trained Language Models
Anotace
Tato práce představuje Langtok, nástroj pro identifikaci jazyka (LID) na úrovni tokenů, který byl navržen pro analýzu textů obsahujících code-mixing a dalších vícejazyčných textů. Tento systém využívá předtrénovaný jazykový model, který byl dolaďován na syntetických vícejazyčných datech generovaných pomocí čtyř navržených strategií. Nástroj Langtok podporuje 17 jazyků a poskytuje detailní jazykovou …více
Abstract
This thesis presents Langtok, a language identification (LID) tool designed for token-level analysis of code-mixed and multilingual text. To address the scarcity of annotated training data, the system utilizes transformer-based models fine-tuned on synthetic datasets generated through four proposed strategies. Supporting 17 languages, Langtok provides granular linguistic detection where traditional …více
Zadání práce
The aim of the thesis is to design, develop, and implement a tool for token-level language identification based on a pre-trained language model, with a focus on multilingual texts and code-switching.
The theoretical part will provide an overview of current approaches to language identification, particularly at the token level, as well as a review of available datasets and tools for processing multilingual data.
The practical part will include the design of different methods for creating training data and a comparison of different types of pre-trained language models in terms of their suitability for the given task. The outcome will be an implemented tool, its experimental evaluation on real-world data, and an analysis of conditions for efficient deployment when processing large volumes of data. It will also include a comparison with existing language identification systems, evaluated at the sentence level. In addition, a web interface will be provided to demonstrate the tool’s functionality.
29. 5. 2026 19:01, doc. Mgr. Pavel Rychlý, Ph.D., učo 3692
Práce na příbuzné téma
Seznam prací, které mají shodná klíčová slova.
-
Textové korpusy ze závěrečných prací
Mgr. Martin Šmíd -
Syntetická datová sada pro detekci propagandy
Bc. Pavel František Oujeský -
Jazyk emailů: Formy psaného a mluveného jazyka
Mgr. Kateřina Pardubová, učo 106701 -
Approach to the use of Chinese language in contemporary poetry of anglophone Chinese diaspora: Case study of Nina Mingya Powles’ poetry
Bc. Klára Šílová -
English as a Language of Oppression
Mgr. Zuzana Kršková, Ph.D., učo 145169 -
Komunikační kompetence žáků z italsko-českého jazykového prostředí
Mgr. Veronika Kábrtová -
Multilingual Competence: Learning English as a Third Language
Bc. Michaela Veselá -
Better Web Corpora For Corpus Linguistics And NLP
RNDr. Vít Suchomel, Ph.D., učo 139723




