Bakalářská práce

Token-level Language Identification Using Pre-trained Language Models

Emma Bednaříková, učo 536251
Anotace

Tato práce představuje Langtok, nástroj pro identifikaci jazyka (LID) na úrovni tokenů, který byl navržen pro analýzu textů obsahujících code-mixing a dalších vícejazyčných textů. Tento systém využívá předtrénovaný jazykový model, který byl dolaďován na syntetických vícejazyčných datech generovaných pomocí čtyř navržených strategií. Nástroj Langtok podporuje 17 jazyků a poskytuje detailní jazykovou …více

Abstract

This thesis presents Langtok, a language identification (LID) tool designed for token-level analysis of code-mixed and multilingual text. To address the scarcity of annotated training data, the system utilizes transformer-based models fine-tuned on synthetic datasets generated through four proposed strategies. Supporting 17 languages, Langtok provides granular linguistic detection where traditional …více

Zadání práce

The aim of the thesis is to design, develop, and implement a tool for token-level language identification based on a pre-trained language model, with a focus on multilingual texts and code-switching.

The theoretical part will provide an overview of current approaches to language identification, particularly at the token level, as well as a review of available datasets and tools for processing multilingual data.

The practical part will include the design of different methods for creating training data and a comparison of different types of pre-trained language models in terms of their suitability for the given task. The outcome will be an implemented tool, its experimental evaluation on real-world data, and an analysis of conditions for efficient deployment when processing large volumes of data. It will also include a comparison with existing language identification systems, evaluated at the sentence level. In addition, a web interface will be provided to demonstrate the tool’s functionality.

Práce zkontrolována:
29. 5. 2026 19:01, doc. Mgr. Pavel Rychlý, Ph.D., učo 3692
Jazyk práce
angličtina angličtina
Termín obhajoby
22. 6. 2026
Práce byla úspěšně obhájena

Vedoucí

doc. Mgr. Pavel Rychlý, Ph.D., učo 3692
KSUZD FI MU

Oponent

RNDr. Ondřej Herman, učo 255821
CZPJ KSUZD FI MU

Masarykova univerzita Fakulta informatiky
Studijní program
Plán
Informatika
  • Přidání souboru

    Soubor nebo složku lze nahrát pomocí tlačítka Přidat.
  • Další operace se soubory

    Podrobnosti lze zjistit označením příslušného řádku.
  • Pohled pro experty

    Pro častou práci je možné zvolit režim Více možností.
  • Vyhledávání souborů

    Vyhledávaný výraz můžete zadat přímo do adresního řádku.
  • Rychlý přístup k souborům

    Pomocí funkce Nedávné je možné se rychle vrátit k právě prohlíženým souborům. Oblíbené soubory je také možné označit Hvězdičkou.