Diplomová práce

Značkování jazykově smíšeného textu: Nástroj pro rozeznávání mezijazykových homograf

Annotation of text with language mixing: A tool for recognizing inter-lingual homographs

Bc. Tomáš Neugebauer, učo 399209
Anotace

Tato magisterská diplomová práce se zabývá problematikou automatického rozeznávání jazyka s důrazem na rozeznávání mezijazykových homograf. Po přiblížení problému homonymie a homografie je pozornost věnována popisu oborů korpusové lingvistiky, automatického rozeznávání jazyka a případů vzájemného míchání jazyků. Druhá část práce se soustředí na popis funkcionality a rozeznávacích metod webové aplikace …více

Abstract

This diploma thesis deals with automatic language recognition issues with a focus on interlingual homographs. It presents theoretic basis connected with homography, corpus linguistics, language recognition and language mixing. It also describes functionality and principles of the web application called LIDA which was designed for automatic language recognition of sentences and interlingual homographs …více

Zadání práce
Prostudujte problematiku automatického rozpoznávání jazyka na úrovni odstavců, vět a jednotlivých tokenů z pohledu problematiky mezijazykových homograf. Popište problematiku homonymie a homografie. Diskutujte různé případy míchání jazyků (language mixing) v jednom vstupu: profesní slang (výpujčky), internetový jazyk (internet language), jazyk národnostně smíšených komunit (země s více úředními jazyky).
Vytvořte aplikaci, která bude klasifikovat části textu do jednotlivých jazyků, množinu možných jazyků vhodně ohraničte. Pozornost věnujte zejména rozpoznání mezijazykových homograf. Aplikace by měla pracovat jak se seznamy předem nalezených homograf, tak s kontextem, délku kontextu a váhy pro klasifikaci vhodně nastavte. Navrhněte a implementujte webové demo, které bude pro kratší vstupy demonstrovat funkčnost klasifikace. Do webového dema přidejte možnost parametrizace rozpoznávání.
Součástí práce bude vyhodnocení aplikace oproti sadě ručně označených dat, případně porovnání s jinými přístupy.
Práce zkontrolována:
19. 6. 2017 14:12, RNDr. Zuzana Nevěřilová, Ph.D., učo 3839
Jazyk práce
čeština čeština
Termín obhajoby
8. 9. 2017
Práce byla úspěšně obhájena

Vedoucí

RNDr. Zuzana Nevěřilová, Ph.D., učo 3839
ÚČJ FF MU

Oponent

Mgr. et Mgr. Vít Baisa, Ph.D., učo 139654
ÚČJ FF MU

  • Přidání souboru

    Soubor nebo složku lze nahrát pomocí tlačítka Přidat.
  • Další operace se soubory

    Podrobnosti lze zjistit označením příslušného řádku.
  • Pohled pro experty

    Pro častou práci je možné zvolit režim Více možností.
  • Vyhledávání souborů

    Vyhledávaný výraz můžete zadat přímo do adresního řádku.
  • Rychlý přístup k souborům

    Pomocí funkce Nedávné je možné se rychle vrátit k právě prohlíženým souborům. Oblíbené soubory je také možné označit Hvězdičkou.