D 2010

Morphological Analysis of Tajik - Notes and Preliminary Results

DOVUDOV, Gulshan a Vít BAISA

Základní údaje

Originální název

Morphological Analysis of Tajik - Notes and Preliminary Results

Název česky

Morfologická analýza Tádžičtiny - Poznámky a předběžné výsledky

Autoři

DOVUDOV, Gulshan a Vít BAISA

Vydání

Brno, Proceedings of Recent Advances in Slavonic Natural Language Processing 2010, od s. 21-27, 7 s. 2010

Nakladatel

Masaryk University

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10201 Computer sciences, information science, bioinformatics

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Odkazy

Označené pro přenos do RIV

Ano

Kód RIV

RIV/00216224:14330/10:00045892

Organizační jednotka

Fakulta informatiky

ISBN

978-80-7399-246-0

Klíčová slova česky

morfologická analýza; morfémy; tádžičtina

Klíčová slova anglicky

morphological analysis; morphemes; Tajik language
Změněno: 8. 6. 2021 09:14, Mgr. et Mgr. Vít Baisa, Ph.D.

Anotace

V originále

In this article we describe state of art of morphological analysis of Tajik language. At first we comment retrieval of prefixes and postfixes. Then we introduce an algorithm for semi-automatic morphological analysis of one-root Tajik words. The algorithm works with a database of roots, prefixes and suffixes and in the case a new root or a new affix is found the algorithm adds it into the database on the basis of manual analysis.

Česky

V tomto článku popisujeme současný stav morfologické analýzy tádžičtiny. Nejdříve komentujeme získání prefixů a postfixů, poté představujeme algoritmus pro poloautomatickou morfologickou analýzu jednokořenových tádčických slov. Tento algoritmus pracuje s databází kořenů, prefixů a sufixů a v případě situace, kdy databáze neobsahuje příslušný kořen nebo afix, jej algoritmus do databáze na základě ruční analýzy přidá.

Návaznosti

LC536, projekt VaV
Název: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
2C06009, projekt VaV
Název: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce (Akronym: COT-SEWing)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce