p 2015

Aplikace počítačové lingvistiky při tvorbě on-line kurzu češtiny mluvtecesky.net

BLAHUŠ, Marek

Základní údaje

Originální název

Aplikace počítačové lingvistiky při tvorbě on-line kurzu češtiny mluvtecesky.net

Název česky

Aplikace počítačové lingvistiky při tvorbě on-line kurzu češtiny mluvtecesky.net

Název anglicky

Application of computer linguistics in the creation of the mluvtecesky.net on-line Czech language course

Autoři

BLAHUŠ, Marek (203 Česká republika, garant, domácí)

Vydání

Klíč k češtině jako cizímu jazyku, 2015

Další údaje

Jazyk

čeština

Typ výsledku

Vyžádané přednášky

Obor

60200 6.2 Languages and Literature

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Kód RIV

RIV/00216224:14640/15:00087235

Organizační jednotka

Centrum jazykového vzdělávání

Klíčová slova česky

mluvtecesky.net; čeština; počítačová lingvistika; korpus; morfologie; lemmatizace; slovník; vzory

Klíčová slova anglicky

mluvtecesky.net; Czech language; computer linguistics; corpus; morphology; lemmatization; dictionary; inflectional paradigms
Změněno: 6. 4. 2016 15:21, PaedDr. Marta Holasová, Ph.D.

Anotace

V originále

Příspěvek na příkladu webových stránek mluvtecesky.net ukazuje možnosti využití počítačové lingvistiky při tvorbě kurzů češtiny pro cizince. Počítačovělingvistickou podporu projektu poskytlo Centrum jazykového vzdělávání MU ve spolupráci s Fakultou informatiky MU. Lemmatizací korpusu vytvořených učebních textů s využitím morfologického analyzátoru byl nejprve odvozen frekvenční slovník pro kurz i jednotlivé jeho části – ten lze využít ke stanovení rozsahu kurzu (počet vyučovaných lexikálních jednotek), určení pokryté slovní zásoby (obecné i odborné), poloautomatické přípravě studijních pomůcek (seznamy slov k jednotlivým lekcím) a do jisté míry i k odstranění překlepů a prosazení jednotné terminologie. Seznam lemmat se stal podkladem pro tvorbu překladového slovníku, který umožňuje studentům kliknutím na slovo v českém textu získat jeho orientační překlad do zvoleného jazyka. Především však byl vzniklý slovník provázán s databází tvarů českých slov použitého morfologického analyzátoru tak, že ke každému slovu dovede aplikace nejen určit jeho gramatické kategorie, ale také zobrazit kompletní deklinační/konjugační tabulku příslušného lemmatu. Konečně v oblasti výuky českého tvarosloví byl zaujat inovativní přístup usilující o nalezení kompromisu mezi zjednodušenými a často neúplnými systémy slovních vzorů, používanými učiteli češtiny jako cizího jazyka, se strojově odvozeným systémem paradigmat interně používaných v počítačové lingvistice, který je sice bezvýjimkový a přitom všeobjímající, nicméně ve své neupravené podobě je pro svou komplexnost v praxi nepoužitelný. Výstupem je středně rozsáhlá sada vzorových slov, k nimž byla na základě morfologické podobnosti rozřazena všechna slova ze slovníku souběžně s vyznačením odchylek od očekávatelných pravidelně utvořených tvarů. Motivací byla vidina, že po podrobném seznámení se s jednotlivými vzory již studentům ke zvládnutí tvarosloví nových slov postačí jen všímat si jejich náležitosti ke vzoru a vyznačených výjimek.

Anglicky

The paper demonstrates the capabilities of computer linguistics in the production of Czech language courses for foreigners. The on-line course mluvtecesky.net has been developed within the CZKey project, whose parts relying on computational linguistics have been contributed by Masaryk University Language Centre and the same university's Natural Language Processing Centre at the Faculty of Informatics. Through lemmatizing the corpus of the created courses texts, a frequency dictionary has been derived, which could be used to estimate the course's size and vocabulary coverage, for production of flashcards and also to reveal some typos and ensure a unified terminology. The word list has been translated into other languages to provide the student with a rough idea of the word's meaning and each word form present in the course text has been linked to a lemma entry in a morphological database that contains full declinations/conjugations. In this way, the student can click on any word in the course and immediately see the corresponding lemma, its translation into his language and a table of all the word's forms. Finally, an attempt has been done at finding a compromise solution that combines the usefulness of a rather limited set of declension/conjugation paradigms with the versatility of a complex machine-derived system that links lemmas to paradigms while not allowing any exceptions. The outcome is a middle-sized set of paradigms that, once learned, can be applied to remember the forms of all the words in the course by merely taking note of the paradigm and any indicated exceptions.