BLAHUŠ, Marek. Aplikace počítačové lingvistiky při tvorbě on-line kurzu češtiny mluvtecesky.net. In Klíč k češtině jako cizímu jazyku. 2015.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Aplikace počítačové lingvistiky při tvorbě on-line kurzu češtiny mluvtecesky.net
Název česky Aplikace počítačové lingvistiky při tvorbě on-line kurzu češtiny mluvtecesky.net
Název anglicky Application of computer linguistics in the creation of the mluvtecesky.net on-line Czech language course
Autoři BLAHUŠ, Marek (203 Česká republika, garant, domácí).
Vydání Klíč k češtině jako cizímu jazyku, 2015.
Další údaje
Originální jazyk čeština
Typ výsledku Vyžádané přednášky
Obor 60200 6.2 Languages and Literature
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
Kód RIV RIV/00216224:14640/15:00087235
Organizační jednotka Centrum jazykového vzdělávání
Klíčová slova česky mluvtecesky.net; čeština; počítačová lingvistika; korpus; morfologie; lemmatizace; slovník; vzory
Klíčová slova anglicky mluvtecesky.net; Czech language; computer linguistics; corpus; morphology; lemmatization; dictionary; inflectional paradigms
Změnil Změnila: PaedDr. Marta Holasová, Ph.D., učo 38218. Změněno: 6. 4. 2016 15:21.
Anotace
Příspěvek na příkladu webových stránek mluvtecesky.net ukazuje možnosti využití počítačové lingvistiky při tvorbě kurzů češtiny pro cizince. Počítačovělingvistickou podporu projektu poskytlo Centrum jazykového vzdělávání MU ve spolupráci s Fakultou informatiky MU. Lemmatizací korpusu vytvořených učebních textů s využitím morfologického analyzátoru byl nejprve odvozen frekvenční slovník pro kurz i jednotlivé jeho části – ten lze využít ke stanovení rozsahu kurzu (počet vyučovaných lexikálních jednotek), určení pokryté slovní zásoby (obecné i odborné), poloautomatické přípravě studijních pomůcek (seznamy slov k jednotlivým lekcím) a do jisté míry i k odstranění překlepů a prosazení jednotné terminologie. Seznam lemmat se stal podkladem pro tvorbu překladového slovníku, který umožňuje studentům kliknutím na slovo v českém textu získat jeho orientační překlad do zvoleného jazyka. Především však byl vzniklý slovník provázán s databází tvarů českých slov použitého morfologického analyzátoru tak, že ke každému slovu dovede aplikace nejen určit jeho gramatické kategorie, ale také zobrazit kompletní deklinační/konjugační tabulku příslušného lemmatu. Konečně v oblasti výuky českého tvarosloví byl zaujat inovativní přístup usilující o nalezení kompromisu mezi zjednodušenými a často neúplnými systémy slovních vzorů, používanými učiteli češtiny jako cizího jazyka, se strojově odvozeným systémem paradigmat interně používaných v počítačové lingvistice, který je sice bezvýjimkový a přitom všeobjímající, nicméně ve své neupravené podobě je pro svou komplexnost v praxi nepoužitelný. Výstupem je středně rozsáhlá sada vzorových slov, k nimž byla na základě morfologické podobnosti rozřazena všechna slova ze slovníku souběžně s vyznačením odchylek od očekávatelných pravidelně utvořených tvarů. Motivací byla vidina, že po podrobném seznámení se s jednotlivými vzory již studentům ke zvládnutí tvarosloví nových slov postačí jen všímat si jejich náležitosti ke vzoru a vyznačených výjimek.
Anotace anglicky
The paper demonstrates the capabilities of computer linguistics in the production of Czech language courses for foreigners. The on-line course mluvtecesky.net has been developed within the CZKey project, whose parts relying on computational linguistics have been contributed by Masaryk University Language Centre and the same university's Natural Language Processing Centre at the Faculty of Informatics. Through lemmatizing the corpus of the created courses texts, a frequency dictionary has been derived, which could be used to estimate the course's size and vocabulary coverage, for production of flashcards and also to reveal some typos and ensure a unified terminology. The word list has been translated into other languages to provide the student with a rough idea of the word's meaning and each word form present in the course text has been linked to a lemma entry in a morphological database that contains full declinations/conjugations. In this way, the student can click on any word in the course and immediately see the corresponding lemma, its translation into his language and a table of all the word's forms. Finally, an attempt has been done at finding a compromise solution that combines the usefulness of a rather limited set of declension/conjugation paradigms with the versatility of a complex machine-derived system that links lemmas to paradigms while not allowing any exceptions. The outcome is a middle-sized set of paradigms that, once learned, can be applied to remember the forms of all the words in the course by merely taking note of the paradigm and any indicated exceptions.
VytisknoutZobrazeno: 24. 9. 2024 02:51