Aplikace počítačové lingvistiky při tvorbě on-line kurzu
češtiny mluvtecesky.net

BLAHUŠ, Marek. Aplikace počítačové lingvistiky při tvorbě on-line kurzu češtiny mluvtecesky.net (Application of computer linguistics in the creation of the mluvtecesky.net on-line Czech language course). In Klíč k češtině jako cizímu jazyku. 2015.

Other formats: BibTeX LaTeX RIS

TY  - SLIDE
ID  - 1341678
AU  - Blahuš, Marek
PY  - 2015
TI  - Aplikace počítačové lingvistiky při tvorbě on-line kurzu češtiny mluvtecesky.net
KW  - mluvtecesky.net
KW  - Czech language
KW  - computer linguistics
KW  - corpus
KW  - morphology
KW  - lemmatization
KW  - dictionary
KW  - inflectional paradigms
N2  - Příspěvek na příkladu webových stránek mluvtecesky.net ukazuje možnosti využití počítačové lingvistiky při tvorbě kurzů češtiny pro cizince. Počítačovělingvistickou podporu projektu poskytlo Centrum jazykového vzdělávání MU ve spolupráci s Fakultou informatiky MU. Lemmatizací korpusu vytvořených učebních textů s využitím morfologického analyzátoru byl nejprve odvozen frekvenční slovník pro kurz i jednotlivé jeho části – ten lze využít ke stanovení rozsahu kurzu (počet vyučovaných lexikálních jednotek), určení pokryté slovní zásoby (obecné i odborné), poloautomatické přípravě studijních pomůcek (seznamy slov k jednotlivým lekcím) a do jisté míry i k odstranění překlepů a prosazení jednotné terminologie. Seznam lemmat se stal podkladem pro tvorbu překladového slovníku, který umožňuje studentům kliknutím na slovo v českém textu získat jeho orientační překlad do zvoleného jazyka. Především však byl vzniklý slovník provázán s databází tvarů českých slov použitého morfologického analyzátoru tak, že ke každému slovu dovede aplikace nejen určit jeho gramatické kategorie, ale také zobrazit kompletní deklinační/konjugační tabulku příslušného lemmatu. Konečně v oblasti výuky českého tvarosloví byl zaujat inovativní přístup usilující o nalezení kompromisu mezi zjednodušenými a často neúplnými systémy slovních vzorů, používanými učiteli češtiny jako cizího jazyka, se strojově odvozeným systémem paradigmat interně používaných v počítačové lingvistice, který je sice bezvýjimkový a přitom všeobjímající, nicméně ve své neupravené podobě je pro svou komplexnost v praxi nepoužitelný. Výstupem je středně rozsáhlá sada vzorových slov, k nimž byla na základě morfologické podobnosti rozřazena všechna slova ze slovníku souběžně s vyznačením odchylek od očekávatelných pravidelně utvořených tvarů. Motivací byla vidina, že po podrobném seznámení se s jednotlivými vzory již studentům ke zvládnutí tvarosloví nových slov postačí jen všímat si jejich náležitosti ke vzoru a vyznačených výjimek.
ER  -

Basic information
Original name	Aplikace počítačové lingvistiky při tvorbě on-line kurzu češtiny mluvtecesky.net
Name in Czech	Aplikace počítačové lingvistiky při tvorbě on-line kurzu češtiny mluvtecesky.net
Name (in English)	Application of computer linguistics in the creation of the mluvtecesky.net on-line Czech language course
Authors	BLAHUŠ, Marek (203 Czech Republic, guarantor, belonging to the institution).
Edition	Klíč k češtině jako cizímu jazyku, 2015.

Other information
Original language	Czech
Type of outcome	Requested lectures
Field of Study	60200 6.2 Languages and Literature
Country of publisher	Czech Republic
Confidentiality degree	is not subject to a state or trade secret
RIV identification code	RIV/00216224:14640/15:00087235
Organization unit	Language Centre
Keywords (in Czech)	mluvtecesky.net; čeština; počítačová lingvistika; korpus; morfologie; lemmatizace; slovník; vzory
Keywords in English	mluvtecesky.net; Czech language; computer linguistics; corpus; morphology; lemmatization; dictionary; inflectional paradigms
Changed by	Changed by: PaedDr. Marta Holasová, Ph.D., učo 38218. Changed: 6/4/2016 15:21.

Abstract

Příspěvek na příkladu webových stránek mluvtecesky.net ukazuje možnosti využití počítačové lingvistiky při tvorbě kurzů češtiny pro cizince. Počítačovělingvistickou podporu projektu poskytlo Centrum jazykového vzdělávání MU ve spolupráci s Fakultou informatiky MU. Lemmatizací korpusu vytvořených učebních textů s využitím morfologického analyzátoru byl nejprve odvozen frekvenční slovník pro kurz i jednotlivé jeho části – ten lze využít ke stanovení rozsahu kurzu (počet vyučovaných lexikálních jednotek), určení pokryté slovní zásoby (obecné i odborné), poloautomatické přípravě studijních pomůcek (seznamy slov k jednotlivým lekcím) a do jisté míry i k odstranění překlepů a prosazení jednotné terminologie. Seznam lemmat se stal podkladem pro tvorbu překladového slovníku, který umožňuje studentům kliknutím na slovo v českém textu získat jeho orientační překlad do zvoleného jazyka. Především však byl vzniklý slovník provázán s databází tvarů českých slov použitého morfologického analyzátoru tak, že ke každému slovu dovede aplikace nejen určit jeho gramatické kategorie, ale také zobrazit kompletní deklinační/konjugační tabulku příslušného lemmatu. Konečně v oblasti výuky českého tvarosloví byl zaujat inovativní přístup usilující o nalezení kompromisu mezi zjednodušenými a často neúplnými systémy slovních vzorů, používanými učiteli češtiny jako cizího jazyka, se strojově odvozeným systémem paradigmat interně používaných v počítačové lingvistice, který je sice bezvýjimkový a přitom všeobjímající, nicméně ve své neupravené podobě je pro svou komplexnost v praxi nepoužitelný. Výstupem je středně rozsáhlá sada vzorových slov, k nimž byla na základě morfologické podobnosti rozřazena všechna slova ze slovníku souběžně s vyznačením odchylek od očekávatelných pravidelně utvořených tvarů. Motivací byla vidina, že po podrobném seznámení se s jednotlivými vzory již studentům ke zvládnutí tvarosloví nových slov postačí jen všímat si jejich náležitosti ke vzoru a vyznačených výjimek.

Abstract (in English)

The paper demonstrates the capabilities of computer linguistics in the production of Czech language courses for foreigners. The on-line course mluvtecesky.net has been developed within the CZKey project, whose parts relying on computational linguistics have been contributed by Masaryk University Language Centre and the same university's Natural Language Processing Centre at the Faculty of Informatics. Through lemmatizing the corpus of the created courses texts, a frequency dictionary has been derived, which could be used to estimate the course's size and vocabulary coverage, for production of flashcards and also to reveal some typos and ensure a unified terminology. The word list has been translated into other languages to provide the student with a rough idea of the word's meaning and each word form present in the course text has been linked to a lemma entry in a morphological database that contains full declinations/conjugations. In this way, the student can click on any word in the course and immediately see the corresponding lemma, its translation into his language and a table of all the word's forms. Finally, an attempt has been done at finding a compromise solution that combines the usefulness of a rather limited set of declension/conjugation paradigms with the versatility of a complex machine-derived system that links lemmas to paradigms while not allowing any exceptions. The outcome is a middle-sized set of paradigms that, once learned, can be applied to remember the forms of all the words in the course by merely taking note of the paradigm and any indicated exceptions.

PrintDisplayed: 27/4/2024 20:56

Aplikace počítačové lingvistiky při tvorbě on-line kurzu češtiny mluvtecesky.net

Other applications