Aplikace počítačové lingvistiky při tvorbě on-line kurzu
češtiny mluvtecesky.net

BLAHUŠ, Marek. Aplikace počítačové lingvistiky při tvorbě on-line kurzu češtiny mluvtecesky.net. In Klíč k češtině jako cizímu jazyku. 2015.

Další formáty: BibTeX LaTeX RIS

TY  - SLIDE
ID  - 1341678
AU  - Blahuš, Marek
PY  - 2015
TI  - Aplikace počítačové lingvistiky při tvorbě on-line kurzu češtiny mluvtecesky.net
KW  - mluvtecesky.net
KW  - Czech language
KW  - computer linguistics
KW  - corpus
KW  - morphology
KW  - lemmatization
KW  - dictionary
KW  - inflectional paradigms
N2  - Příspěvek na příkladu webových stránek mluvtecesky.net ukazuje možnosti využití počítačové lingvistiky při tvorbě kurzů češtiny pro cizince. Počítačovělingvistickou podporu projektu poskytlo Centrum jazykového vzdělávání MU ve spolupráci s Fakultou informatiky MU. Lemmatizací korpusu vytvořených učebních textů s využitím morfologického analyzátoru byl nejprve odvozen frekvenční slovník pro kurz i jednotlivé jeho části – ten lze využít ke stanovení rozsahu kurzu (počet vyučovaných lexikálních jednotek), určení pokryté slovní zásoby (obecné i odborné), poloautomatické přípravě studijních pomůcek (seznamy slov k jednotlivým lekcím) a do jisté míry i k odstranění překlepů a prosazení jednotné terminologie. Seznam lemmat se stal podkladem pro tvorbu překladového slovníku, který umožňuje studentům kliknutím na slovo v českém textu získat jeho orientační překlad do zvoleného jazyka. Především však byl vzniklý slovník provázán s databází tvarů českých slov použitého morfologického analyzátoru tak, že ke každému slovu dovede aplikace nejen určit jeho gramatické kategorie, ale také zobrazit kompletní deklinační/konjugační tabulku příslušného lemmatu. Konečně v oblasti výuky českého tvarosloví byl zaujat inovativní přístup usilující o nalezení kompromisu mezi zjednodušenými a často neúplnými systémy slovních vzorů, používanými učiteli češtiny jako cizího jazyka, se strojově odvozeným systémem paradigmat interně používaných v počítačové lingvistice, který je sice bezvýjimkový a přitom všeobjímající, nicméně ve své neupravené podobě je pro svou komplexnost v praxi nepoužitelný. Výstupem je středně rozsáhlá sada vzorových slov, k nimž byla na základě morfologické podobnosti rozřazena všechna slova ze slovníku souběžně s vyznačením odchylek od očekávatelných pravidelně utvořených tvarů. Motivací byla vidina, že po podrobném seznámení se s jednotlivými vzory již studentům ke zvládnutí tvarosloví nových slov postačí jen všímat si jejich náležitosti ke vzoru a vyznačených výjimek.
ER  -

Základní údaje
Originální název	Aplikace počítačové lingvistiky při tvorbě on-line kurzu češtiny mluvtecesky.net
Název česky	Aplikace počítačové lingvistiky při tvorbě on-line kurzu češtiny mluvtecesky.net
Název anglicky	Application of computer linguistics in the creation of the mluvtecesky.net on-line Czech language course
Autoři	BLAHUŠ, Marek (203 Česká republika, garant, domácí).
Vydání	Klíč k češtině jako cizímu jazyku, 2015.

Další údaje
Originální jazyk	čeština
Typ výsledku	Vyžádané přednášky
Obor	60200 6.2 Languages and Literature
Stát vydavatele	Česká republika
Utajení	není předmětem státního či obchodního tajemství
Kód RIV	RIV/00216224:14640/15:00087235
Organizační jednotka	Centrum jazykového vzdělávání
Klíčová slova česky	mluvtecesky.net; čeština; počítačová lingvistika; korpus; morfologie; lemmatizace; slovník; vzory
Klíčová slova anglicky	mluvtecesky.net; Czech language; computer linguistics; corpus; morphology; lemmatization; dictionary; inflectional paradigms
Změnil	Změnila: PaedDr. Marta Holasová, Ph.D., učo 38218. Změněno: 6. 4. 2016 15:21.

Anotace

Příspěvek na příkladu webových stránek mluvtecesky.net ukazuje možnosti využití počítačové lingvistiky při tvorbě kurzů češtiny pro cizince. Počítačovělingvistickou podporu projektu poskytlo Centrum jazykového vzdělávání MU ve spolupráci s Fakultou informatiky MU. Lemmatizací korpusu vytvořených učebních textů s využitím morfologického analyzátoru byl nejprve odvozen frekvenční slovník pro kurz i jednotlivé jeho části – ten lze využít ke stanovení rozsahu kurzu (počet vyučovaných lexikálních jednotek), určení pokryté slovní zásoby (obecné i odborné), poloautomatické přípravě studijních pomůcek (seznamy slov k jednotlivým lekcím) a do jisté míry i k odstranění překlepů a prosazení jednotné terminologie. Seznam lemmat se stal podkladem pro tvorbu překladového slovníku, který umožňuje studentům kliknutím na slovo v českém textu získat jeho orientační překlad do zvoleného jazyka. Především však byl vzniklý slovník provázán s databází tvarů českých slov použitého morfologického analyzátoru tak, že ke každému slovu dovede aplikace nejen určit jeho gramatické kategorie, ale také zobrazit kompletní deklinační/konjugační tabulku příslušného lemmatu. Konečně v oblasti výuky českého tvarosloví byl zaujat inovativní přístup usilující o nalezení kompromisu mezi zjednodušenými a často neúplnými systémy slovních vzorů, používanými učiteli češtiny jako cizího jazyka, se strojově odvozeným systémem paradigmat interně používaných v počítačové lingvistice, který je sice bezvýjimkový a přitom všeobjímající, nicméně ve své neupravené podobě je pro svou komplexnost v praxi nepoužitelný. Výstupem je středně rozsáhlá sada vzorových slov, k nimž byla na základě morfologické podobnosti rozřazena všechna slova ze slovníku souběžně s vyznačením odchylek od očekávatelných pravidelně utvořených tvarů. Motivací byla vidina, že po podrobném seznámení se s jednotlivými vzory již studentům ke zvládnutí tvarosloví nových slov postačí jen všímat si jejich náležitosti ke vzoru a vyznačených výjimek.

Anotace anglicky

The paper demonstrates the capabilities of computer linguistics in the production of Czech language courses for foreigners. The on-line course mluvtecesky.net has been developed within the CZKey project, whose parts relying on computational linguistics have been contributed by Masaryk University Language Centre and the same university's Natural Language Processing Centre at the Faculty of Informatics. Through lemmatizing the corpus of the created courses texts, a frequency dictionary has been derived, which could be used to estimate the course's size and vocabulary coverage, for production of flashcards and also to reveal some typos and ensure a unified terminology. The word list has been translated into other languages to provide the student with a rough idea of the word's meaning and each word form present in the course text has been linked to a lemma entry in a morphological database that contains full declinations/conjugations. In this way, the student can click on any word in the course and immediately see the corresponding lemma, its translation into his language and a table of all the word's forms. Finally, an attempt has been done at finding a compromise solution that combines the usefulness of a rather limited set of declension/conjugation paradigms with the versatility of a complex machine-derived system that links lemmas to paradigms while not allowing any exceptions. The outcome is a middle-sized set of paradigms that, once learned, can be applied to remember the forms of all the words in the course by merely taking note of the paradigm and any indicated exceptions.

VytisknoutZobrazeno: 24. 9. 2024 02:51

Aplikace počítačové lingvistiky při tvorbě on-line kurzu češtiny mluvtecesky.net

Další aplikace