SLAN (Slovotvorný analyzátor pro výuku češtiny pro cizince) projekt aplikovaného výzkumu č. TL03000293 (podpořen TAČR) Ivana Kolářová, Anastasija Sokolova, (Adriana Válková) Brno 29. 3. 2023 podporou Technologické agentury ČR v rámci C G Í l t T U I T l P TOllÍl Hl podporou Technologické agentury ČR v rámci 4 Q V Tento projekt je spolufinancován se státní podporou Ted Programu ÉTA n p n Č R w w w , a c r c z VJĽ/ cizince jmk1 * Výzkum užitečný pro společnost. ^ * * Motivace: extralingvistické faktory Počet cizinců v ČR 700 000 600 000 500 000 400 000 300 000 200 000 100 000 0 III •••• 31.12.2019 «31.12.2020 «31.12.2021 «31.12.2022 Zdroj dat: https://www.czso.cz/csu/cizinci/4-ciz počet cizincu#cr. Graf: vlastní zpracování. Motivace: teoretická východiska Slovotvorba v procesu osvojování (cizího) jazyka • Argus, R. and V. Kazakovskaya (2018) Acquisition of noun derivation in Estonian and Russian L1. Eesti Rakenduslingvistika Ühingu aastaraamat / Estonian Papers in Applied Linguistics, 14, 23-39. • Bauer, L. and R Nation (1993) Word families. International Journal of Lexicography, 6 (4), 253-279. • Clark, E. V., and R. A. Berman (1984) Structure and Use in the Acquisition of Word Formation. Language, 60 (3), 542-590. • Hacken, ten P., A. Abel and J. Knapp (2006) Word Formation in an Electronic Learners' Dictionary: ELDIT. International Journal of Lexicography, 19 (3), 243-256. • Madsen, R. S. (2019) Word-formation preferences of non-natives. SKASE Journal of Theoretical Linguistics, 16 (1), 162-176. • Mattes, V., W. U. Dressler, K. Korecky-Kröll and S. Sommer-Lolei (2021) The Acquisition of Derivational Morphology Amsterdam: John Benjamins Publishing Company. • Nádeníček, P. (2017) Krátké zamyšlení nad postavením slovotvorby ve výuce češtiny jako cizího jazyka. In: Nekula M. and K. Šichová (Ed.) Variety češtiny a čeština jako cizí jazyk, 171-183. Praha: Akropolis. • Olshtain, E. (1987) The Acquisition of New Word Formation Processes in Second Language Acquisition. Studies in Second Language Acquisition, 9 (2), 221-231. • Tschichold, C. and. P. ten Hacken (2015) Word-formation in second language acquisition. In: Müller P. O., Ohnheiser I., Olsen S. and F. Rainer (Ed.) Volume 3. Word-formation: an international handbook of the language of Europe, 2137-2154. Berlin: Mouton de Gruyter. Slovotvorba ČJ, RJ a dalších slovanských jazyků • Bozděchová, I. (2016) Czech. In: Müller P. O., Ohnheiser I., Olsen S. and F. Rainer (Ed.) Volume 4. Word-formation: an international handbook of the language of Europe, 2872-2891. Berlin: Mouton de Gruyter. • Janda, L. (2010) Russian word-formation in contrast with Czech and Norwegian. Oslo Studies in Language (OSLa), 2 (2), 243-259. • Kortvélyessy, L. (2016) Word-formation in Slavic languages. Poznan Studies in Contemporary Linguistics, 52 (3), 455-501. • Uluhanov, I. S. (2016) Russian. In: Müller P. O., Ohnheiser I., Olsen S. and F. Rainer (Ed.) Volume 4. Word-formation: an international handbook of the language of Europe, 2953-2978. Berlin: Mouton de Gruyter. Východisko dat: učebnicový korpus UčebKo Proč korpus? Korpus • rozsáhlý soubor elektronicky uložených a statisticky zpracovaných textů • obecné x specializované • synchronní x diachrónni • psané x mluvené • anotované x neanotované • ... Učebnicový korpus • korpus tvořený z učebnic (češtiny pro cizince) • zachycuje slovní zásobu cizinců na jednotlivých jazykových úrovních Východisko dat: učebnicový korpus UčebKo UčebKo • tři subkorpusy: UčebKo-A2, UčebKo-B1 a UčebKo-B2 • 9 učebnic češtiny pro cizince (3 pro každou úroveň) • výběr učebnic: 1. dospělí, 2. komunikativní charakter, 3. aktuálnost (ne starší 15 let), 4. různí autoři, 5. užívání ve výuce • přístupný přes SketchEngine pouze autorizovaným uživatelům pro vědecké účely • výhoda tvorby korpusu SketchEngine - anotovaný korpus Korpus UčebKo (Válková 2021) UčebKo-A2 UčebKo-B1 UčebKo-B2 number of words 91,561 122,604 89,697 number of sentences 15,099 16,993 9,739 average sentence 6 words / sentence 7 words / sentence 9 words / sentence n o u n total frequency Lemma Absolute Frequency ? republika 335 ••• kolika 203 »• babička 193 — 4 zkouška 182 ••• 5 maminka 172 — 6 kamarádka 151 — ruka 138 ••• manželka 121 ••• 9 otázka 98 ••• matka 97 ••• Lemma Absolute Frequency' řeka 82 ••• procházka 78 ••• památka 70 ••• učitelka 69 ••• zastávka 67 ••• banka 65 — polévka 63 ••• schůzka 58 ••• značka 57 ••• kočka 56 ••• Lemma Absolute Frequency ? linka 56 ••• válka 52 .» holka 52 — Šárka 50 ••• láska 50 — taška 49 — nabídka 47 ••• herečka 47 ••• písnička 42 ••• sbírka 38 ~ Lemma Absolute Frequency ? dívka 38 ••• podmínka 37 ... pohádka 36 — 34 sekretářka 36 «• 35 doktorka 35 — 36 peněženka 35 — křižovatka 34 ••• studentka 34 ••• přednáška 32 ••• 40 stránka 32 .« <\ ± €> O ^ Lemma Absolute Frequency ? prohlídka 31 • chřipka 30 • Monika 30 • vstupenka 30 • Lenka 30 • Amerika 29 • gramatika 28 • motorka 28 • známka 27 • omáčka 25 • Rows per page: 50 ~ 1-50 of 701 Válková, A. (2021) Building Czech Textbook Corpora (UcebKo) for Word-formation Research of Czech as a Second Language. Jazykovedný časopis, 72 (2), 631-640. Databáze SLAN zahrnuje 1. SEZNAMY SLOV podle sémantických skupin, sufixů/prefixů, úrovní A2, B1, B2 Zahrnují slova odvozená POUZE OD JEDNOHO SLOVA ZÁKLADOVÉHO, tj. slova tvořená nejjednodušším způsobem. Teoretická východiska Dokulil, M.: Tvoření slovv češtině I. Teorie odvozování slov. Praha: Academia, 1962. Dokulil, M. a kol.: Tvoření slov v češtině II. Odvozování podstatných jmen. Praha: Academia, 1967. Stícha F. a kol. Velká akademická gramatika spisovné češtiny. I. Morfologie. Část 1, Část 2. Praha: Academia, 2018 Databáze SLAN zahrnuje: 2. ÚKOLY (CVIČENÍ) K PROCVIČOVÁNÍ • hledání slov s určitým významem a určitým sufixem v textu • poznání významu utvoreného slova Rozlišení podle úrovní A2, B1, B2 Databáze SLAN nezahrnuje: - slova složená príklad z UčebKa: studujou tam samoplátci z celého světa (A2) - slova odvozená cirkumfixy príklad z UčebKa: šli k náměstí (A2) slova vzniklá univerbizací příklad z UčebKa: bydlí v bytě v paneláku (A2) Důvody: • časové možnosti projektu • slovotvorné způsoby náročnější na pochopení cizincem, vzniká-li jedno slovo minimálně ze dvou slov základových https://slan.ped.muni.ez/#/o-projektu chci úroveň: B A2 • B1 • B2 bydlet -» bydliště chci najit: hrát - • h ř i š t ě (•) podstatné jméno ( ) přídavné jméno letět —»letiště má výirwn místa (nastoupit) —» n á s t u p i š t ě začíná na parkovat -» p a r k o v i š t ě schod -» s c h o d i š t ě feonVná išté sportovat —* s p o r t o v i š t ě chci to vysvětlit v: stání - * s t a n o v i š t ě (•) češtine Q ruštine Q angličtině hledět —» h l e d i š t ě Vyhledal možnosti vyhledávaných slov podle zvolených vlastností výsledek vyhledávání (příklad) SLAN - SLOVOTVORNÝ ANALYZÁTOR PRO VÝUKU ČEŠTINY PRO CIZINCE chci úroveň: B A2 • B1 • B2 chci najit: (S) podstatné jméno Q přídavné jméno ma vyznám místa konči na iště chci to vysvětlit v: (5) češtině Q ruštině O angličtině 1 I bydlet -> bydli hrát -> hřiště letět -> letiště (nastoupit) -> nástupiště parkovat -> parkoviště schod -> schodiště sportovat -> sportoviště stání —> stanoviště hledět -> hlediště rod: střední (tc příklady: domácí/fotbalové/golfové dětské hřiště (A2). být blízko hřiště, chodit s kamarády na hřiště pozor: mění ser-*ř Chci najit slova Chci si procvičovat ové I Ul\l I T A Tento projekt je spolufinancován se statni ' podporou Technologické agentury ČR v rámci ^ \ Programu 11 A. v ? Výzkum užitečný pro ípoíečnoíf © 2023 - EVE Technologies s.r.o. & Masaryk University SLAN - SLOVOTVORNÝ ANALYZÁTOR PRO VÝUKU ČEŠTINY PRO CIZINCE • DOA: cpeflHHň (TO) • npnnepbi: Chci nají slova Chci si procvičovat chci úroveň: O A2 • B1 • B2 chci najít: (•) podstatné jméno ( ) přídavné jméno bydlet -» bydli* hrát —> hřiště letět -» letiště domáci/fotbalové/golfové dětské hňště (A2), být blízko hřiště, chodit s kamarády na hňště • BHiiMamie: npoucxoAMT H3M6HeHMe T —* Ť mé lýznam: místa (nastoupit) -» n á s t u p i š t ě parkovat —*• p a r k o v i š t ě začíná na: schod —»schodiště Honů' na isté sportovat —* s p o r t o v i š t ě stání — s t a n o v i š t ě chci to vysvětlit v: O češtině (•) ruštině Q angličtině hledět —* h l e d i š t ě ^ ^ | umí T A Č R Tento projekt je spolufinancován se státní podporou Technologické agentury ČR v rámci Programu ÉTA. www.tacr.cz Výzkum užitečný pro společnost ídrWUBJOgfM © 2023 - EVE Technologies s.r.o. & Masaryk University Co najdeme u jednotlivých derivátů? základové slovo: učit -> učitel v cestme, ruštine, angličtine: • gramatické informace o rodě substantiv • příklady kolokací z korpusu Učebko nebo ze SYN2020 • informace o hláskových změnách při odvozování, pokud se vyskytují • informace o variantách sufixu, pokud se vyskytují Seznamy derivátů podle sémantických skupin a sufixů - podstatná jména Sufixy psané versálou se ukázaly jako nejvíce produktivní SEZNAMY SLOV - podstatná jména se sufixy sémantická skupina sufixy názvy osob 0 a ac ák AN ANT/ ENT AŘ/ AR át CE C ček Cl ec en ér/ • * ler ÍK/ NÍK ik ina ir ISTA ka 1 och oun TEL SEZNAMY SLOV - podstatná jména se sufixy i- i - i s u f i x v sémantická skupina názvy prostředků a nástrojů a ák Č ČKA/ KA dlo ík/ník na ní/tí tko názvy objektů a ák ba č dlo ec ek ice/ nice ÍK/ NÍK INA ivo KA ko Ní/ Tí ost ovna SEZNAMY SLOV - podstatná jména se sufixy sémantická skupina názvy látek názvy jednotlivostí názvy míst sufixy dlo INA/NINA IVO ek ín ina inka ba dlo ík/ nik INA isko IŠTĚ KA NA ní/tí NICE ost/ nost STVÍ/ CTVÍ tko SEZNAMY SLOV - podstatná jména se sufixy sémantická skupina názvy vlastností a stavů sufixy a ba no/o OST/ NOST ota STVÍ/ OVSTVÍ názvy jazyků SEZNAMY SLOV - podstatná jména se sufixy sémantická skupina názvy dějů sufixy A BA dlo e/ě EK el/ ch í ina j ež KA ná/ Ní/ 0 ost/ tá Tí nost ot ství t va názvy poplatků SEZNAMY SLOV - podstatná jména se sufixy sémantická skupina názvy číselných pojmů sufixy ice ina/ iny KA tina názvy hromadné í oví CTVO/ STVO názvy zveličelé SEZNAMY SLOV - podstatná jména se sufixy sémantická skupina sufixy názvy zdrobnělé áček átko ečka ečko EK enka ÍČKA íčka ičko íčko ík ínek inka KA ko SEZNAMY SLOV - podstatná jména se sufixy sémantická skupina názvy přechýlené sufixy ice KA yně/ kyně názvy ostatní čko/ ík KA ní/tí ko SEZNAMY SLOV - podstatná jména s prefixy (příklady) sémantická skupina názvy míst prefixy pra před vele multi názvy dějů názvy vlastností a stavů pod před sou bez nad po sou SEZNAMY SLOV - podstatná jména s prefixy (příklady) sémantická skupina prefixy názvy osob multi nad pod pra před vice Polysemie výrazů z korpusu UčebKo výsledek děje - prostředek činnosti význam 1 význam 2 výsledek děje prostředek činnosti zařízení Co potřebujeme k zařízení bytu? (B2) mobilní zařízení, elektronická zařízení (A2, B1, B2) sprcha dát si pořádnou sprchu (B1) koupelna se sprchou (A2, B1, B2) Další případy Někdy je v korpusech Učebko slovo doloženo jen v jednom z možných významů UčebKo syn2020 výstava místo děj, výsledek děje výstava navštívit výstavu (A2, B1, B2) výstava lidového umění místo vlastnost, stav pohotovost jít na pohotovost (A2, B1, B2) vyhlásit stav pohotovosti, být v plné pohotovosti místo děj, výsledek děje oddělení studijní oddělení, vedoucí oddělení (A2, B1, B2) brzké oddělení od rodiny sémantická kategorie počet sufixů počet lemmat nejzastoupenější sufixy (počet lemmat) příklady (jazyková úroveň) děj, výsledek děje 19 691 -ní/-tí (464) představení (A2, B1, B2) <— představen/představit názvy osob (masculine animate) 26 417 -ík/-ník (73) zákazník (A2, B1, B2) < - zakázka vlastnost, stav 6 202 -ost/-nost (173) radost (A2, B1, B2) < - rád, zkušenost (A2, B1, B2) < - zkušený zdrobneliny 15 186 -ek (77) dárek (A2, B1, B2) dar názvy žen 3 162 -ka* (125) kamarádka (A2, B1, B2) < - kamarád, manželka (A2, B1, B2) < - manžel místo 13 135 -na (43) kavárna (A2, B1, B2) < - káva, knihovna (A2, B1, B2) < - kniha objekty 16 115 -ka* (38) fotka (A2, B1, B2) fotit prostředky a nástroje 9 48 -čka/-ka*(14) motorka (A2, B1, B2) < - motor číselné výrazy 4 30 -ka*(21) desítka (A2, B1, B2) <- deset názvy jazyků 2 29 -ina* (28) angličtina (A2, B1, B2) < - anglický hromadné názvy 3 14 -ctvo/-stvo (9) obyvatelstvo (A2, B1, B2) < - obyvatel poplatky 2 10 -ně (9) jízdné (A2, B1, B2) ^ jízda látky 3 8 -ina* (6) tekutina (B1, B2) < - tekutý jednotliviny 4 5 -ina* (2) potravina (A2, B1, B2) <— potrava zveličení 1 1 -isko (1) psisko (B2) <— pes jiné 53 CELKEM: 2 106 sémantická kategorie počet prefixů počet lemmat nejzastoupenější prefixy (počet lemmat) příklady (jazyková úroveň) děj, výsledek děje 3 3 — podnájem (A2, B1, B2) <— nájem, předprodej (A2, B1, B2) <— prodej, souhra (B1, B2)^hra názvy osob (masculine animate) 6 12 pra- (7) prarodič (A2, B1, B2) < - rodič místo 5 5 předsíň (A2, B1, B2) < - síň, veletrh (A2, B1, B2) < - trh, multikino (B1, B2) < - kino, mikroregion (B1, B2) <— region, prales (B2) <— /es vlastnost, stav 4 6 nad- (2), sou- (2) nadváha (A2, B1, B2) <- váA?a, sot//aoř f f í t fí2j /aof CELKEM: 26 ž. r. str. r. m. r. živ. m. r. neživ. CELKEM: končí na 869 634 431 172 2 106 začíná na 6 5 9 6 26 CELKEM: 875 639 440 178 2 132 chci úroveň: D A2 • B1 • B2 chci najít: (i) podstatné jméno má význam: pojmenování žen ice, ka, ynô/kyné chci to vysvětlit v: (•) češtině Q ruštině Q angličtině Vyhledat zákazník -»zákaznice úředník -»úřednice kadeřník -»kadeřnice pracovník —»pracovnice návštěvník —> návštěvfl přítel přítelkyně kolega . kolegyně průvodce -»průvodk sportovec -> sportovkyně zaměstnanec —> zaměstnankyně pěvec —» pěvkyně plavec -»plavkyně • rod: ženský (ta) • příklady: nová kolegyně (A2). představit novou kolegyni (B1), seznámit se s novou kolegyní (B1) zájemce —> zájemkyně Děkujeme za pozornost! Ivana Kolářová: kolarova@ped.muni c.7 Anastasija Sokolova: sokolova@ped.muni c.v Adriana Válková: ad.valkova@amail.com