J 2011

Japanese Word Sketches: Advances and Problems

SRDANOVIĆ, Irena, Naomi IDA, Chikako SHIGEMORI BUČAR, Adam KILGARRIFF, Vojtěch KOVÁŘ et. al.

Základní údaje

Originální název

Japanese Word Sketches: Advances and Problems

Název česky

Word Sketches pro japonštinu: Pozitiva a problémy

Autoři

SRDANOVIĆ, Irena (705 Slovinsko), Naomi IDA (392 Japonsko), Chikako SHIGEMORI BUČAR (705 Slovinsko), Adam KILGARRIFF (826 Velká Británie a Severní Irsko) a Vojtěch KOVÁŘ (203 Česká republika, garant, domácí)

Vydání

Acta Linguistica Asiatica, Ljubljana, University of Ljubljana, 2011, 2232-3317

Další údaje

Jazyk

angličtina

Typ výsledku

Článek v odborném periodiku

Obor

60200 6.2 Languages and Literature

Stát vydavatele

Slovinsko

Utajení

není předmětem státního či obchodního tajemství

Odkazy

Kód RIV

RIV/00216224:14330/11:00053629

Organizační jednotka

Fakulta informatiky

Klíčová slova česky

word sketches;vyhodnocení;japonština

Klíčová slova anglicky

word sketches;evaluation;japanese

Příznaky

Mezinárodní význam, Recenzováno
Změněno: 25. 11. 2011 13:10, RNDr. Vojtěch Kovář, Ph.D.

Anotace

V originále

In this paper, we present results of an evaluation of Japanese word sketches and address in detail issues that were observed by the evaluators. A word sketch presents a list of salient collocates of a word, organized by the grammatical relations holding between the word and its collocate. The word sketch functionality is incorporated into the Sketch Engine corpus query system and has been created for more than twenty languages so far, including Japanese. The issues that have been discovered in the evaluation of word sketches in Japanese are to be addressed for further enhancement of the word sketch functionality. Other tools and resources which are combined for use and influence the performance of the word sketches should also be looked over. We divide the issues into the following: 1) the lemmatizer and tagger in use, 2) the sketch grammar that is specifically written for Japanese, and 3) the corpus and statistical methods.

Česky

Článek preentuje výsledky evaluace aplikace word sketches na japonštinu. Word sketches prezentují seznam důvěryhodných kolokací slova organizovaných podle gramatických relací, na základě korpusu japonštiny. Evaluace je rozdělena do následujících fází: 1) použitý lemmatizér a značkovač, 2) "sketch grammar" -- syntaktická pravidla pro extrakci kolokací a 3) korpus a statistické metody.

Návaznosti

LC536, projekt VaV
Název: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
248307, interní kód MU
Název: Pattern Recognition-based Statistically Enhanced MT (Akronym: PRESEMT)
Investor: Evropská unie, Pattern Recognition-based Statistically Enhanced MT, Spolupráce