Multiword Expressions in Czech (a case study)

PALA, Karel a Pavel ŠMERK. Multiword Expressions in Czech (a case study). In Aleš Bičan, Jan Klaška, Petra Macurová, Jana Zmrzlíková. Karlík a továrna na lingvistiku. Prof. Petru Karlíkovi k šedesátým narozeninám. Brno: Host, 2010, s. 331-344. ISBN 978-80-7294-412-5.

Další formáty: BibTeX LaTeX RIS

Základní údaje
Originální název	Multiword Expressions in Czech (a case study)
Název česky	Víceslovné výrazy v češtině (případová studie)
Autoři	PALA, Karel (203 Česká republika, garant, domácí) a Pavel ŠMERK (203 Česká republika, domácí).
Vydání	Brno, Karlík a továrna na lingvistiku. Prof. Petru Karlíkovi k šedesátým narozeninám, od s. 331-344, 14 s. 2010.
Nakladatel	Host

Další údaje
Originální jazyk	angličtina
Typ výsledku	Stať ve sborníku
Obor	10201 Computer sciences, information science, bioinformatics
Stát vydavatele	Česká republika
Utajení	není předmětem státního či obchodního tajemství
Kód RIV	RIV/00216224:14330/10:00045835
Organizační jednotka	Fakulta informatiky
ISBN	978-80-7294-412-5
Klíčová slova česky	víceslovné výrazy v češtině; slovní profily; n-gramy
Klíčová slova anglicky	Czech Multiword Expressions; Word Sketches; n-grams
Změnil	Změnil: RNDr. Pavel Šmerk, Ph.D., učo 3880. Změněno: 26. 4. 2011 22:39.

Anotace

This paper presents a multiword expression (MWE) database recently built for Czech that at the moment contains approx. 160,000 items (lexical units). It was compiled from various resources such as encyclopedias and dictionaries, public databases of proper names and toponyms, collocations obtained from Czech WordNet, lists of botanical and zoological terms and others. We compare the built MWEs database with the corpus data from Czech National Corpus (approx. 100 mil. tokens) and internet-based CZES corpus (approx. 1 bil. tokens) and present results of this comparison in the paper. To obtain a more reliable and complete list of MWEs we have proposed and used a technique exploiting the Word Sketch Engine, which allows us to work with statistical parameters such as frequency of MWEs and their components as well as the salience for the whole MWEs. The list of bigrams and n-grams obtained via Word Sketch Engine was further analyzed and compared with the MWE database mentioned above.

Anotace česky

V článku se probírá databáze českých víceslovných výrazů nedávno vzniklá v Centru ZPJ FI MU a čítající nyní cca 160 000 jednotek. Byla získána z různých zdrojů - slovníků, veřejnných seznamů vlastních jmen a toponym a korpusů. Řada kolokací byla získána z českého WordNetu a seznamů botanických a zoologických termínů. Pro získávání víceslovných výrazů z korpusů byla použita technika slovních profilů.

Návaznosti
GAP401/10/0792, projekt VaV	Název: Temporální aspekty znalostí a informací
GAP401/10/0792, projekt VaV	Investor: Grantová agentura ČR, Temporální aspekty znalostí a informací
GA407/07/0679, projekt VaV	Název: Právní e-slovník - PES
GA407/07/0679, projekt VaV	Investor: Grantová agentura ČR, Právní e-slovník - PES
LC536, projekt VaV	Název: Centrum komputační lingvistiky
LC536, projekt VaV	Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
2C06009, projekt VaV	Název: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce (Akronym: COT-SEWing)
2C06009, projekt VaV	Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce

VytisknoutZobrazeno: 25. 4. 2024 05:36

Multiword Expressions in Czech (a case study)

Další aplikace