PALA, Karel a Pavel ŠMERK. Multiword Expressions in Czech (a case study). In Aleš Bičan, Jan Klaška, Petra Macurová, Jana Zmrzlíková. Karlík a továrna na lingvistiku. Prof. Petru Karlíkovi k šedesátým narozeninám. Brno: Host, 2010, s. 331-344. ISBN 978-80-7294-412-5.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Multiword Expressions in Czech (a case study)
Název česky Víceslovné výrazy v češtině (případová studie)
Autoři PALA, Karel (203 Česká republika, garant, domácí) a Pavel ŠMERK (203 Česká republika, domácí).
Vydání Brno, Karlík a továrna na lingvistiku. Prof. Petru Karlíkovi k šedesátým narozeninám, od s. 331-344, 14 s. 2010.
Nakladatel Host
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 10201 Computer sciences, information science, bioinformatics
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
Kód RIV RIV/00216224:14330/10:00045835
Organizační jednotka Fakulta informatiky
ISBN 978-80-7294-412-5
Klíčová slova česky víceslovné výrazy v češtině; slovní profily; n-gramy
Klíčová slova anglicky Czech Multiword Expressions; Word Sketches; n-grams
Změnil Změnil: RNDr. Pavel Šmerk, Ph.D., učo 3880. Změněno: 26. 4. 2011 22:39.
Anotace
This paper presents a multiword expression (MWE) database recently built for Czech that at the moment contains approx. 160,000 items (lexical units). It was compiled from various resources such as encyclopedias and dictionaries, public databases of proper names and toponyms, collocations obtained from Czech WordNet, lists of botanical and zoological terms and others. We compare the built MWEs database with the corpus data from Czech National Corpus (approx. 100 mil. tokens) and internet-based CZES corpus (approx. 1 bil. tokens) and present results of this comparison in the paper. To obtain a more reliable and complete list of MWEs we have proposed and used a technique exploiting the Word Sketch Engine, which allows us to work with statistical parameters such as frequency of MWEs and their components as well as the salience for the whole MWEs. The list of bigrams and n-grams obtained via Word Sketch Engine was further analyzed and compared with the MWE database mentioned above.
Anotace česky
V článku se probírá databáze českých víceslovných výrazů nedávno vzniklá v Centru ZPJ FI MU a čítající nyní cca 160 000 jednotek. Byla získána z různých zdrojů - slovníků, veřejnných seznamů vlastních jmen a toponym a korpusů. Řada kolokací byla získána z českého WordNetu a seznamů botanických a zoologických termínů. Pro získávání víceslovných výrazů z korpusů byla použita technika slovních profilů.
Návaznosti
GAP401/10/0792, projekt VaVNázev: Temporální aspekty znalostí a informací
Investor: Grantová agentura ČR, Temporální aspekty znalostí a informací
GA407/07/0679, projekt VaVNázev: Právní e-slovník - PES
Investor: Grantová agentura ČR, Právní e-slovník - PES
LC536, projekt VaVNázev: Centrum komputační lingvistiky
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
2C06009, projekt VaVNázev: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce (Akronym: COT-SEWing)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce
VytisknoutZobrazeno: 25. 4. 2024 05:36