Computing Idioms Frequency in Text Corpora

BUŠTA, Jan. Computing Idioms Frequency in Text Corpora. In Proceedings of Recent Advances in Slavonic Natural Language Processing 2008. Brno: Masaryk University, 2008, s. 0-0, 4 s. ISBN 978-80-210-4741-9.

Další formáty: BibTeX LaTeX RIS

Základní údaje
Originální název	Computing Idioms Frequency in Text Corpora
Název česky	Výpočet četnosti idiomů v korpusu
Autoři	BUŠTA, Jan (203 Česká republika, garant, domácí).
Vydání	Brno, Proceedings of Recent Advances in Slavonic Natural Language Processing 2008, od s. 0-0, 4 s. 2008.
Nakladatel	Masaryk University

Další údaje
Originální jazyk	angličtina
Typ výsledku	Stať ve sborníku
Obor	60200 6.2 Languages and Literature
Stát vydavatele	Česká republika
Utajení	není předmětem státního či obchodního tajemství
Forma vydání	tištěná verze "print"
WWW	URL
Kód RIV	RIV/00216224:14330/08:00034421
Organizační jednotka	Fakulta informatiky
ISBN	978-80-210-4741-9
UT WoS	000302212600012
Klíčová slova anglicky	frequency of idioms; headwords; text corpora; czech language
Štítky	Czech language, frequency of idioms, headwords, Text Corpora
Změnil	Změnil: Mgr. Jan Bušta, učo 172959. Změněno: 1. 6. 2021 07:47.

Anotace

The idioms are phrases which meaning is not composed from the meanings of each word in the phrase. This is one of the natural examples of violating the principle of compositionality that means that idioms are in area of natural language processing problem of meaning mining. To count the frequency of phrases such idioms in corpora has one big aim: To get to know which phrases we use often and which less. We do it to be able to start with getting the meaning of the whole phrases not just each word. This improves the understanding natural language. The idioms are phrases which meaning is not composed from the meanings of each word in the phrase. This is one of the natural examples of violating the principle of compositionality that means that idioms are in area of natural language processing problem of meaning mining. To count the frequency of phrases such idioms in corpora has one big aim: To get to know which phrases we use often and which less. We do it to be able to start with getting the meaning of the whole phrases not just each word. This improves the understanding natural language.

Anotace česky

Idiomy jsou slovní spojení, jejichž význam se neskládá z významů jednotlivých slov. Idiomy jsou příkladem porušování principu kompozicionality a tím jsou problémem při strojovém zpracování jazyka. Výpočet četnosti idiomů v korpusu přinese informaci, které idiomy se používají častěji, které méně často. Seřazení idiomů dle jejich četnosti ukáže, na které idiomy je třeba se soustředit více, a tak lépe porozumět přirozenému jazyku.

Návaznosti
LC536, projekt VaV	Název: Centrum komputační lingvistiky
LC536, projekt VaV	Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Centrum komputační lingvistiky
2C06009, projekt VaV	Název: Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce (Akronym: COT-SEWing)
2C06009, projekt VaV	Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Prostředky tvorby komplexní báze znalostí pro komunikaci se sémantickým webem v přirozeném jazyce

VytisknoutZobrazeno: 26. 4. 2024 18:20

Computing Idioms Frequency in Text Corpora

Další aplikace