KILGARRIFF, Adam, Pavel RYCHLÝ, Vojtěch KOVÁŘ a Vít BAISA. Finding Multiwords of More Than Two Words. In Proceedings of the 15th EURALEX International Congress. Oslo: Department of Linguistics and Scandinavian Studies, University of Oslo. s. 693-700. ISBN 978-82-303-2095-2. 2012.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Finding Multiwords of More Than Two Words
Autoři KILGARRIFF, Adam (826 Velká Británie a Severní Irsko, garant), Pavel RYCHLÝ (203 Česká republika, domácí), Vojtěch KOVÁŘ (203 Česká republika, domácí) a Vít BAISA (203 Česká republika, domácí).
Vydání Oslo, Proceedings of the 15th EURALEX International Congress, od s. 693-700, 8 s. 2012.
Nakladatel Department of Linguistics and Scandinavian Studies, University of Oslo
Další údaje
Originální jazyk angličtina
Typ výsledku Stať ve sborníku
Obor 60200 6.2 Languages and Literature
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
Forma vydání tištěná verze "print"
Kód RIV RIV/00216224:14330/12:00057392
Organizační jednotka Fakulta informatiky
ISBN 978-82-303-2095-2
Klíčová slova anglicky collocations; multiword expressions; multiwords; corpus lexicography; word sketches
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnil: Mgr. et Mgr. Vít Baisa, Ph.D., učo 139654. Změněno: 12. 6. 2016 15:39.
Anotace
The prospects for automatically identifying two-word multiwords in corpora have been explored in depth, and there are now well-established methods in widespread use. (We use ‘multiwords’ to include collocations, colligations, idioms and set phrases etc.) But many multiwords are of more than two words and research for items of three and more words has been less successful. We present three complementary strategies, all implemented and available in the Sketch Engine. The first, ‘multiword sketches’, starts from the word sketch for a word and lets a user click on a collocate to see the third words that go with the node and collocate. In the word sketch for take, one collocate is care. We can click on that to find ensure, avoid: take care to ensure, take care to avoid. The second, ‘commonest match’, will find these full expressions, including the to. We look at all the examples of a collocation (represented as a pair/triple of lemmas plus grammatical relation(s)) and find the commonest forms and order of the lemmas, plus any other words typically found in that same collocation. For baby and bathwater we find throw the baby out with the bathwater. The third, ‘multi level tokenization’, allows intelligent handling of items like in front of, which are, arguably, best treated as a single token, so lets us find its collocates: mirror, camera, crowd. While the methods have been tested and exemplified with English, we believe they will work well for many languages.
Návaznosti
GAP401/10/0792, projekt VaVNázev: Temporální aspekty znalostí a informací
Investor: Grantová agentura ČR, Temporální aspekty znalostí a informací
LM2010013, projekt VaVNázev: LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat (Akronym: LINDAT-Clarin)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Projekt LINDAT-Clarin - Vybudování a provoz českého uzlu pan-evropské infrastruktury pro výzkum
248307, interní kód MUNázev: Pattern Recognition-based Statistically Enhanced MT (Akronym: PRESEMT)
Investor: Evropská unie, Pattern Recognition-based Statistically Enhanced MT, Spolupráce
VytisknoutZobrazeno: 29. 3. 2024 01:33