D 2021

Precomputed Word Embeddings for 15+ Languages

HERMAN, Ondřej

Základní údaje

Originální název

Precomputed Word Embeddings for 15+ Languages

Autoři

HERMAN, Ondřej (203 Česká republika, garant, domácí)

Vydání

Brno, Recent Advances in Slavonic Natural Language Processing (RASLAN 2021), od s. 41-46, 6 s. 2021

Nakladatel

Tribun EU

Další údaje

Jazyk

angličtina

Typ výsledku

Stať ve sborníku

Obor

10200 1.2 Computer and information sciences

Stát vydavatele

Česká republika

Utajení

není předmětem státního či obchodního tajemství

Forma vydání

tištěná verze "print"

Kód RIV

RIV/00216224:14330/21:00123246

Organizační jednotka

Fakulta informatiky

ISBN

978-80-263-1670-1

ISSN

Klíčová slova anglicky

Word embeddings; Sketch Engine; Corpora
Změněno: 15. 5. 2024 02:13, RNDr. Pavel Šmerk, Ph.D.

Anotace

V originále

Word embeddings serve as an useful resource for many downstream natural language processing tasks. The embeddings map or embed the lexicon of a language onto a vector space, in which various operations can be carried out easily using the established machinery of linear algebra. The unbounded nature of the language can be problematic and word embeddings provide a way of compressing the words into a manageable dense space. The position of a word in the vector space is given by the context the word appears in, or, as the distributional hypothesis postulates, a word is characterized by the company it keeps [2]. As similar words appear in similar contexts, their positions will also be close to each other in the embedding vector space. Because of this many useful semantical properties of words are preserved in the embedding vector space.

Návaznosti

LM2018101, projekt VaV
Název: Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy (Akronym: LINDAT/CLARIAH-CZ)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, LINDAT/CLARIAH-CZ - Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy