Towards Useful Word Embeddings: Evaluation on Information Retrieval, Text Classification, and Language Modeling
Autoři
NOVOTNÝ, Vít (203 Česká republika, garant, domácí), Michal ŠTEFÁNIK (703 Slovensko, domácí), Dávid LUPTÁK (703 Slovensko, domácí) a Petr SOJKA (203 Česká republika, domácí)
Vydání
Brno, Proceedings of the Fourteenth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2020, od s. 37-46, 10 s. 2020
Nakladatel
Tribun EU
Další údaje
Jazyk
angličtina
Typ výsledku
Stať ve sborníku
Obor
10201 Computer sciences, information science, bioinformatics
Since the seminal work of Mikolov et al. (2013), word vectors of log-bilinear models have found their way into many NLP applications and were extended with the positional model.
Although the positional model improves accuracy on the intrinsic English word analogy task, prior work has neglected its evaluation on extrinsic end tasks, which correspond to real-world NLP applications.
In this paper, we describe our first steps in evaluating positional weighting on the information retrieval, text classification, and language modeling extrinsic end tasks.
Návaznosti
MUNI/A/1076/2019, interní kód MU
Název: Zapojení studentů Fakulty informatiky do mezinárodní vědecké komunity 20 (Akronym: SKOMU)
Investor: Masarykova univerzita, Zapojení studentů Fakulty informatiky do mezinárodní vědecké komunity 20, DO R. 2020_Kategorie A - Specifický výzkum - Studentské výzkumné projekty
MUNI/A/1411/2019, interní kód MU
Název: Aplikovaný výzkum: softwarové architektury kritických infrastruktur, bezpečnost počítačových systémů, zpracování přirozeného jazyka a jazykové inženýrství, vizualizaci velkých dat a rozšířená realita.
Investor: Masarykova univerzita, Aplikovaný výzkum: softwarové architektury kritických infrastruktur, bezpečnost počítačových systémů, zpracování přirozeného jazyka a jazykové inženýrství, vizualizaci velkých dat a rozšířená realita., DO R. 2020_Kategorie A - Specifický výzkum - Studentské výzkumné projekty
NOVOTNÝ, Vít, Michal ŠTEFÁNIK, Dávid LUPTÁK a Petr SOJKA. Towards Useful Word Embeddings: Evaluation on Information Retrieval, Text Classification, and Language Modeling. In Aleš Horák and Pavel Rychlý and Adam Rambousek. Proceedings of the Fourteenth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2020. Brno: Tribun EU, 2020, s. 37-46. ISBN 978-80-263-1600-8.
@inproceedings{1699698, author = {Novotný, Vít and Štefánik, Michal and Lupták, Dávid and Sojka, Petr}, address = {Brno}, booktitle = {Proceedings of the Fourteenth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2020}, editor = {Aleš Horák and Pavel Rychlý and Adam Rambousek}, keywords = {Evaluation; word vectors; word2vec; fastText; information retrieval; text classification; language modeling}, howpublished = {tištěná verze "print"}, language = {eng}, location = {Brno}, isbn = {978-80-263-1600-8}, pages = {37-46}, publisher = {Tribun EU}, title = {Towards Useful Word Embeddings: Evaluation on Information Retrieval, Text Classification, and Language Modeling}, url = {http://raslan2020.nlp-consulting.net/}, year = {2020} }
TY - JOUR ID - 1699698 AU - Novotný, Vít - Štefánik, Michal - Lupták, Dávid - Sojka, Petr PY - 2020 TI - Towards Useful Word Embeddings: Evaluation on Information Retrieval, Text Classification, and Language Modeling PB - Tribun EU CY - Brno SN - 9788026316008 KW - Evaluation KW - word vectors KW - word2vec KW - fastText KW - information retrieval KW - text classification KW - language modeling UR - http://raslan2020.nlp-consulting.net/ N2 -
Since the seminal work of Mikolov et al. (2013), word vectors of log-bilinear models have found their way into many NLP applications and were extended with the positional model.
Although the positional model improves accuracy on the intrinsic English word analogy task, prior work has neglected its evaluation on extrinsic end tasks, which correspond to real-world NLP applications.
In this paper, we describe our first steps in evaluating positional weighting on the information retrieval, text classification, and language modeling extrinsic end tasks.
ER -
NOVOTNÝ, Vít, Michal ŠTEFÁNIK, Dávid LUPTÁK a Petr SOJKA. Towards Useful Word Embeddings: Evaluation on Information Retrieval, Text Classification, and Language Modeling. In Aleš Horák and Pavel Rychlý and Adam Rambousek. \textit{Proceedings of the Fourteenth Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2020}. Brno: Tribun EU, 2020, s.~37-46. ISBN~978-80-263-1600-8.