NOVOTNÝ, Vít. Soft Cosine Measure: Capturing Term Similarity in the Bag of Words VSM. 2019.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název Soft Cosine Measure: Capturing Term Similarity in the Bag of Words VSM
Autoři NOVOTNÝ, Vít (203 Česká republika, garant, domácí).
Vydání 2019.
Další údaje
Originální jazyk angličtina
Typ výsledku Prezentace na konferencích
Obor 10200 1.2 Computer and information sciences
Stát vydavatele Česká republika
Utajení není předmětem státního či obchodního tajemství
WWW Scientific poster
Kód RIV RIV/00216224:14330/19:00109518
Organizační jednotka Fakulta informatiky
Klíčová slova česky umělá inteligence; strojové učení; výpočetní lingvistika; získávání znalostí; zodpovídání otázek; slovní embeddingy; word2vec; word2bits; lineární algebra; výpočetní složitost
Klíčová slova anglicky artificial intelligence; machine learning; computational linguistics; information retrieval; question answering; word embeddings; transfer learning; word2vec; word2bits; linear algebra; computational complexity
Štítky machine learning
Příznaky Mezinárodní význam
Změnil Změnil: RNDr. Vít Starý Novotný, Ph.D., učo 409729. Změněno: 1. 11. 2021 09:35.
Anotace

Our work is a scientific poster that was presented at the ML Prague 2019 conference during February 22–24, 2019.

The standard bag-of-words vector space model (VSM) is efficient, and ubiquitous in information retrieval, but it underestimates the similarity of documents with the same meaning, but different terminology. To overcome this limitation, Sidorov et al. (2014) proposed the Soft Cosine Measure (SCM) that incorporates term similarity relations. Charlet and Damnati (2017) showed that the SCM using word embedding similarity is highly effective in question answering systems. However, the orthonormalization algorithm proposed by Sidorov et al. has an impractical time complexity of O(n^4), where n is the size of the vocabulary.

In our work, we prove a tighter lower worst-case time complexity bound of O(n^3). We also present an algorithm for computing the similarity between documents and we show that its worst-case time complexity is O(1) given realistic conditions. Lastly, we describe implementation in general-purpose vector databases such as Annoy, and Faiss and in the inverted indices of text search engines such as Apache Lucene, and ElasticSearch. Our results enable the deployment of the SCM in real-world information retrieval systems.

Návaznosti
MUNI/A/1145/2018, interní kód MUNázev: Aplikovaný výzkum na FI: softwarové architektury kritických infrastruktur, bezpečnost počítačových systémů, techniky pro zpracování a vizualizaci velkých dat a rozšířená realita.
Investor: Masarykova univerzita, Aplikovaný výzkum na FI: softwarové architektury kritických infrastruktur, bezpečnost počítačových systémů, techniky pro zpracování a vizualizaci velkých dat a rozšířená realita., DO R. 2020_Kategorie A - Specifický výzkum - Studentské výzkumné projekty
VytisknoutZobrazeno: 29. 3. 2024 12:49