“Definice”

Text mining je sada lingvistických a statistických technik, které dovolují dolovat cenné, doposud neznámé informace z obsáhlých nestrukturovaných, textových databází.

Srovnání s dalšími úkoly datové analýzy:

Příklady využití text miningu ve skutečném světě:

Analýza přirozeného jazyka

Obrázek: They ate the pizza with anchovies

Obrázek: They ate the pizza with anchovies

Uložení textu

V R máme k dispozici několik datových struktur k uložení a zpracování textu. Klasické textové řetězec jsou vhodé například při práci s popisky grafů, faktory použijeme při modelování kategoriálních proměnných v regresních modelech a při využití pokročilejších technik analýzy textu použijeme také speciální datové struktury. Nejprve se tedy podívejme na krátký přehled datových struktur, které lze použít v R při práci s textem.

Textové řetězce

Nejobecnější a nejuniverzálnější datová struktura, která může nést text.

text <- c("I don’t like sand. It’s coarse and rough and irritating, and it gets everywhere.",
          "No. I am your father.",
          "Use the force, Luke.",
          "These are not the droids your looking for.",
          "Do. Or do not. There is no try.")
text
[1] "I don’t like sand. It’s coarse and rough and irritating, and it gets everywhere."
[2] "No. I am your father."                                                           
[3] "Use the force, Luke."                                                            
[4] "These are not the droids your looking for."                                      
[5] "Do. Or do not. There is no try."                                                 

Faktory

Faktory si můžeme představit jako čísla s popisem. Každá kategorie (level) faktoru je reprezentován číslem (např. 1 = “Male”, 2 = “Female”), avšak s faktorem nelze provádět klasické matematické operace. Faktory najdou své využití především v regresních modelech, protože text nemůžeme analyzovat kvantitativně a musíme najít způsob, jak převést slova na čísla.

states <- factor(state.region)
attributes(states)
$levels
[1] "Northeast"     "South"         "North Central"
[4] "West"         

$class
[1] "factor"
as.numeric(states)
 [1] 2 4 4 2 4 4 1 2 2 2 4 4 3 3 3 3 2 2 1 2 1 3 3 2 3 4 3 4 1 1
[31] 4 1 2 3 3 2 4 1 1 2 3 2 2 4 1 2 4 2 3 4

Tidytext

Balíček tidytext nabízí další možnosti práce s textem a je plně integrován do ekosystému tidyverse.

# install.packages("tidytext")
library(tidytext)
library(tidyverse)

Nejprve si převeďme původní textový vektor na tibble (původně data_frame), který uloží každý kaýdý prvek vektoru do samostatného řádku a přidejme si navíc i proměnnou, která označí pořadí daného prvku.

text_tbl <- tibble(line=1:5, text=text)
text_tbl

Pomocí funkce unnest_tokens můžeme nechat R, ať nám daný text rozdělí na jednotlivé elementy (tzv. tokenizace). Těmi mohou být jednotlivá slova.

text_tt <- text_tbl %>%
  unnest_tokens(word, text)
text_tt

Různě n-tice slov, třeba tzv. bigramy.

text_tt_bigrams <- text_tbl %>%
  unnest_tokens(ngram, text, token="ngrams", n=2)
text_tt_bigrams

Nebo dokonce i celé věty.

text_tt_sentences <- text_tbl %>%
  unnest_tokens(sentence, text, token="sentences")
text_tt_sentences

Document-term matice

Jedná se o matici, která popisuje četnost jednotlivých slov (sloupce) v analyzovaných dokumentech (řádky). Jedná se tedy o matici, která má zpravidla několik stovek až tisíc sloupců. Na druhou stranu je většina prvků této matice nulová, takže zabírá méně místa než originální dokumenty.

Document-term matici již můžeme použít jako vstup v některém z algoritmu strojového učení (rozhodovací stromy, neuronové sítě apod.).

Podívejme se, jak vypadá document-term matice pro náš text.

# install.packages("tm")
library(tm)
text_dtm <- text_tt %>%
  group_by(line) %>%
  count(word) %>%
  cast_dtm(line, word, n)
inspect(text_dtm)
<<DocumentTermMatrix (documents: 5, terms: 31)>>
Non-/sparse entries: 36/119
Sparsity           : 77%
Maximal term length: 10
Weighting          : term frequency (tf)
Sample             :
    Terms
Docs and coarse do don’t everywhere i no not the your
   1   3      1  0     1          1 1  0   0   0    0
   2   0      0  0     0          0 1  1   0   0    1
   3   0      0  0     0          0 0  0   0   1    0
   4   0      0  0     0          0 0  0   1   1    1
   5   0      0  2     0          0 0  1   1   0    0

Pro konkrétní matici si můžeme vypsat i jednotlivá slova (sloupce).

Terms(text_dtm)
 [1] "and"        "coarse"     "don’t"      "everywhere"
 [5] "gets"       "i"          "irritating" "it"        
 [9] "it’s"       "like"       "rough"      "sand"      
[13] "am"         "father"     "no"         "your"      
[17] "force"      "luke"       "the"        "use"       
[21] "are"        "droids"     "for"        "looking"   
[25] "not"        "these"      "do"         "is"        
[29] "or"         "there"      "try"       

Jazykové korpusy

Jazykový korpus je rozsáhlý soubor textů určitého jazyka. Používají se jednak pro lingvistický výzkum, jednak jako datová základna pro tvorbu slovníků, korektorů, překladačů atd.

text_corpus <- VCorpus(VectorSource(text))
summary(text_corpus)
  Length Class             Mode
1 2      PlainTextDocument list
2 2      PlainTextDocument list
3 2      PlainTextDocument list
4 2      PlainTextDocument list
5 2      PlainTextDocument list
text_corpus[[1]][1]
$content
[1] "I don’t like sand. It’s coarse and rough and irritating, and it gets everywhere."

Příklady některých jazykových korpusů:

Práce s textem

Regulární výrazy

Pomocí jednoduchého řetězce lze nadefinovat celou množinu řetězcům, čehož se využívá nejčastěji při vyhledávání v textu nebo při manipulaci s textem (nahrazování hledaného výrazu za jiný apod.). Znalost regulárních výrazů by měla patřit do výbavy každého datového analytika. Na internetu existuje mnoho nástrojů, které mohou být nápomocné při práci s regulárními výrazy (např. regexone.com pro interaktivní výuku regulárních výrazů, regex101.com pro testování vlastních regulárních výrazů).

Pro práci s textem a s regulárními výrazy lze používat základní R funkce. Nejčastěji se můžete setkat s funkcemi:

  • paste: vytváření textových řetězců kombinací textových a numerických proměnných
paste0(1:12, c("st", "nd", "rd", rep("th", 9)))
 [1] "1st"  "2nd"  "3rd"  "4th"  "5th"  "6th"  "7th"  "8th" 
 [9] "9th"  "10th" "11th" "12th"
  • substr: vyjmutí nebo nahrazení podřetezce v textovém řetězci
substr("abcdef", 2, 4)
[1] "bcd"
  • grep: hledání v textovém řetězci pomocí regulárních výrazů
x <- c("https://www.muni.cz/", "Text.s.teckami", "ftp://ftp.xyz.com/")
grep("^(([^:]+)://)?([^:/]+)(:([0-9]+))?(/.*)", x, value=TRUE)
[1] "https://www.muni.cz/" "ftp://ftp.xyz.com/"  
  • gsub: nahrazuje v textu hledaný řetězec za jiný specifikovaný řetezec, lze použít regulární výrazy
x <- "Tato  veta ma    moc        mezer."
gsub("\\s{2,}", " ", x)
[1] "Tato veta ma moc mezer."
  • strsplit: rozdělení textového řetězce podle daného oddělovače
unlist(strsplit("oddelovac-muze-byt-treba-i-pomlcka", "-"))
[1] "oddelovac" "muze"      "byt"       "treba"     "i"        
[6] "pomlcka"  

Novější balíčky nabízejí příjemnější manipulaci s textem a také lepší integraci do hojně využívaného prostředí tidyverse. Jedním z nich je stringr, který poskytuje mnoho užitečných funkcí, které využijeme v druhé lekci. Pro rychlý přehled funkcí v tomto balíčku doporučuji projít stringr cheat sheet.

Stop words

Stop words jsou taková slova, která nenesou žádnou informační hodnotu. Většinou se je snažíme v průběhu analýzy odstranit, jelikož mají velkou četnost a nenesou žádnou cennou informaci. V angličtině se může jednat například o členy (the, a, an), spojky (and, or, because) nebo zájmena (I, you, he, she).

Můžete si definovat vlastní slovník stop words nebo využít nějaký cizí slovník volně dostupný na internetu. My se podíváme na slovník anglických stop words z balíčku tidytext, který je dostupný v tibble stop_words.

stop_words

Můžeme se podívat, které slova z našeho původního textu zůstanou po odstranění stop words.

text_tt %>%
  anti_join(stop_words, by="word")

Slovník stop words z balíčku tidytext můžeme obohatit i o vlastní slova jednoduchým způsobem.

custom_stop_words <- bind_rows(tibble(word = c("don’t", "it’s"), lexicon = c("custom")), stop_words)
text_tt %>%
  anti_join(custom_stop_words, by="word")

TF-IDF

Určitě vás napadlo, jak správně určit, která slova ještě přidat do stop words a která už ne? Defaultní slovníky navíc mohou obsahovat slova, která ve vašem kontextu mají platný význam (např. is - anglické sloveso vs IS - informační systém).

K zodpovězení těchto otázek nám může pomoci Inverse document frequency, která označuje, jak je dané slovo důležité v kolekci dokumentů. Ta se definuje následujícím vztahem:

\[\text{idf(slovo)} = \ln \left( \frac{\#\text{dokumenty}}{\#\text{dokumenty obsahující dané slovo}} \right)\]

Pokud se slovo nachází ve všech dokumentech, potom je váha takového slova 0 (\(=\ln (1)\)).

Naopak pokud se dané slovo nachází pouze v jednom dokuemntu z mnoha, má toto slovo velkou váhu (např. \(\ln (10/1) = 2,3\)).

Takto vypočítanou váhu můžeme vynásobit četností daného slova a dostaneme tzv. term frequency-inverse document frequency. Ta se definuje následujícím vztahem:

\[\text{tf-idf(slovo)} = \frac{\#\text{slovo v dokumentu}}{\#\text{všechna slova v dokumentu}} \cdot \ln \left( \frac{\#\text{dokumenty}}{\#\text{dokumenty obsahující dané slovo}} \right)\]

Pro ilustraci si můžeme ukázat výpočet tf-idf na našem původním textu. Nejprve začneme výpočtem četností pro každé slovo.

# vyskyt slov v jednotlivych dokumentech
text_words <- text_tt %>%
  count(line, word, sort=TRUE)
# celkovy vyskyt slov
total_words <- text_words %>% 
  group_by(word) %>% 
  summarise(total=sum(n))
text_words <- left_join(text_words, total_words, by="word")
text_words

Pro samotný výpočet tf-idf můžeme použít funkci bind_tf_idf z balíčku tidytext.

text_words <- text_words %>%
  bind_tf_idf(word, line, n) %>% 
  arrange(desc(tf_idf))
text_words

První slovo do se nachází pouze v jednom dokumentu z pěti, dostáváme tedy \(\text{idf("do")} = \ln (5/1)= 1,6094379\).

Tento dokument obsahuje celkem 8 slov a slovo do se opakuje dvakrát, takže dostáváme \(\text{tf("do", D5)} = 1/4\).

Vynásobením těchto dvou čísel dostáváme \(\text{tf-idf("do", D5)} = 0,40235948\).

text[5]
[1] "Do. Or do not. There is no try."

Stemizace a lemmatizace

Stemizace (anglicky stemming) je proces, při kterém se slova nahrazují pouze svým základem. Smyslem stemizace je sjednocení slov se stejným význam, ale odlišným tvarem. Výsledný základ nemusí být platným slovem.

Lemmatizace (anglicky lemmatization) je proces podobný stemizaci, avšak cílem lemmatizace je získat platné slovo. Je náročnější na výpočetní výkon, protože musí procházet velké korpusy a slovníky. Při stemizaci naopak postupujeme podle relativně jednoduchých pravidel.

Například slovo studies je při stemizaci normalizováno na základ studi (odstranění koncovky -es) a slovo studying na základ study (odstranění koncovky -ing). Při lemmatizaci jsou oba tvary převedeny na společné lemma study.

Pro ilustraci ještě uveďme příklad věty the boy’s cars are different colors, která může být normalizovaná na: the boy car be differ color.

Obrázek: Normalizace textu

Obrázek: Normalizace textu

Ukažme si, jak provést stemizaci v R na našem původním textu. Nejprve je potřeba doinstalovat balíček SnowballC. Potom můžeme použít funkci wordStem.

#install.packages("SnowballC")
library(SnowballC)
text_tt %>% 
  mutate(stem=wordStem(word, "english"))

Lemmatizace je náročnější proces, který i vyžaduje pokročilejší techniky. My použijeme externí software TreeTagger, který má podporu několika jazyků včetně češtiny a slovenštiny. Pro integraci s R je potřeba doinstalovat balíček koRpus.

# install.packages("koRpus")
library(koRpus)
# install the language support package
# install.koRpus.lang("en")
# load the package
library(koRpus.lang.en)

Samotné nastavení je trochu složitější a pravděpodobně budete muset projít více internetových návodů. Podívejme se, jak dopadne lemmatizace našeho původního textu.

set.kRp.env(TT.cmd="manual", TT.options=list(path="C:\\TreeTagger", preset="en"), lang="en")
lemmatization <- treetag(text_tt$word, treetagger="manual", format="obj",
                      TT.tknz=FALSE , lang="en",
                      TT.options=list(path="C:/treeTagger", preset="en"))
lemmatization@tokens

Se stemizací se můžete setkat:

  • tagovací systémy
  • indexování
  • SEO (search engine optimization)
  • fulltextové vyhledávače

Analýza sentimentu

Jednou z častých úloh text miningu je analýza sentimentu (nebo také dolování názorů), jejímž cílem je identifikace a extrakce subjektivních informací ze zdrojových textů, nejčastěji různých komentářů a recenzí.

Nejprve je potřeba doinstalovat balíček textdata, který obsahuje všechny důležité slovníky.

#install.packages("textdata")
library(textdata)

K dispozici máme několik slovníků se sentimenty:

get_sentiments("afinn")
get_sentiments("bing")
get_sentiments("nrc")
get_sentiments("loughran")

Zkusíme se podívat, jak by byl ohodnocen těmito slovníky nás původní text.

text_tt %>% 
  inner_join(get_sentiments("afinn"), by="word")
text_tt %>% 
  inner_join(get_sentiments("bing"), by="word")
text_tt %>% 
  inner_join(get_sentiments("nrc"), by="word")
text_tt %>% 
  inner_join(get_sentiments("loughran"), by="word")
