Obsah Úvod Stručné seznámení Text Mining Package - tm The R Project for Statistical Computing Overview Petr Kosina soso@mail.muni.cz PA164 Strojové učení a přirozený jazyk Obsah Úvod Stručné seznámení Text Mining Package - tm Obsah Úvod Stručné seznámení Text Mining Package - tm Obsah Úvod Stručné seznámení Text Mining Package - tm Úvod * Co je R a kde ho získáme * http://www.r-project.org/ * Free Software * jazyk a prostředí pro statistické výpočty a grafiku * Co umožňuje * jednoduchá práce se soubory * množství operací s poli, vektory a maticemi * analýza dat * grafické výstupy * podmínky, cykly, uživatelem definované funkce Obsah Úvod Stručné seznámení Text Mining Package - tm * Další výhody * podporuje různé platformy * možnost zrychlení výpočtů integrací kódu v C, C++ nebo Fortranu * Java * velké množství balíčků od uživatelů * tvorba vlastních balíčků Obsah Úvod Stručné seznámení Text Mining Package - tm Začínáme - krátký a nudný manuál * Ovládání * prompt značen > * příkazy odděleny enter nebo ; * napověda pomocí ?příkaz nebo help.search("hledany retezec") * konec q() * Proměnné * nedeklarované * přiřazení nazev promenne < - hodnota Obsah Úvod Stručné seznámení Text Mining Package - tm Typy * Vektor - příklady vytváření * výčet * x < - 23 * x < - c(2,6,4,18) * rozsah * x < - 1:10 * Matice * x < - matrix(1:12,4) * funkce cbind() nebo rbind() * ... Obsah Úvod Stručné seznámení Text Mining Package - tm Typy - další * Arrays * Lists * Data.frame * složitější struktury * tvořeny z ostatních * viz manuál či příklady Obsah Úvod Stručné seznámení Text Mining Package - tm Užitečné příkazy * Vlastní funkce * mojefunkce < - function(parametr 1, parametr 2, ...){prikazy} * Grafika * plot() * vykresluje * popisy os, název, barva vykreslení... * par() * úprava různých vlastností zobrazení * legend() * přidá vysvětlivky Obsah Úvod Stručné seznámení Text Mining Package - tm tm * Autor: Ingo Feinerer * Načtení balíčku * library(tm) * vyžaduje mimo jiné balíček slam * tm umožňuje efektivní práci s textovými daty * vytvoření korpusu * různé metody předzpracování * tvorba term-document matice * prohlídku či manipulaci s maticí * ... Obsah Úvod Stručné seznámení Text Mining Package - tm Struktura Corpus * Dva typy Corpus * VCorpus - volatile corpus * PCorpus - permanent corpus * Parametry * Source * readerControl Obsah Úvod Stručné seznámení Text Mining Package - tm Corpus - parametry * Vstup různých typů pomocí parametru Source * DirSource - adresář * VectorSource - vektor znaků * DataframeSource - struktury (např. CSV) * getSources() - zobrazí dostupné možnosti vstupů * parametr readerControl - seznam (list) komponent * reader - konstrukce textových dokumentů ze vstupu * readPlain() * readDOC() * readPDF() * getReaders() - zobrazí dostupné možnosti reader * language - nastavení jazyka Obsah Úvod Stručné seznámení Text Mining Package - tm Další funkce * Zápis vytvořeného pomocí writeCorpus() * Výpis korpusu * print() - jen základní informace * summary() - více detailů o meta-datech * inspect() - celý obsah Obsah Úvod Stručné seznámení Text Mining Package - tm Transformace * Funkce tm map() * PlainTextDocument - plain text * stripWhitespace - odstranění bílých znaků * tolower - převod na malá písmena * odstranění stop slov př. reuters < - tm map(reuters, removeWords, stopwords("english")) * stemDocument - převod na kořen slova Obsah Úvod Stručné seznámení Text Mining Package - tm Term-document matice * Objekt vhodný pro dolování * TermDocumentMatrix - termy řádky, dokumenty sloupce * DocumentTermMatrix - opak * Operace * findFreqTerms() - časté vzory * findAssoc() - nalezení asociací ke zvolenému termu (se zadanou korelací) Obsah Úvod Stručné seznámení Text Mining Package - tm Závěr * Příklad na rozhodovací stromy * Více zájemci naleznou v dizertaci Ingo Feinerera