Metódy dolovania v konverzačnom obsahu so zameraním na analýzu sentimentu Kristína Machová Peter Koncz Technická Univerzita v Košiciach ZNALOSTI 2013 Osnova: 1. Motivácia 2. Konverzačný obsah 3. Problémy riešiteľné dolovaním 4. Identifikácia autorít 5. Analýza názorov 6.Dynamický koeficient 7.N-gramy 8.Metódy AS založené na strojovom učení 9.Automatická tvorba korpusov pre AS 10.Aktívne učenie 11.Výber atribútov 12.Aspektovo-orientovaná analýza sentimentu 13.Nástroje pre podporu AS 14.Záver Motivácia q Sociálny web umožňuje a posilňuje interakcie qTieto interakcie sú spojené s ovplyvňovaním à rozhodovacie procesy v reálnych situáciách (kúpa drahého produktu, voľba politickej reprezentácie…) qRozhodovacie procesy môžu byť podporované aplikáciami dolovania názorov z konverzačného obsahu. qZískané informácie: qo drahých veciach (nehnuteľnosť, dovolenková destinácia, auto…) qkultúrne informácie qInformácie spojené s bezpečnostnými aspektmi q q Motivácia (2) qDolovanie názorov (opinion mining, sentiment cassification, sentiment analysis) dolovanie postoja jednotlivého prispievateľa (diskusie ako celku) k určitej téme. qTéma – hodnotenie produktu, politickej situácie, udalosti, osoby, lekára, filmu, knihy, tovaru alebo pocitov autora k objektu hodnotenia. qDolovanie názorov je možné rozšíriť z vnímania textov na úroveň vlastností posudzovaných objektov. Konverzačný obsah qKrátke texty (hovorené písanie, písané hovorenie – debata) k určitej téme. qZnáma téma – hodnotenie drahého produktu, dovolenky, hotela, politickej situácie, osoby, lekára, filmu, knihy, pocitov autora. qNeznáma téma – modelovanie témy. qSyntaktická odlišnosť (frekvencia typických slov, interpunkcia, slovosled, preklepy – aj úmyselné) – odráža autorovu osobnosť. qKonverzačný obsah: sociálne siete, blog, microblog, chat, chatrooms, IRC (Internet Relay Chat), diskusné fóra, komentáre k článkom, videám a pod. q Typy dolovania z konverzácie qDolovanie z používania qdoluje sa z log súborov qpoužívateľ verzus linky (stránky), ktoré navštívil qvedie k personalizácii webu (navigácia používateľa) qDolovanie zo štruktúry qmapovanie okolia aktuálnej web stránky (navigácia používateľa) qdolovanie zo štruktúry konverzácie (identifikácia autorít) qDolovanie z obsahu konverzácie qdolovanie názorov resp. klasifikácia názorov (pozitívny, negatívny) qanalýza sentimentu (hnev, radosť, znechutenie, nadšenie,...) Dolovanie z používania qpoužitím strojového učenia (HGS, HSG) sa učí model používateľa qmodel používateľa sa použije na doporučovanie personalizovaného zoznamu nových stránok adaptsl Dolovanie zo štruktúry qParciálne mapovanie okolia aktuálnej web stránky qMatice susednosti, matice najkratších vzdialeností qRozlišujeme úrovne vnorenia (2,3,...) Dolovanie zo štruktúry konverzácie qPočet príspevkov daného prispievateľa qPočet reakcíí na jeho príspevky qPočet výskytov na spodnej úrovni (uzavretá diskusia) qa pod. Discussion establishing Cont1 Cont2 Cont3 Cont4 Cont n reaction on reaction Dolovanie z obsahu konverzácie Problémy riešiteľné dolovaním konverzačného obsahu: qIdentifikácia autorít (Kto je autoritou v tejto diskusii?) qAnalýza názorov (Pozitívny, negatívny?) qVyhľadávanie názorového spamu (Je obsah príspevku informatívny? Vykecávačky?) qUrčovanie užitočnosti názorov (Je tento názor kvalitný, autoritatívny?) qAspektovo orientovaná analýza sentimentu (Aká je názorová polarita v rámci jednotlivých vlastností entity?) qPorovnávacia analýza sentimentu (Ktorý z týchto produktov je lacnejší, komfortnejší, poruchovejší?) qCielená reklama (Čo má obsahovať, lebo to ľudia oceňujú?) qDetekcia emócií (Čo vyjadruje príspevok: nadšenie, znechutenie?) qModelovanie témy (O čom sa diskutuje?) qVyhľadávanie názoru (Kde sa o tom diskutuje?) qIdentifikácia autorstva (Kto je autorom príspevku? Aký typ človeka je prispievateľ?) Identifikácia autorít Autorita spravidla overená (reálne situácie, sociálny web?) Typy autorít: qNeformálna, prirodzená qschopnosti, primerané sebavedomie, osobný profil, sociálne aktivity, ... qposilňovaná rešpektom vedených ľudí qčestnosť, statočnosť, rozhodnosť, predvídateľnosť – odhad qFormálna qpozícia, titul, funkcia v organizácii qstatus podlieha zmene qvyžadovaná poslušnosť, podriadenosť q qFormálna a prirodzená autorita môžu byť totožné qFormálna autorita sa môže meniť na prirodzenú a vice versa Identifikácia autorít webu Typy autorít: qPriateľ qveľké množstvo priateľov v rámci sociálneho webu qautorita podporovaná vzťahmi qŠíriteľ vplyvu (influencer) qčasto citovaný (odvolávaju sa na jeho autoritu) qzaujme iných (prekvapí, ohromí ...) qautorita podporovaná názormi, vedomosťami o objekte diskusie qDolovanie zo štruktúry qDolovanie z obsahu Identifikácia autorít webu (2) Prístupy: qAutority vo vede qvedecké články na osobných stránkach, v profiloch qdigitálne knižnice ... qAutority vo webových diskusiách qdiskusie k produktom, recenzie filmov, kníh qsociálne siete ... q Autority vo vede qACM Digital Library qIEEE Database qDefinícia vedeckej oblasti (kľúčová fráza) qSústredenie na referencie qprvé meno – nárast autority - jednotná forma citácií qvariabilita citačných štandardov – netriviálna identifikácia qprvý autor – najväčší podiel qCelkový počet citácií v danej oblasti qVizualizácia prostredníctvom TagClouds q q Autority vo webových diskusiách qKaždý používateľ SW: qzaloženie diskusie qprispievanie do diskusie qNie každý je autoritou - ako to rozpoznať qŠtruktúra diskusie – acyklický strom Discussion establishing Cont 1 Cont 2 Cont 3 Cont 4 Cont n reaction on reaction Autority vo webových diskusiách (2) Dôvody prispievania do diskusie qHľadanie odpovedí qrozhodovanie, informované rady od múdrejších, očakávanie pravdivých informácií qnie sú autority, je ich najviac, jadro fóra qPríležitosť prezentovať sa, svoju dôležitosť qnepravdivé informácie, vyvolávanie konfliktov, degradovanie diskusie qproblematickí provokatéri, vylúčenie, riadenie diskusie qnie sú autority, nie je ich veľa qPríležitosť vyjadriť vedomosti quistenie sa o správnosti nápadov, revidovanie názorov qpravdivé informácie, seriózny prístup, prispievajú iba keď sa cítia orientovaní qsú to autority, je ich málo Vyvinuli sme prístup k odhadu autorít q q Dolovanie autorít Vstupné (predspracované) dáta obsahujú: qmeno prispievateľa qpolarita príspevku qdĺžka príspevku qpríspevky - reakcie qpozícia príspevku v strome – štruktúra diskusie Tieto dáta vstupujú do procesu odhadu autority Autorita nie je vzťahovaná k príspevkom, ale k prispievateľom (integrácia všetkých informácií o prispievateľovi – netriviálna úloha). Dolovanie autorít V procese odhadu autority sa vytvára zostupne usporiadaný rebríček indikujúci prispievateľov: qprezentujúcich hlbokú znalosť problematiky qvyvolávajúcich mnoho reakcií qinicializujúcich najčastejšie prechod na novú tému Prístup k odhadu autorít Primárne vplyvy: qpočet príspevkov prispievateľa (PP) qpočet reakcií na príspevky prispievateľa (PR) qpočet výskytov na koncovej úrovni stromu (PKU) Sekundárne vplyvy: qzhoda polarity (ZP) qpozície v strome (počet úrovní - PU) qpočet termov (PT) q OA = 4PP3 + 2PR3 + 4PKU2 + ZP + PU + PT Prístup k odhadu autorít Testovanie výsledkov navrhnutého prístupu: Téma diskusie Presnosť Autorita a počet “likes” 0.94 Slovenskí politici 0.96 Bomby, letecké útoky a sirény 0.93 Diskusia k odhadu autorít Implementácia metódy odhadu autorít: qBola testovaná s veľmi dobrými výsledkami na: qdoméne z reálneho života qdoméne z technickej oblasti qKombinuje dolovanie zo štruktúry s dolovaním z obsahu qDá sa použiť na vylepšenie klasifikácie názorov qkaždý príspevok má rovnakú váhu qkaždý príspevok sa svojou pozitivitou/negativitou podieľa na sumarizovanom názore s určitou váhou – vyčíslená autorita qNulté kolo pohovoru (organizácia založí profesionálnu diskusiu) Analýza názorov qDiskusné fóra – rastúce úložiská informácií: názorov, pocitov, postojov a nálad ľudí (Internet ako spôsob komunikácie). qNa rozdiel od databáz neobsahujú štruktúrované dáta, preto vyžadujú špeciálne postupy (klasifikácia názorov). diskusný príspevok Diskusné fórum Analýza názorov Použiteľné informácie: - S výrobkom sú ľudia spokojní - Obyvatelia vnímajú reformu negatívne Analýza názorov qUplatnenie v oblastiach s potrebou agregácie množstva názorov do jednej výslednej ucelenej informácie. qVývoj a predaj produktov, prieskum verejnej mienky,... qTieto oblasti sa skúmajú z dvoch pohľadov: q z pohľadu spotrebiteľa (zdroj informácií pre rozhodnutie o kúpe, webové stránky produktu, diskusia na portáloch - extrakcia sumarizovaného názoru aplikáciou KN) q z pohľadu výrobcu (vývoj (informácie o dodávateľoch a konkurencii) a predaj (informácie o potrebách a spokojnosti zákazníkov), marketingový prieskum – náklady (dotazníky, telefón) qInternetový prieskum prostredníctvom aplikácie KN (↓ náklady, ↑ rýchlosť) - rýchlosť získavania informácií o zákazníkovi je zásadná. Metódy analýzy názorov Podľa Taboada, dva hlavné prístupy ku analýze názorov: qPrístup založený na klasifikácii qmetódy strojového učenia (Naive Bayes Classifier, SVM – Support Vector Machines) vyžadujú trénovaciu množinu (anotačné nástroje, váhovacie techniky) qštatistické metódy (Maximal Entropy) qPrístup založený na externom zdroji – lexikóne qslovníkovo založený qkorpusovo založený Podľa Koncza: qExogénne (SU, TM) qEndogénne (externý zdroj znalostí – slovník) Taboada, M., Brooke, J., Tofiloski, M., Voll, K., Stede, M.: Lexicon-Based Methods for Sentiment Analysis. Computational Linguistics, Vol. 37, No. 2, 267-307 (2011) Slovníkový prístup – o čo ide? qPozitívny (negatívny) príspevok (diskusia): prevažujú slová (príspevky) s pozitívnou (negatívnou) polaritou qNeutrálny príspevok: qStriktný prístup IF Pocet_pozit = Pocet_negat THEN neutralita vhodný pre krátke príspevky (pohltenie širším pásmom neutrality) qVo všeobecnosti: IF |Pocet_pozit – Pocet_negat| ≤ H THEN neutralita vhodný pre dlhšie príspevky H = 0 – striktný prístup Slovníkový prístup k analýze názorov Je potrebné získať klasifikačný slovník: qgenerovaním pre danú aplikáciu qnahrávanie klasifikačného slovníka z diskusie qgenerovaný použitím známych lexikónov qWord Net qWord Net – Affect qSenti Net qSenti Word Net q Nahrávanie klasifikačných slovníkov Identifikácia slov so subjektivitou a ich nahrávanie do poľa termov – slov. Každému slovu je priradená číselná hodnota (polarita, zápor, intenzita). BC04 copy Nahrávanie klasifikačných slovníkov Klasifikačný slovník: qobsahuje slová, ktoré sú nositeľmi názoru v rámci danej domény qprebraté z priamo z diskusie (náš prístup) qmá zabezpečiť prispôsobenie sa živej reči prispievateľov do web diskusií qnespisovné slangové slová (coolový, dzivý,...) qslová bez diakritiky (kvalitny, paci (sa mi)) qgramatické chyby? qčím je slovník obsiahlejší, tým presnejšia je klasifikácia názorov Slovníkový prístup Ukážky klasifikačných slovníkov: Table2 - príslovky Table1 - podstatné mená a slovesá, Table3 – intenzifikátory (príslovky) Taboada, M., et al. : Lexicon-Based Methods for Sentiment Analysis. Computational Linguistics, Vol. 37, No. 2, 267-307 (2011) podstatne a slovesa0001.jpg prislovky0001.jpg intenzifikatory0001.jpg Základné problémy analýzy názorov Nositeľmi postojov sú hlavne prídavné mená (perfektný), príslovky (katastrofálne), podstatné mená (bomba, hlúposť), slovesá (zničiť). qUrčenie subjektivity slova (nahrávanie klasifikačných slovníkov) qUrčenie orientácie, resp. polarity slova - pozitívna, negatívna a neutrálna (priemerný) qUrčenie sily polarity slova – stupnica intenzity orientácie (slovné a číselné vyjadrenie). Základné problémy analýzy názorov je možné riešiť pomocou klasifikačných slovníkov (vyhodnocovanie zhody slov príspevku a slovníka) Základné problémy analýzy názorov q Určenie sily polarity slova – veľkosť podpory slova k potvrdeniu alebo vyvráteniu názoru q Slovné a numerické stupnice (vhodnejšie pre spracovanie počítačom). Počet stupňov Stupnice 2 negatívna pozitívna 6 slabo negatívna, mierne negatívna, silno negatívna slabo pozitívna, mierne pozitívna, silno pozitívna 10 -5, -4, -3, -2, -1 1, 2, 3, 4, 5 Problémy analýzy názorov q Určenie sily polarity slova – stupnica so 6 hodnotami +3 silno pozitívna perfektný, vynikajúci, božský, úžasný +2 mierne pozitívna pekný, chválitebný, kvalitný, šikovný +1 slabo pozitívna vhodný, dobrý, frajerský, fajn -1 slabo negatívna slabší, priemerný, nemastný, neslaný -2 mierne negatívna zlý, nefunkčný, slabý, nevyhovujúci -3 silno negatívna otrasný, katastrofálny, najhorší, úbohý q Intenzifikácia – posuv polarity do vyššej/nižšej roviny amplifier: prekvapujúco pekný, vysoko kvalitný downtowner: o dosť slabší, nehorázne nekvalitný q Negácia – preklopenie polarity Intenzifikácia a negácia qSpracovanie negácie (nie, ne...): qpreklopenie polarity (switch negation) qposun polarity (shift negation) k opačnej polarite o fixnú hodnotu, napríklad „4“ prídavné meno „a + 2“ je negované na „a −2“ – podobné switch ale prídavné meno „a − 3“ je iba „a + 1“ – nepodobné switch „She’s not terrific (5 − 4 = 1) but not terrible (−5 + 4 = −1) either.” qdynamický koeficient qIntenzifikácia qzvyšuje/znižuje polaritu prostredníctvom slovníka really (+15) very (+25) good (3): 3x(100%+25%)x(100%+15%) = 4,3 the most (+100) excellent (5): 5x(100%+100%) = 10 qdynamickým koeficientom (nemusí za sebou) Statický koeficient v negácii Rozmanitosť vetných štruktúr v slovenčine – zápor môže byť pred ale aj za negovaným slovom aj ďalej od neho. Polarita sa nevyčísľuje (kód, kategória 3). Mobil nie je kvalitný 0 3 0 1 Tento mobil nebol kvalitný 0 0 3 1 Tento mobil kvalitný nebol 0 0 1 3 qRovnaká polarita: 0301, 0031, 0013 aj 3000010 „Nie je to podľa mňa kvalitný mobil“. qOpačná polarita: 309 „Nie som najhorší“. qPotreba prispôsobenia dĺžky kombinácie slov (dynamický koeficient) Statický koeficient v intenzifikácii qSlová zvyšujúce intenzitu polarity (zväčša príslovky) patria do kategórie 4. qUplatní sa iba v spojení s inou kategóriou stupňa polarity, napr.: 00041, 4002, (dynamický koeficient). qKoeficient by mal zabrániť izolácii intenzifikátora (resp. záporu) od slova, ku ktorému sa vzťahujú (K=4). Ten mobil je totálne kvalitný 0 0 0 4 1 neutrálne neutrálne neutrálne + intenzita mierne pozitívne Dosť ma to hnevá 4 0 0 2 + intenzita neutrálne neutrálne mierne negatívne Typovanie kombinácií slov Každá z kombinácií reprezentuje práve jednu interpretáciu a je jej priradená práve jedna hodnota polarity. Interpre-tácia SP + I SP MP + I MP MN SN MN + I SN + I K = 2 48 80, 41 10, 32, 23 20, 31, 13 90, 42 49 K = 3 480,408 800, 410, 401 100, 320, 230, 302, 203 200, 310, 130, 301, 103 900, 420, 402 490, 409 K = 4 4800, 4080, 4008 8000, 4100, 4010, 4001 1000, 3200,2300, 3020,2030, 3002,2003 2000, 3100,1300, 3010,1030, 3001,1003 9000, 4200, 4020, 4002 4900, 4090, 4009 polarita 3 2 1 -1 -2 -3 Statický koeficient KLAN – systém KLAsifikácie Názorov qRozhranie „Guest“ môže klasifikovať zvolený text a nastavovať statický koeficient K. qRozhranie „Admin“ môže nahrávať a editovať klasifikačný slovník. Dynamický koeficient qPriemerná dĺžka vety qpočetnosť slov každej lexikálnej jednotky analyzovaného textu qaritmetický priemer qdynamický koeficient je rovnaký pre všetky vety qPolovica dĺžky vety qpočetnosť slov lexikálnej jednotky delený dvoma so zaokrúhlením na hor qdynamický koeficient sa nastavuje zvlášť pre každú vetu analyzovaného textu qHybridný prístup q(dĺžka lexikálnej jednotky + priemerná hodnota všetkých viet) delené piatimi q Dynamický koeficient qPriemerná dĺžka qPolovica dĺžky qHybridný prístup aplikacia Použitie n - gramov Dynamický koeficient rozdelí text do lexikálnych jednotiek, ktoré sa neprekrývajú. Môže dôjsť k izolácii negácie alebo intenzifikátora od vzťahovaného slova (neuspokojivé riešenie). qPoužívali sme 4-gramy (riešenie problému izolácie) qCyklický posuv o jedno slovo „Naozaj je to pekné a na viac aj veľmi praktické.“ 4-gramy: „naozaj je to pekné“ P = 1 x (1+0,5) = 1,5 „je to pekné a“ P = 1 „to pekné a na“ P = 1 „pekné a na viac“ P = 1 „a na viac aj“ P = 0 „na viac aj veľmi“ P = 0 x 1 = 0 „viac aj veľmi praktické.“ P = 1 x (1+1) = 2 Použitie n - gramov Dva slovníky q1.slovník – 1.suma riešenie základných problémov (skladanie jednoduchých polarít) prídavné, podstatné mená, slovesá a emotikony q2.slovník – násobenie 2. sumou negácia a intenzifikácia (posuvy polarity) príslovky a negácie P = ∑v(wi1)[1+∑v(wj2)] Použitie n - gramov qUkážky slovníkov používaných v aplikácii analýzy názorov použitím 4-gramov Pozitívny Negatívny :) :( :)) :(( :))) :((( :-) :-( =) =( :D =D Stupeň polarity Slová a emotikony 3 :D, boží, špičkový 2 :), super, vynikajúci 1 pekný, funkčný, praktický -1 nepríjemný, slabý -2 :(, otrasný, chatrný -3 :((, mizerný, katastrofálny T Stupeň polarity Intenzifikátory a negátory 1 veľmi, dokonale, výnimočne 0.5 vhodne, naozaj, fakticky -0.5 málo, príliš, zbytočne -2 negácie: nie,nie je, ne, nebol … Použitie n - gramov Príklady výpočtu polarity qJednoduché polarity „Ako samotná myška je pekná, ale spracovanie je mizerné a celkovo je nepodarená.“ pekná(+1) + mizerné(-3) + nepodarená(-1) P = 1 + (-3) + (-1) = -3 qNegácia „Nie je to dobré riešenie.“ Násobené: Nie(-2), pripočítané: dobré(+1) P = 1 * (1 + (-2)) = 1* (-1) = -1 qIntenzifikácia „Celkovo je spracovanie veľmi slušné.“ násobené: veľmi(+1), pripočítané: slušné(+1) P = 1 * (1 + 1) = 1 * 2 = 2 T Testy implementácií Statický koeficient http://www.mobilmania.sk (diskusné vlákno recenzií k mobilu LGKU990) Dynamický koeficient http://recenzie.sme.sk N-gramy 1 http://www.mojandroid.sk (diskusné vlákno k mobilom HTC One X a HCT One S) http://www.pocitace.sme.sk (diskusné vlákno k produktom Asus Transformer Prime TF201 and Asus Transformer Pad TF300T) N-gramy 2 http://tech.sme.sk (recenzie telefónu Samsung Galaxy S4) http://www.mojandroid.sk (recenzie telefónov HTC ONE a Samsung Galaxy S4) T Version Positive Negative Average precision Static coefficient 0.86 0.69 0.78 Dynamic coefficient 1 0.76 0.84 0.80 Dynamic coefficient 2 0.80 0.88 0.84 Hybrid 0.80 0.84 0.82 N-grams 1 0.83 0.57 0.70 N-grams 2 0.76 0.42 0.59 Diskusia k analýze názorov qOdhaľovanie skrytej irónie „Veď ešte aj môj starý Sony Ericsson robí lepšie fotky!“ (čierna ovca) a dvojzmyslov qNázor vyjadrený nepriamo (text obsahuje iba neutrálne slová): „Tento mobil mi môže byť ukradnutý!“, „Inú značku by som si nekúpil.“ Ďalšie problémy znižujúce úspešnosť klasifikácie názorov qSlovo s kladnou (zápornou) orientáciou nesie opačný postoj (zápor posunutý do inej lexikálnej jednotky): „Rád si prečítam dobrú knihu. Táto taká nebola.“ qPrídavné mená a príslovky majú opačnú orientáciu ako sa predpokladalo: „Tento výrobok je dobrá hlúposť.“ Metódy AS založené na strojovom učení nEndogénne Metódy AS nOdhad sentimentu je funkciou algoritmu a vzorky údajov, anotovanej vzhľadom k cieľovému atribútu. nPostavené predovšetkým na princípoch objavovania znalostí v textoch. nŠpecifiká v rámci: nPredspracovania (rozdiely v jednotlivých fázach) nVýberu atribútov (IG, Chí-kvadrát, PMI, ...) nDolovania v textoch (SVM, NBC, KNN, ...) Metódy AS založené na strojovom učení Obr. 2. Procesný model dolovania znalostí v kontexte úloh analýzy sentimentu. Pochopenie výskumného resp. obchodného cieľa analýzy sentimentu nRelevantná predovšetkým v oblastiach s veľkým: nVýznamom subjektívnych hodnotení nMnožstvom on-line hodnotení nTypické oblasti: služby, filmový priemysel, spotrebná elektronika a pod. nVeľkou výzvou je dokázanie merateľného vplyvu on-line hodnotení. nNejednoznačnosť výsledkov spôsobená rôznym prístupom k premenným na strane: nHodnotení (počet, orientácia, intenzita, ...) nDôsledkov (zisky, návštevy stránok, rezervácie, ...) nAutorov (reputácia, demografické charakteristiky, ...) nČitateľov (názory, hodnoty, ...) Automatická tvorba korpusov pre AS Crawlovanie Sprac. dokumentu Výber hodn. Extrahovanie informácií Predspracovanie ... Value purchase - by Lucas, March 25, 2011 4/5 stars Great hotel for the price. It is small and fits in my needs. Not a happy camper - by Ellie, April 1, 2011 1/5 stars The services were horrible. ... Text Label Relev. Great ... +4 High ... ... Výpočet tematickej relevantnosti Automatická tvorba korpusov pre AS nVšeobecné extrakčné vzory platné pre stránky akceptujúce niektoré z metaúdajových formátov: nMicrodata nMicroformats nRDFA
Value purchase - by , March 25, 2011
4/ 5stars
Great microwave for the price. It is small and fits in my apartment.
Automatická tvorba korpusov pre AS Method 2 – využíva automaticky získanú trénovaciu vzorku P. Koncz and J. Paralic, „Automated creation of corpora for the needs of sentiment analysis “, presented at the RapidMiner Community Meeting and Conference (RCOMM 2012), Budapest, Hungary, 2012. Automatická tvorba korpusov pre AS nMožnosť zvyšovania kvality korpusov zhlukovaním na základe témy hodnotení. nP. Koncz and J. Paralic, „Využitie zhlukovania na základe témy hodnotení v úlohách analýzy sentimentu“, presented at the Znalosti, Mikulov, Czech Republic, 2012. n Vážené priemerné presnosti pre vnútro-zhlukovú (VZ) a medzi-zhlukovú (MZ) analýzu sentimentu. Aktívne učenie nP. Koncz and J. Paralic, Active learning enhanced document annotation for sentiment analysis. In: Cuzzocrea, A., Kittl, C., Simos, D.E., Weippl, E., and Xu, L. (eds.) Availability, Reliability, and Security in Information Systems and HCI. pp. 345–353. Springer Berlin Heidelberg (2013). nMetódy používajúce neurčitosť klasifikácie: n n nZaložené na SVM nZaložené na naivnom Bayesovskom klasifikátore nZaložené na externom modeli n nMetódy používajúce slovníky: n n nZaložené na externých slovníkoch nZaložené na offline generovaných slovníkoch nZaložené na online generovaných slovníkoch n C:\Users\Peter\Disk Google\Cesty\HCI-KDD_2013\Snímka.PNG C:\Users\Peter\Disk Google\Cesty\HCI-KDD_2013\Snímka 4.PNG Aktívne učenie Aktívne učenie - Metódy používajúce neurčitosť klasifikácie Aktívne učenie - Metódy používajúce slovníky Výber atribútov nP. Koncz and J. Paralic, "An approach to feature selection for sentiment analysis," presented at the 15th IEEE International Conference on Intelligent Engineering Systems (INES 2011 ) Poprad, Slovakia, 2011. n E:\DissertationTheses\Bez názvu-3.png E:\DissertationTheses\yjdkhf.png E:\DissertationTheses\Snímka14.PNG E:\DissertationTheses\Snímka15.PNG Aspektovo-orientovaná analýza sentimentu nMetódy aspektovo orientovanej analýzy sentimentu umožňujú automatickú kvantifikáciu subjektívneho obsahu textu na úrovni jednotlivých aspektov hodnotenia. n ... sa budeme venovať Nokii 5800. Tento telefón disponuje veľmi kvalitným displayom, no operačný systém je dosť pomalý ... Aspektovo-orientovaná analýza sentimentu nAtribútovo-orientovaná (feature-based) nÚlohu je možné realizovať v dvoch častiach: nRozpoznávanie pomenovaných entít nAnotácia získaných dokumentov vzhľadom na relevantné objekty a ich atribúty. nAnalýza sentimentu nIdentifikácia orientácie a intenzity sentimentu častí viet anotovaných v rámci predošlého kroku. nRiešiť ako jednu úlohu nLatentná Dirichletová alokácia Nástroje pre podporu AS nSlužby poskytujúce analýzu sociálneho webu nSwotti nUrban sensing nSoftwarové riešenia pre analýzu údajov nRapidMiner (text processing plugin) nSAS (sentiment analysis) nSPSS (Text Analytics for Surveys) nSoftwarové rámce pre analýzu textu nGATE (General Architecture for Text Engineering) nUIMA (Unstructured Information Management Architecture) n Záver nAnalýzy konverzačného obsahu nIdentifikácie autorít nAnalýza sentimentu nAspektovo-orientovaná analýza sentimentu n Ďakujeme za pozornosť