359860 Juraj Ondruška Stanford Named Entity Recognizer Menná entita označuje časť textu, ktorý menom odkazuje na nejakú entitu. Môže to byť jedno, alebo aj viacslovné pomenovanie. Medzi menné entity patrí napríklad „Peter“ vo vete: „Peter číta knihu“, ale nie kniha v tej istej vete. Kniha totiž v tejto vete označuje fyzickú entitu, ale neoznačuje entitu mennú, pretože „kniha“ neurčuje meno nejakej knihy. Rozpoznávanie menných entít (NER) je úloha spracovania textu kvôli identifikácii a klasifikácii mien v oblasti spracovania prirodzeného jazyka, ktorá poskytuje extrakciu dôležitých informácií. Rozpoznávanie menných entít sa často vykonáva pomocou štatistického taggera, ktorý sa učí vzory pre rozpoznávanie mien z ručne označených textových korpusov. NER rieši dve úlohy. Prvou je identifikácia menných entít v texte a druhou je klasifikácia entity do rôznych tried (napr. Osoba, Miesto, Čas). Jedným zo spôsobov, ako funguje NER, je klasifikácia každého slova nezávisle na sebe. Problémom tohto prístupu je, že slová nemusia byť na sebe nezávislé. Napríklad „New York“ miesto a „New York Times“ - organizácia. Tento problém riešia tzv. „sequence models“. Stanford NER využíva linear chain Conditional Random Field sequence model. Tento model využíva diskriminatívny prístup, teda používa podmienenú pravdepodobnosť namiesto joint pravdepodobnosti. Stanfordský rozpoznávač menných entít je naprogramovaný v jazyku Java. Na identifikáciu a klasifikáciu entít používa zmieňovaný inear chain Conditional Random Field sequence model doplnený o features extraction. Features extraction zabezbečuje extrakciu pravidiel, potrebných pre identifikáciu a klasifikáciu menných entít v texte. Features v Stanford NER využívajú poznatky z lokálneho kontextu, teda zo svojho okolia, ale tiež vedomosti o štruktúre daného slova. Z faktu, že predchádzajúce slovo dostalo zaradenie „meno osoby“ plynie veľká pravdepodobnosť, že aj nasledujúce slovo bude určené ako „meno osoby“ a podobne. Štruktúra slova tiež plní dôležitú úlohu. Záleží najmä na veľkosti písmen, prítomnosti čísel a rôznych interpunkčných znamienok, alebo tiež na konkrétnom podreťazci slova. Napríklad, ak slovo končí reťazcom „field“, tak pôjde s vysokou pravdepodobnosťou o miesto. Stanford NER používa natrénovaný model , ale ponúka tiež možnosť vytvorenia vlastného modelu z označkovaného korpusu, alebo tiež možnosť vytvorenia vlastných „features“. Daným „features“ sú pomocou „supervised“ strojového učenia pridelené váhy a to buď negatívne, alebo pozitívne. Pri určovaní triedy, do ktorej bude slovo zaradené potom hlasuje každá „feature“, ktorej podmienky toto slovo s lokálnym kontextom splňuje. Trieda, ktorá dostane najviac vážených hlasov, je potom zvolená za správnu. Stanford NER ponúka natrénované modely pre angličtinu nemčinu a čínštinu. Pre angličtinu sú to verzie, ktoré dokážu rozpoznávať rôzne skupiny menných entít. A to buď: osoba, miesto a organizácia, osoba, miesto, organizácia a rôzne osoba, miesto, organizácia, čas, peniaze, dátum, percentá