Mgr. Miloš Jakubíček
Extrakce strukturních informací z běžného textu na základě syntaktického analyzátoru
Structural Information Extraction from Common Texts Based on Syntactic Parser
Anotace: Práce popisuje využití syntaktického analyzátoru synt,
vyvíjeného v Laboratoři zpracování přirozeného jazyka FI MU, k
získání informací o syntaktických strukturách běžných vět v
českém jazyce (jako jsou např. jmenné či slovesné skupiny),
které z pohledu syntaktické analýzy zpravidla odpovídají
neterminálům v gramatice, na základě které hledá analyzátor
možná platná odvození zadané věty. Tento syntaktický analyzátor
byl rozšířen tak, aby stávající výstup využil k extrakci těchto
syntaktických struktur a umožnil různým způsobem jejich
identifikaci. Za tímto účelem byly v analyzátoru rozpracovány i
některé dosud nevyužité výsledky syntaktické analýzy, jež
umožňují další zpřesnění morfologické analýzy, a tím i větší
rozčlenění syntaktických (pod)struktur. …víceméně
Abstract: This thesis describes the utilization of syntactic parser synt
(developed in the Natural language processing laboratory at FI
MU) to gain information about syntactic structures (such as
noun or verb phrases) of common sentences in Czech. These
structures are from the analysis point of view usually
identical to non-terminals in the grammar used by the parser to
be searched for possible valid derivations of given sentence.
This syntactic parser has been extended in such a way that
enables the current output to be used to extracting those
syntactic structures and give several ways how to identify
them. To achieve this, some previously unused results of
syntactic analysis have been evolved which led to more
accurately morphological analysis and hence also deeper
distinction among various syntactic (sub)structures. …víceméně
syntaktická analýza, syntaktické struktury, morfologická analýza, desambiguace, extrakce struktur, zpracování přirozeného jazyka, syntactic analysis, parsing, syntactic structures, morphological analysis, desambiguation, extraction of structures, natural language processing
Zadání:
V (http://nlp.fi.muni.cz) Laboratoři zpracování přirozeného jazyka je vyvíjen automatický syntaktický analyzátor bežných textů s názvem (http://nlp.fi.muni.cz/projekty/wwwsynt/) synt. Tento nástroj umí rychle poskytnout nejednoznačnou strukturu o stromové reprezentaci vstupní věty zvanou chart. Z této struktury není v současnosti možné jednoduše vybrat jeden správný strom analýzy, ale je možné zjišťovat označení podstruktur vstupní věty, jako jsou jmenné skupiny, vedlejší věty apod.
Úkolem práce je implementovat automatický systém, který na základě výsledků syntaktické analýzy vstupní věty (v podobě struktury chart) vybere a označí důležité zmíněné podstruktury v této větě. Podstruktury prakticky odpovídají neterminálním uzlům ve výstupu, implementovaný systém se ovšem musí vypořádat s tím, že tyto struktury samozřejmě nejsou ve výstupu jednoznačné. V práci má být navrženo a implementováno několik možností jak vybrat z nejednoznačného výstupu analýzy jednoznačné označení zvolených podstruktur. Výsledek práce potom najde přímé uplatnění v mnoha algoritmech pro Information Extraction, kde není nutná úplná syntaktická analýza a kde postačují právě tyto označené podstruktury.
…víceméně
Jazyk práce: čeština
Citace dle ISO 690:
LaTeX |
HTML |
text |
BibTeX
JAKUBÍČEK, Miloš. \textit{Extrakce strukturních informací z běžného textu na základě syntaktického analyzátoru} [online].
2008 [cit. 2012-02-14]. Bakalářská práce.
Masarykova univerzita, Fakulta informatiky.
Vedoucí práce Aleš Horák.
Dostupné z: <http://is.muni.cz/th/172962/fi_b/>.
JAKUBÍČEK, Miloš. <i>Extrakce strukturních informací z běžného textu na základě syntaktického analyzátoru</i> [online].
2008 [cit. 2012-02-14]. Bakalářská práce.
Masarykova univerzita, Fakulta informatiky.
Vedoucí práce Aleš Horák.
Dostupné z: <http://is.muni.cz/th/172962/fi_b/>.
JAKUBÍČEK, Miloš. Extrakce strukturních informací z běžného textu na základě syntaktického analyzátoru [online].
2008 [cit. 2012-02-14]. Bakalářská práce.
Masarykova univerzita, Fakulta informatiky.
Vedoucí práce Aleš Horák.
Dostupné z: <http://is.muni.cz/th/172962/fi_b/>.
@misc{Jakubíček2008thesis,
AUTHOR = "JAKUBÍČEK, Miloš",
TITLE = "Extrakce strukturních informací z běžného textu na základě syntaktického analyzátoru [online]",
YEAR = "2008 [cit. 2012-02-14]",
TYPE = "Bakalářská práce",
SCHOOL = "Masarykova univerzita, Fakulta informatiky",
SUPERVISOR = "Aleš Horák",
URL = "Dostupné z WWW <http://is.muni.cz/th/172962/fi_b/>",
}
Práce zkontrolována: 11. 10. 2008 13:01, (IS automaticky)
| |  | |  | |   Složka či soubor | |  Vložil/a | |  Vloženo | |  | |  | | | | | |
| |  | |  Archiv závěrečné práce Miloš Jakubíček FI B-IN BcIN /fi_b/ | | Jakubíček, M. | | 22. 5. 2008 | | | | | | | | | |
| Vlastnosti. | Název | Archiv závěrečné práce Miloš Jakubíček FI B-IN BcIN |
| Aplikace | • Obnovit. |
| Adresa v ISu | https://is.muni.cz/auth/th/172962/fi_b/ |
| Adresa ze světa | http://is.muni.cz/th/172962/fi_b/ |
| Adresa do Správce | https://is.muni.cz/auth/th/172962/fi_b/?info |
| Ze světa do Správce | http://is.muni.cz/th/172962/fi_b/?info |
| Vloženo | Čt 22. 5. 2008 21:01, Mgr. Miloš Jakubíček |
| Práva. | Právo číst | • kdokoliv v Internetu |
| Právo vkládat | |
| Právo spravovat | |
| Atributy | |
|
| |  | |  | | Anotace anglicky annotation_english.txt | | Jakubíček, M. | | 22. 5. 2008 | | | | | | | | | |
| Vlastnosti. | Název | |
| Adresa do Správce | https://is.muni.cz/auth/th/172962/fi_b/annotation_english.txt?info |
| Ze světa do Správce | http://is.muni.cz/th/172962/fi_b/annotation_english.txt?info |
| Vloženo | Čt 22. 5. 2008 21:03, Mgr. Miloš Jakubíček |
| Práva. | Právo číst | • kdokoliv v Internetu |
| Právo vkládat | |
| Právo spravovat | |
| Atributy | |
| Identifikace souboru. | dosud neidentifikováno |
| Jméno souboru | annotation_english.txt |
| Aplikace | • Otevřít soubor. |
| Adresa v ISu | https://is.muni.cz/auth/th/172962/fi_b/annotation_english.txt |
| Adresa ze světa | http://is.muni.cz/th/172962/fi_b/annotation_english.txt |
| Typ souboru | holý text (text/plain); kódování utf-8 |
| Velikost | 821 B |
| Vloženo | Čt 22. 5. 2008 21:09, Mgr. Miloš Jakubíček |
|
| |  | |  | | Anotace česky annotation.txt | | Jakubíček, M. | | 22. 5. 2008 | | | | | | | | | |
| Vlastnosti. | Název | |
| Adresa do Správce | https://is.muni.cz/auth/th/172962/fi_b/annotation.txt?info |
| Ze světa do Správce | http://is.muni.cz/th/172962/fi_b/annotation.txt?info |
| Vloženo | Čt 22. 5. 2008 21:03, Mgr. Miloš Jakubíček |
| Práva. | Právo číst | • kdokoliv v Internetu |
| Právo vkládat | |
| Právo spravovat | |
| Atributy | |
| Identifikace souboru. | dosud neidentifikováno |
| Jméno souboru | annotation.txt |
| Aplikace | • Otevřít soubor. |
| Adresa v ISu | https://is.muni.cz/auth/th/172962/fi_b/annotation.txt |
| Adresa ze světa | http://is.muni.cz/th/172962/fi_b/annotation.txt |
| Typ souboru | holý text (text/plain); kódování utf-8 |
| Velikost | 761 B |
| Vloženo | Čt 22. 5. 2008 21:09, Mgr. Miloš Jakubíček |
|
| |  | |  | | Klíčová slova keywords.txt | | Jakubíček, M. | | 22. 5. 2008 | | | | | | | | | |
| Vlastnosti. | Název | |
| Adresa do Správce | https://is.muni.cz/auth/th/172962/fi_b/keywords.txt?info |
| Ze světa do Správce | http://is.muni.cz/th/172962/fi_b/keywords.txt?info |
| Vloženo | Čt 22. 5. 2008 21:03, Mgr. Miloš Jakubíček |
| Práva. | Právo číst | • kdokoliv v Internetu |
| Právo vkládat | |
| Právo spravovat | |
| Atributy | |
| Identifikace souboru. | dosud neidentifikováno |
| Jméno souboru | keywords.txt |
| Aplikace | • Otevřít soubor. |
| Adresa v ISu | https://is.muni.cz/auth/th/172962/fi_b/keywords.txt |
| Adresa ze světa | http://is.muni.cz/th/172962/fi_b/keywords.txt |
| Typ souboru | holý text (text/plain); kódování utf-8 |
| Velikost | 274 B |
| Vloženo | Čt 22. 5. 2008 21:09, Mgr. Miloš Jakubíček |
|
| |  | |  | | posudek vedoucího posudek_vedouci.pdf | | Horák, A. | | 18. 6. 2008 | | | | | | | | | |
| Vlastnosti. | Název | |
| Adresa do Správce | https://is.muni.cz/auth/th/172962/fi_b/posudek_vedouci.pdf?info |
| Vloženo | St 18. 6. 2008 16:14, RNDr. Aleš Horák, Ph.D. |
| Práva. | Právo číst | • kdokoliv přihlášený v ISu |
| Právo vkládat | |
| Právo spravovat | |
| Atributy | |
| Identifikace souboru. | Typ souboru | Posudek vedoucího |
| Autor | RNDr. Aleš Horák, Ph.D. (CZPJ FI MU) |
| Změněno | Pá 16. 9. 2011 11:01, (IS automaticky) |
| Jméno souboru | posudek_vedouci.pdf |
| Adresa v ISu | https://is.muni.cz/auth/th/172962/fi_b/posudek_vedouci.pdf |
| Typ souboru | PDF (application/pdf) |
| Velikost | 31,7 KB |
| Hash md5 | 9f3a726a8253d048301feaffb6f0d530 |
| Vloženo | St 18. 6. 2008 16:14, RNDr. Aleš Horák, Ph.D. |
| Jméno souboru | posudek_vedouci.txt |
| Adresa v ISu | https://is.muni.cz/auth/th/172962/fi_b/posudek_vedouci.txt |
| Typ souboru | holý text (text/plain); kódování utf-8 |
| Velikost | 1,6 KB |
| Vloženo | St 18. 6. 2008 16:16 |
|
| |  | |  | | posudek_oponenta.pdf | | Kadlec, V. | | 13. 6. 2008 | | | | | | | | | |
| Vlastnosti. | Adresa do Správce | https://is.muni.cz/auth/th/172962/fi_b/posudek_oponenta.pdf?info |
| Ze světa do Správce | http://is.muni.cz/th/172962/fi_b/posudek_oponenta.pdf?info |
| Vloženo | Pá 13. 6. 2008 15:56, RNDr. Vladimír Kadlec, Ph.D. |
| Práva. | Právo číst | • kdokoliv v Internetu |
| Právo vkládat | |
| Právo spravovat | |
| Atributy | |
| Identifikace souboru. | Typ souboru | Posudek oponenta |
| Autor | RNDr. Vladimír Kadlec, Ph.D. (abs FI MU) |
| Změněno | Pá 16. 9. 2011 11:36, (IS automaticky) |
| Jméno souboru | posudek_oponenta.pdf |
| Aplikace | • Otevřít soubor. |
| Adresa v ISu | https://is.muni.cz/auth/th/172962/fi_b/posudek_oponenta.pdf |
| Adresa ze světa | http://is.muni.cz/th/172962/fi_b/posudek_oponenta.pdf |
| Typ souboru | PDF (application/pdf) |
| Velikost | 21,1 KB |
| Hash md5 | ba9e28366ba549e9b7589999705cd8c2 |
| Vloženo | Pá 13. 6. 2008 15:56, RNDr. Vladimír Kadlec, Ph.D. |
| Jméno souboru | posudek_oponenta.txt |
| Aplikace | • Otevřít soubor. |
| Adresa v ISu | https://is.muni.cz/auth/th/172962/fi_b/posudek_oponenta.txt |
| Adresa ze světa | http://is.muni.cz/th/172962/fi_b/posudek_oponenta.txt |
| Typ souboru | holý text (text/plain); kódování utf-8 |
| Velikost | 1,7 KB |
| Vloženo | Pá 13. 6. 2008 16:00 |
|
| |  | |  | | Text práce bp.pdf | | Jakubíček, M. | | 23. 5. 2008 | | | | | | | | | |
|