PA154 Nástroje pro korpusy

Fakulta informatiky
jaro 2004
Rozsah
2/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k, z.
Vyučující
prof. PhDr. Karel Pala, CSc. (přednášející)
Garance
prof. PhDr. Karel Pala, CSc.
Katedra strojového učení a zpracování dat - Fakulta informatiky
Kontaktní osoba: prof. PhDr. Karel Pala, CSc.
Rozvrh
Út 18:00–19:50 B204
Omezení zápisu do předmětu
Předmět je určen pouze studentům mateřských oborů.
Mateřské obory
předmět má 8 mateřských oborů, zobrazit
Cíle předmětu
Předmět představuje úvod do korpusové lingvistiky a počítačové lexikografie. Lze v něm získat základní informace o typech korpusů, korpusových nástrojů, o značkování and disambiguation. V části věnované počítačové lexikografii je možno seznámit se s elektronickými slovníky a lexikálními databázemi a principy jejich budování.
Osnova
  • Textové korpusy a jejich typy. Standardizace korpusových dat - SGML, XML. Tvorba korpusů. Korpusové manažery a procesory (CQP, Manatee), grafická rozhraní (GCQP, Bonito), konkordanční programy (OCP). Značkování a značkovací nástroje (ajka). Morfologické, syntaktické a sémantické značkování (WSD). Desambiguace a desambiguátory (DIS aj., pravidlové, stochastické). Paralelní korpusy, zarovnávání a zarovnávače. Práce s korpusy, využití korpusových při budování slovníkü. Rozpoznávání významů slov v korpusových datech. Nástroje pro počítačovou lexikografii. Elektronické slovníky a jejich typy. Prohlížeče a editory pro elektronické slovníky. Lexikografická pracovní stanice. Lexikální databáze typu WordNet a EuroWordNet. Nástroje: Polaris, VisDic.
Literatura
  • RYCHLÝ, Pavel. Korpusové manažery a jejich efektivní implementace. Brno, 2000. xiv, 128 s. info
  • Studie z korpusové lingvistiky. 1. vyd. Praha: Karolinum, 2000. 531 s. ISBN 80-7184-893-X. info
Další komentáře
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2003, jaro 2005, jaro 2006, jaro 2007, jaro 2008, jaro 2009, jaro 2010, jaro 2011, jaro 2012, jaro 2013, jaro 2014, jaro 2015, jaro 2016, jaro 2017, jaro 2018, jaro 2019, jaro 2020.