BELINKOV, Yonatan, Nizar HABASH, Adam KILGARRIFF, Noam ORDAN, Ryan ROTH a Vít SUCHOMEL. arTenTen: a new, vast corpus for Arabic. In Eric Atwell and Andrew Hardie. Proceedings of WACL’2 Second Workshop on Arabic Corpus Linguistics. s. 20. 2013.
Další formáty:   BibTeX LaTeX RIS
Základní údaje
Originální název arTenTen: a new, vast corpus for Arabic
Autoři BELINKOV, Yonatan, Nizar HABASH, Adam KILGARRIFF, Noam ORDAN, Ryan ROTH a Vít SUCHOMEL.
Vydání Proceedings of WACL’2 Second Workshop on Arabic Corpus Linguistics, s. 20-20, 2013.
Další údaje
Typ výsledku Stať ve sborníku
Utajení není předmětem státního či obchodního tajemství
Forma vydání elektronická verze "online"
WWW Sborník abstraktů Webové stránky workshopu
Organizační jednotka Fakulta informatiky
Klíčová slova anglicky Arabic corpus; Arabic Corpus Linguistics; MADA; Arabic Gigaword; Modern Standard Arabic
Příznaky Mezinárodní význam, Recenzováno
Změnil Změnil: RNDr. Pavel Šmerk, Ph.D., učo 3880. Změněno: 5. 3. 2024 11:47.
Anotace
We present arTenTen, a web crawled corpus of Arabic, gathered in 2012, and a member of the TenTen Corpus Family (Jakubíček et al 2013). arTenTen comprises 5.8 billion words. It has been carefully cleaned, including duplicate removal, using the JusText and Onion tools (Pomikalek 2011). We are currently (May 2013) in the process of tokenising, lemmatising and part-of-speech tagging arTenTen with the leading MADA tool version 3.2 (Habash and Rambow 2005; Habash et al. 2009). Once arTenTen is fully encoded, we will compare it with Arabic Gigaword and an earlier web-crawled corpus (Sharoff 2006). We also plan to explore arTenTen’s composition in relation to Modern Standard Arabic and the dialects, using, amongst other things, Buckwalter and Parkinson’s Frequency Dictionary (2011) and the keywords method presented in (Kilgarriff 2012).
Návaznosti
LM2010013, projekt VaVNázev: LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat (Akronym: LINDAT-Clarin)
Investor: Ministerstvo školství, mládeže a tělovýchovy ČR, Projekt LINDAT-Clarin - Vybudování a provoz českého uzlu pan-evropské infrastruktury pro výzkum
VytisknoutZobrazeno: 19. 4. 2024 15:07