RAMBOUSEK, Adam. Pre-processing Large Resources for Family Names Research. In Aleš Horák, Pavel Rychlý, Adam Rambousek. RASLAN 2016 Recent Advances in Slavonic Natural Language Processing. Brno: Tribun EU, 2016, p. 105-109. ISBN 978-80-263-1095-2.
Other formats:   BibTeX LaTeX RIS
Basic information
Original name Pre-processing Large Resources for Family Names Research
Name in Czech Zpracování velkých zdrojů pro výzkum příjmení
Authors RAMBOUSEK, Adam (203 Czech Republic, guarantor, belonging to the institution).
Edition Brno, RASLAN 2016 Recent Advances in Slavonic Natural Language Processing, p. 105-109, 5 pp. 2016.
Publisher Tribun EU
Other information
Original language English
Type of outcome Proceedings paper
Field of Study 10201 Computer sciences, information science, bioinformatics
Country of publisher Czech Republic
Confidentiality degree is not subject to a state or trade secret
Publication form printed version "print"
WWW PDF full paper
RIV identification code RIV/00216224:14330/16:00092104
Organization unit Faculty of Informatics
ISBN 978-80-263-1095-2
ISSN 2336-4289
UT WoS 000466886400012
Keywords (in Czech) platforma DEB; lexikografie; big data; příjmení; konverze dat
Keywords in English DEB platform; lexicography; big data; family names; data conversion
Tags DEB platform, XML
Tags International impact, Reviewed
Changed by Changed by: RNDr. Adam Rambousek, Ph.D., učo 60380. Changed: 8/7/2022 13:38.
Abstract
This paper describes methodology and tools used to pre-process historical archive documents in various formats and their conversion to unified format. Resources were used to investigate the origins and geographical distribution of surnames in the United Kingdom, as part of the Family Names in Britain and Ireland research project. Data extracted from the documents and their connection proved to be valuable research resource which helped to speed up the lexicographic work.
Abstract (in Czech)
Článek popisuje metodologii a nástroje použité pro zpracování archivních dokumentů v různých formátech a jejich konverzi do jednotného formátu. Zdroje byly použity pro výzkum původu a geografické distribuce příjmení ve Spojeném království, jako součást projektu Family Names in Britain and Ireland. Data extrahovaná z dokumentů a jejich vzájemné propojení se ukázalo jako cenný výzkumný zdroj, který urychlil lexikografický výzkum.
Links
LD15066, research and development projectName: Rozhraní pro Linked Data v systému pro editaci slovníků DEB (Acronym: DEB LDI)
Investor: Ministry of Education, Youth and Sports of the CR
PrintDisplayed: 15/7/2024 09:14