D 2016

Pre-processing Large Resources for Family Names Research

RAMBOUSEK, Adam

Basic information

Original name

Pre-processing Large Resources for Family Names Research

Name in Czech

Zpracování velkých zdrojů pro výzkum příjmení

Authors

RAMBOUSEK, Adam (203 Czech Republic, guarantor, belonging to the institution)

Edition

Brno, RASLAN 2016 Recent Advances in Slavonic Natural Language Processing, p. 105-109, 5 pp. 2016

Publisher

Tribun EU

Other information

Language

English

Type of outcome

Stať ve sborníku

Field of Study

10201 Computer sciences, information science, bioinformatics

Country of publisher

Czech Republic

Confidentiality degree

není předmětem státního či obchodního tajemství

Publication form

printed version "print"

References:

RIV identification code

RIV/00216224:14330/16:00092104

Organization unit

Faculty of Informatics

ISBN

978-80-263-1095-2

ISSN

UT WoS

000466886400012

Keywords (in Czech)

platforma DEB; lexikografie; big data; příjmení; konverze dat

Keywords in English

DEB platform; lexicography; big data; family names; data conversion

Tags

International impact, Reviewed
Změněno: 8/7/2022 13:38, RNDr. Adam Rambousek, Ph.D.

Abstract

V originále

This paper describes methodology and tools used to pre-process historical archive documents in various formats and their conversion to unified format. Resources were used to investigate the origins and geographical distribution of surnames in the United Kingdom, as part of the Family Names in Britain and Ireland research project. Data extracted from the documents and their connection proved to be valuable research resource which helped to speed up the lexicographic work.

In Czech

Článek popisuje metodologii a nástroje použité pro zpracování archivních dokumentů v různých formátech a jejich konverzi do jednotného formátu. Zdroje byly použity pro výzkum původu a geografické distribuce příjmení ve Spojeném království, jako součást projektu Family Names in Britain and Ireland. Data extrahovaná z dokumentů a jejich vzájemné propojení se ukázalo jako cenný výzkumný zdroj, který urychlil lexikografický výzkum.

Links

LD15066, research and development project
Name: Rozhraní pro Linked Data v systému pro editaci slovníků DEB (Acronym: DEB LDI)
Investor: Ministry of Education, Youth and Sports of the CR