Title: Transfer Learning for Czech Historical Named Entity Recognition
Other Titles: Přenos učení pro rozpoznávání českých historických pojmenovaných entit
Authors: Hubková, Helena
Král, Pavel
Citation: HUBKOVÁ, H. KRÁL, P. Transfer Learning for Czech Historical Named Entity Recognition. In Deep Learning for Natural Language Processing Methods and Applications. Shoumen: INCOMA, Ltd., 2021. s. 576-582. ISBN: 978-954-452-072-4 , ISSN: 1313-8502
Issue Date: 2021
Publisher: INCOMA, Ltd.
Document type: konferenční příspěvek
ConferenceObject
URI: 2-s2.0-85123641735
http://hdl.handle.net/11025/47196
ISBN: 978-954-452-072-4
ISSN: 1313-8502
Keywords: BERT;čeština;historický;rozpoznávání pojmenovaných entit;NER;neuronové sítě;přenos učení
Keywords in different language: BERT;Czech;historical;named entity recognition;NER;neural networks;transfer learning
Abstract: V dnešní době dosáhlo rozpoznávání pojmenovaných entit (NER) vynikajících výsledků na standardních korpusech. Objevují se však velké problémy při jejich použití ve specifické doméně, protože rozpoznávání vyžaduje vhodný anotovaný korpus. To je patrné zejména v oblasti zpracování historických dokumentů. Hlavním cílem tohoto příspěvku je navrhnout a srovnat několik metod přenosu učení (transfer learning) ke zvýšení skóre českého historického NER. Studujeme několik informačních zdrojů a pro rozpoznávání používáme dvě neuronové sítě. Pro vyhodnocení metod využíváme dva korpusy: českých pojmenovaných entit a českých historických pojmenovaných entit. Ukazujeme, že BERT reprezentace s doladěním a jednoduchým klasifikátorem natrénovaným na spojených korpusech dosahuje vynikajících výsledků.
Abstract in different language: Nowadays, named entity recognition (NER) achieved excellent results on the standard corpora. However, big issues are emerging with a need for an application in a specific domain, because it requires a suitable annotated corpus with adapted NE tag-set. This is particularly evident in the historical document processing field. The main goal of this paper consists of proposing and evaluation of several transfer learning methods to increase the score of the Czech historical NER. We study several information sources, and we use two neural nets for NE modeling and recognition. We employ two corpora for evaluation of our transfer learning methods, namely Czech named entity corpus and Czech historical named entity corpus. We show that BERT representation with fine-tuning and only the simple classifier trained on the union of corpora achieves excellent results.
Rights: © Incoma Ltd.
Appears in Collections:Konferenční příspěvky / Conference Papers (KIV)
OBD

Files in This Item:
File SizeFormat 
2021.ranlp-main.65.pdf188,1 kBAdobe PDFView/Open


Please use this identifier to cite or link to this item: http://hdl.handle.net/11025/47196

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

search
navigation
  1. DSpace at University of West Bohemia
  2. Publikační činnost / Publications
  3. OBD