Title: Czert – Czech BERT-like Model for Language Representation
Other Titles: Czert – Český BERT-like model pro reprezentaci jazyka
Authors: Sido, Jakub
Pražák, Ondřej
Přibáň, Pavel
Pašek, Jan
Seják, Michal
Konopík, Miloslav
Citation: SIDO, J. PRAŽÁK, O. PŘIBÁŇ, P. PAŠEK, J. SEJÁK, M. KONOPÍK, M. Czert – Czech BERT-like Model for Language Representation. In Deep Learning for Natural Language Processing Methods and Applications. Shoumen: INCOMA, Ltd., 2021. s. 1326-1338. ISBN: 978-954-452-072-4 , ISSN: 1313-8502
Issue Date: 2021
Publisher: INCOMA, Ltd.
Document type: konferenční příspěvek
ConferenceObject
URI: 2-s2.0-85123595825
http://hdl.handle.net/11025/47190
ISBN: 978-954-452-072-4
ISSN: 1313-8502
Keywords: BERT;jazykový mode;předtrénovaný model;český jazyk
Keywords in different language: BERT;language modeling;pre-trained model;Czech language
Abstract: Tento článek popisuje proces trénování prvních českých monolinguálních modelů pro reprezentaci jazyka založených na architekturách BERT a ALBERT. Naše modely trénujeme na více než 340 tisících vět, což je 50krát více než u vícejazyčných modelů, které obsahují česká data. Vícejazyčné modely překonáváme na 9 z 11 datových sad. Kromě toho jsme na devíti datasetech dosáhli nových state-of-the-art výsledků. Na závěr porovnáváme výsledky jednojazyčných a vícejazyčných modelů. Všechny předtrénované modely jsou volně dostupné pro další výzkum.
Abstract in different language: This paper describes the training process of the first Czech monolingual language representation models based on BERT and ALBERT architectures. We pre-train our models on more than 340K of sentences, which is 50 times more than multilingual models that include Czech data. We outperform the multilingual models on 9 out of 11 datasets. In addition, we establish the new state-of-the-art results on nine datasets. At the end, we discuss properties of monolingual and multilingual models based upon our results. We publish all the pre-trained and fine-tuned models freely for the research community.
Rights: © Incoma Ltd.
Appears in Collections:Konferenční příspěvky / Conference Papers (KIV)
OBD

Files in This Item:
File SizeFormat 
Přibáň-RANLP-2021-czert.pdf351,92 kBAdobe PDFView/Open


Please use this identifier to cite or link to this item: http://hdl.handle.net/11025/47190

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

search
navigation
  1. DSpace at University of West Bohemia
  2. Publikační činnost / Publications
  3. OBD