Full metadata record
DC poleHodnotaJazyk
dc.contributor.authorPražák, Ondřej
dc.contributor.authorKonopík, Miloslav
dc.contributor.authorSido, Jakub
dc.date.accessioned2022-03-28T10:00:29Z-
dc.date.available2022-03-28T10:00:29Z-
dc.date.issued2021
dc.identifier.citationPRAŽÁK, O. KONOPÍK, M. SIDO, J. Multilingual Coreference Resolution with Harmonized Annotations. In Deep Learning for Natural Language Processing Methods and Applications. Shoumen: INCOMA Ltd., 2021. s. 1119-1123. ISBN: 978-954-452-072-4 , ISSN: 1313-8502cs
dc.identifier.isbn978-954-452-072-4
dc.identifier.issn1313-8502
dc.identifier.uri2-s2.0-85123593477
dc.identifier.urihttp://hdl.handle.net/11025/47262
dc.description.abstractV tomto článku popisujeme experimentální systém hledání koreferencí s nově vytvořeným vícejazyčným korpusem CorefUD (Nedoluzhko et al., 2021). Zaměřujeme se na tyto jazyky: čeština, ruština, polština, němčina, španělština a katalánština. Kromě jednojazyčných experimentů kombinujeme tréninková data ve vícejazyčných experimentech a trénujeme dva spojené modely: Jeden pro slovanské jazyky a druhý pro všechny jazyky dohromady. Využíváme model hlubokého učení typu end-to-end, který jsme přizpůsobili pro korpus CorefUD. Naše výsledky ukazují, že můžeme těžit z harmonizovaných anotací a používání spojených modelů výrazně pomáhá jazykům s menšími trénovacími daty.cs
dc.format5 s.cs
dc.format.mimetypeapplication/pdf
dc.language.isoenen
dc.publisherINCOMA Ltd.en
dc.relation.ispartofseriesDeep Learning for Natural Language Processing Methods and Applicationsen
dc.rights© Incoma Ltd.en
dc.subjectHledání koreferencícs
dc.subjectmezijazyčné reprezentacecs
dc.subjectBERTcs
dc.titleMultilingual Coreference Resolution with Harmonized Annotationsen
dc.title.alternativeVícejazyčné hledání koreferencí s harmonizovanými anotacemics
dc.typekonferenční příspěvekcs
dc.typeConferenceObjecten
dc.rights.accessopenAccessen
dc.type.versionpublishedVersionen
dc.description.abstract-translatedIn this paper, we present coreference resolution experiments with a newly created multi-lingual corpus CorefUD (Nedoluzhko et al.,2021). We focus on the following languages: Czech, Russian, Polish, German, Spanish, and Catalan. In addition to monolingual experiments, we combine the training data in multi-lingual experiments and train two joined models – for Slavic languages and for all the languages together. We rely on an end-to-end deep learning model that we slightly adapted for the CorefUD corpus. Our results show that we can profit from harmonized annotations, and using joined models helps significantly for the languages with smaller training dataen
dc.subject.translatedCoreference resolutionen
dc.subject.translatedcross-lingual representationsen
dc.subject.translatedBERTen
dc.identifier.doi10.26615/978-954-452-072-4_125
dc.type.statusPeer-revieweden
dc.identifier.obd43933617
dc.project.IDSGS-2019-018/Zpracování heterogenních dat a jejich specializované aplikacecs
Vyskytuje se v kolekcích:Konferenční příspěvky / Conference Papers (KIV)
OBD

Soubory připojené k záznamu:
Soubor VelikostFormát 
Pražák-RANLP proceedings-2021-1.pdf177,77 kBAdobe PDFZobrazit/otevřít


Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/47262

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání
navigace
  1. DSpace at University of West Bohemia
  2. Publikační činnost / Publications
  3. OBD