Multilingual Coreference Resolution with Harmonized Annotations

Pražák, Ondřej; Konopík, Miloslav; Sido, Jakub

Full metadata record

DC pole	Hodnota	Jazyk
dc.contributor.author	Pražák, Ondřej
dc.contributor.author	Konopík, Miloslav
dc.contributor.author	Sido, Jakub
dc.date.accessioned	2022-03-28T10:00:29Z	-
dc.date.available	2022-03-28T10:00:29Z	-
dc.date.issued	2021
dc.identifier.citation	PRAŽÁK, O. KONOPÍK, M. SIDO, J. Multilingual Coreference Resolution with Harmonized Annotations. In Deep Learning for Natural Language Processing Methods and Applications. Shoumen: INCOMA Ltd., 2021. s. 1119-1123. ISBN: 978-954-452-072-4 , ISSN: 1313-8502	cs
dc.identifier.isbn	978-954-452-072-4
dc.identifier.issn	1313-8502
dc.identifier.uri	2-s2.0-85123593477
dc.identifier.uri	http://hdl.handle.net/11025/47262
dc.description.abstract	V tomto článku popisujeme experimentální systém hledání koreferencí s nově vytvořeným vícejazyčným korpusem CorefUD (Nedoluzhko et al., 2021). Zaměřujeme se na tyto jazyky: čeština, ruština, polština, němčina, španělština a katalánština. Kromě jednojazyčných experimentů kombinujeme tréninková data ve vícejazyčných experimentech a trénujeme dva spojené modely: Jeden pro slovanské jazyky a druhý pro všechny jazyky dohromady. Využíváme model hlubokého učení typu end-to-end, který jsme přizpůsobili pro korpus CorefUD. Naše výsledky ukazují, že můžeme těžit z harmonizovaných anotací a používání spojených modelů výrazně pomáhá jazykům s menšími trénovacími daty.	cs
dc.format	5 s.	cs
dc.format.mimetype	application/pdf
dc.language.iso	en	en
dc.publisher	INCOMA Ltd.	en
dc.relation.ispartofseries	Deep Learning for Natural Language Processing Methods and Applications	en
dc.rights	© Incoma Ltd.	en
dc.subject	Hledání koreferencí	cs
dc.subject	mezijazyčné reprezentace	cs
dc.subject	BERT	cs
dc.title	Multilingual Coreference Resolution with Harmonized Annotations	en
dc.title.alternative	Vícejazyčné hledání koreferencí s harmonizovanými anotacemi	cs
dc.type	konferenční příspěvek	cs
dc.type	ConferenceObject	en
dc.rights.access	openAccess	en
dc.type.version	publishedVersion	en
dc.description.abstract-translated	In this paper, we present coreference resolution experiments with a newly created multi-lingual corpus CorefUD (Nedoluzhko et al.,2021). We focus on the following languages: Czech, Russian, Polish, German, Spanish, and Catalan. In addition to monolingual experiments, we combine the training data in multi-lingual experiments and train two joined models – for Slavic languages and for all the languages together. We rely on an end-to-end deep learning model that we slightly adapted for the CorefUD corpus. Our results show that we can profit from harmonized annotations, and using joined models helps significantly for the languages with smaller training data	en
dc.subject.translated	Coreference resolution	en
dc.subject.translated	cross-lingual representations	en
dc.subject.translated	BERT	en
dc.identifier.doi	10.26615/978-954-452-072-4_125
dc.type.status	Peer-reviewed	en
dc.identifier.obd	43933617
dc.project.ID	SGS-2019-018/Zpracování heterogenních dat a jejich specializované aplikace	cs
Vyskytuje se v kolekcích:	Konferenční příspěvky / Conference Papers (KIV) OBD

Soubory připojené k záznamu:

Soubor	Velikost	Formát
Pražák-RANLP proceedings-2021-1.pdf	177,77 kB	Adobe PDF	Zobrazit/otevřít

Zobrazit minimální záznam Zobrazit statistiky

Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/47262

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání

navigace