Multilingual Coreference Resolution with Harmonized Annotations

Pražák, Ondřej; Konopík, Miloslav; Sido, Jakub

Název:	Multilingual Coreference Resolution with Harmonized Annotations
Další názvy:	Vícejazyčné hledání koreferencí s harmonizovanými anotacemi
Autoři:	Pražák, Ondřej Konopík, Miloslav Sido, Jakub
Citace zdrojového dokumentu:	PRAŽÁK, O. KONOPÍK, M. SIDO, J. Multilingual Coreference Resolution with Harmonized Annotations. In Deep Learning for Natural Language Processing Methods and Applications. Shoumen: INCOMA Ltd., 2021. s. 1119-1123. ISBN: 978-954-452-072-4 , ISSN: 1313-8502
Datum vydání:	2021
Nakladatel:	INCOMA Ltd.
Typ dokumentu:	konferenční příspěvek ConferenceObject
URI:	2-s2.0-85123593477 http://hdl.handle.net/11025/47262
ISBN:	978-954-452-072-4
ISSN:	1313-8502
Klíčová slova:	Hledání koreferencí;mezijazyčné reprezentace;BERT
Klíčová slova v dalším jazyce:	Coreference resolution;cross-lingual representations;BERT
Abstrakt:	V tomto článku popisujeme experimentální systém hledání koreferencí s nově vytvořeným vícejazyčným korpusem CorefUD (Nedoluzhko et al., 2021). Zaměřujeme se na tyto jazyky: čeština, ruština, polština, němčina, španělština a katalánština. Kromě jednojazyčných experimentů kombinujeme tréninková data ve vícejazyčných experimentech a trénujeme dva spojené modely: Jeden pro slovanské jazyky a druhý pro všechny jazyky dohromady. Využíváme model hlubokého učení typu end-to-end, který jsme přizpůsobili pro korpus CorefUD. Naše výsledky ukazují, že můžeme těžit z harmonizovaných anotací a používání spojených modelů výrazně pomáhá jazykům s menšími trénovacími daty.
Abstrakt v dalším jazyce:	In this paper, we present coreference resolution experiments with a newly created multi-lingual corpus CorefUD (Nedoluzhko et al.,2021). We focus on the following languages: Czech, Russian, Polish, German, Spanish, and Catalan. In addition to monolingual experiments, we combine the training data in multi-lingual experiments and train two joined models – for Slavic languages and for all the languages together. We rely on an end-to-end deep learning model that we slightly adapted for the CorefUD corpus. Our results show that we can profit from harmonized annotations, and using joined models helps significantly for the languages with smaller training data
Práva:	© Incoma Ltd.
Vyskytuje se v kolekcích:	Konferenční příspěvky / Conference Papers (KIV) OBD

Soubory připojené k záznamu:

Soubor	Velikost	Formát
Pražák-RANLP proceedings-2021-1.pdf	177,77 kB	Adobe PDF	Zobrazit/otevřít

Zobrazit celý záznam Zobrazit statistiky

Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/47262

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání

navigace