Název: Automatic lemmatizer construction with focus on OOV words lemmatization
Další názvy: Automatická konstrukce lematizátoru se zaměřením na lematizaci OOV slov
Autoři: Kanis, Jakub
Müller, Luděk
Citace zdrojového dokumentu: KANIS, Jakub; MÜLLER, Luděk. Automatic lemmatizer construction with focus on OOV words lemmatization. In: Text, speech and dialogue. Berlin: Springer, 2005, p. 132-139. (Lectures notes in computer science; 3658). ISBN 978-3-540-28789-6.
Datum vydání: 2005
Nakladatel: Springer
Typ dokumentu: článek
article
URI: http://www.kky.zcu.cz/cs/publications/KanisJ_2005_Automaticlemmatizer
http://hdl.handle.net/11025/17130
ISBN: 978-3-540-28789-6
Klíčová slova: lemmatizace;OOV slova
Klíčová slova v dalším jazyce: lemmatization;OOV words
Abstrakt: Tento článek se zabývá automatickou konstrukcí lematizátoru z Plný tvar - Lema trénovacího slovníku a lematizací nových, v trénovacím slovníku neviděných, tj. OOV slov. Jsou představeny tři metody pro lematizaci tří různých typů OOV slov (chybějící plné tvary, složená a neznámá slova). Tyto metody byly testovány pro češtinu a nejlepší výsledek dosažený jejich kombinací je precision: 99.3 % a recall: 75.1 %. Dále je také představen bezslovníkový lematizátor založený na metodě pro lematizaci neznámých slov (lematizace pomocí vzorů).
Abstrakt v dalším jazyce: This paper deals with the automatic construction of a lemmatizer from a Full Form - Lemma (FFL) training dictionary and with lemmatization of new, in the FFL dictionary unseen, i.e. out-of-vocabulary (OOV) words. Three methods of lemmatization of three kinds of OOV words (missing full forms, unknown words, and compound words) are introduced. These methods were tested on Czech test data. The best result (recall: 99.3 % and precision: 75.1 %) has been achieved by a combination of these methods. The lexicon-free lemmatizer based on the method of lemmatization of unknown words (lemmatization patterns method) is introduced too.
Práva: © Jakub Kanis - Luděk Müller
Vyskytuje se v kolekcích:Články / Articles (NTIS)
Články / Articles (KKY)

Soubory připojené k záznamu:
Soubor Popis VelikostFormát 
KanisJ_2005_Automaticlemmatizer.pdfPlný text94,21 kBAdobe PDFZobrazit/otevřít


Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/17130

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.