Název: Identifikace rodného jazyka pisatelů na základě anglicky psaných esejů
Autoři: Brada, Robert
Citace zdrojového dokumentu: RENDL, Jan ed. Studentská vědecká konference: bakalářské studijní programy, sborník rozšířených abstraktů, květen 2019, Plzeň. Plzeň: Západočeská univerzita v Plzni, 2018, s. 31-32. ISBN 978-80-261-0789-7.
Datum vydání: 2018
Nakladatel: Západočeská univerzita v Plzni
Typ dokumentu: konferenční příspěvek
conferenceObject
URI: http://hdl.handle.net/11025/29858
svk.fav.zcu.cz/download/sbornik_svkb_2018.pdf
ISBN: 978-80-261-0789-7
Klíčová slova: počítačové zpracování textu;identifikace rodného jazyka;strojové učení
Klíčová slova v dalším jazyce: computer text processing;native language identification;machine learning
Abstrakt: Cílem práce bylo najít systém, který bude mít co nejlepší přesnost klasifikace. Z dosažených výsledů je zřejmé, že takovým systémem je ten využívající Bag Of Words model, který měl o 13,3% lepší přesnost klasifikace než výchozí model. Tento model využíval jako příznaky trigramy slov a 11-gramy znaků. Výchozí model využíval jako příznaky jednotlivá slova. Přesnost klasifikace ovšem není jediným meřítkem, podle kterého se řídit, pokud chceme systém využít v praxi. Může docházet například k přetrénování, dále potřebujeme nějak interpretovat důležitost příznaků, podle kterých se klasifikátor rozhoduje a podobně. Tyto aspekty jsou rozebrány v originální práci. Závěrem je, že klasifikátor s nejlepší přesností je výrazně přetrénován a i systém využívající doc2vec model poskytuje i přes horší přesnost klasifikace velmi užitečné informace.
Práva: © Západočeská univerzita v Plzni
Vyskytuje se v kolekcích:Studentská vědecká konference 2018-bakalářské studijní programy
Studentská vědecká konference 2018-bakalářské studijní programy
Studentská vědecká konference 2018-bakalářské studijní programy

Soubory připojené k záznamu:
Soubor Popis VelikostFormát 
Brada.pdfPlný text575,65 kBAdobe PDFZobrazit/otevřít


Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/29858

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.