Title: Identifikace rodného jazyka pisatelů na základě anglicky psaných esejů
Authors: Brada, Robert
Citation: RENDL, Jan ed. Studentská vědecká konference: bakalářské studijní programy, sborník rozšířených abstraktů, květen 2019, Plzeň. Plzeň: Západočeská univerzita v Plzni, 2018, s. 31-32. ISBN 978-80-261-0789-7.
Issue Date: 2018
Publisher: Západočeská univerzita v Plzni
Document type: konferenční příspěvek
conferenceObject
URI: http://hdl.handle.net/11025/29858
svk.fav.zcu.cz/download/sbornik_svkb_2018.pdf
ISBN: 978-80-261-0789-7
Keywords: počítačové zpracování textu;identifikace rodného jazyka;strojové učení
Keywords in different language: computer text processing;native language identification;machine learning
Abstract: Cílem práce bylo najít systém, který bude mít co nejlepší přesnost klasifikace. Z dosažených výsledů je zřejmé, že takovým systémem je ten využívající Bag Of Words model, který měl o 13,3% lepší přesnost klasifikace než výchozí model. Tento model využíval jako příznaky trigramy slov a 11-gramy znaků. Výchozí model využíval jako příznaky jednotlivá slova. Přesnost klasifikace ovšem není jediným meřítkem, podle kterého se řídit, pokud chceme systém využít v praxi. Může docházet například k přetrénování, dále potřebujeme nějak interpretovat důležitost příznaků, podle kterých se klasifikátor rozhoduje a podobně. Tyto aspekty jsou rozebrány v originální práci. Závěrem je, že klasifikátor s nejlepší přesností je výrazně přetrénován a i systém využívající doc2vec model poskytuje i přes horší přesnost klasifikace velmi užitečné informace.
Rights: © Západočeská univerzita v Plzni
Appears in Collections:Studentská vědecká konference 2018-bakalářské studijní programy
Studentská vědecká konference 2018-bakalářské studijní programy
Studentská vědecká konference 2018-bakalářské studijní programy

Files in This Item:
File Description SizeFormat 
Brada.pdfPlný text575,65 kBAdobe PDFView/Open


Please use this identifier to cite or link to this item: http://hdl.handle.net/11025/29858

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.