Title: Automatická klasifikace textových dokumentů
Other Titles: Automatic Text Document Classification
Authors: Černá, Veronika
Advisor: Král, Pavel
Issue Date: 2012
Publisher: Západočeská univerzita v Plzni
Document type: bakalářská práce
URI: http://hdl.handle.net/11025/5497
Keywords: klasifikace dokumentů;naivní Bayesův klasifikátor;support vector machines;maximální entropie
Keywords in different language: document classification;naive Bayes;support vector machines;maximum entropy
Abstract: Tato práce se zabývá automatickou klasifikací textových dokumentů, jejímž cílem je přiřadit dokumentům kategorii z nějaké předdefinované množiny kategorií. Pro experimenty byly vybrány tři známé klasifikační techniky: naivní Bayesův klasifikátor, support vector machines a maximální entropie. K předzpracování dat byly použity lemmatizátor a POS-tagger a na základě různých kritérií pro výběr příznaků pak byly vytvořeny 4 sady dokumentů. Všechny experimenty byly prováděny na českém korpusu nástrojem MinorThird.
Abstract in different language: This work deals with automatic text document classification. Text classification is a process of labelling documents with thematic categories from a predefined set of categories. Three known classification techniques were chosen for experiments in this work: naive Bayes, support vector machines and maximum entropy. A lemmatizer and a POS-tagger were used for the text pre-processing. Four sets of documents were created based on the different feature selection criteria. All experiments were performed on the Czech corpus using the MinorThird toolkit.
Rights: Plný text práce je přístupný bez omezení.
Appears in Collections:Bakalářské práce / Bachelor´s works (KIV)

Files in This Item:
File Description SizeFormat 
Automaticka klasifikace textovych dokumentu.pdfPlný text práce462,87 kBAdobe PDFView/Open
A10B0834Pposudek.pdfPosudek vedoucího práce438,15 kBAdobe PDFView/Open
A10B0834Pprubeh.pdfPrůběh obhajoby práce53,01 kBAdobe PDFView/Open


Please use this identifier to cite or link to this item: http://hdl.handle.net/11025/5497

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.