Title: | Automatická klasifikace textových dokumentů |
Other Titles: | Automatic Text Document Classification |
Authors: | Černá, Veronika |
Advisor: | Král, Pavel |
Issue Date: | 2012 |
Publisher: | Západočeská univerzita v Plzni |
Document type: | bakalářská práce |
URI: | http://hdl.handle.net/11025/5497 |
Keywords: | klasifikace dokumentů;naivní Bayesův klasifikátor;support vector machines;maximální entropie |
Keywords in different language: | document classification;naive Bayes;support vector machines;maximum entropy |
Abstract: | Tato práce se zabývá automatickou klasifikací textových dokumentů, jejímž cílem je přiřadit dokumentům kategorii z nějaké předdefinované množiny kategorií. Pro experimenty byly vybrány tři známé klasifikační techniky: naivní Bayesův klasifikátor, support vector machines a maximální entropie. K předzpracování dat byly použity lemmatizátor a POS-tagger a na základě různých kritérií pro výběr příznaků pak byly vytvořeny 4 sady dokumentů. Všechny experimenty byly prováděny na českém korpusu nástrojem MinorThird. |
Abstract in different language: | This work deals with automatic text document classification. Text classification is a process of labelling documents with thematic categories from a predefined set of categories. Three known classification techniques were chosen for experiments in this work: naive Bayes, support vector machines and maximum entropy. A lemmatizer and a POS-tagger were used for the text pre-processing. Four sets of documents were created based on the different feature selection criteria. All experiments were performed on the Czech corpus using the MinorThird toolkit. |
Rights: | Plný text práce je přístupný bez omezení. |
Appears in Collections: | Bakalářské práce / Bachelor´s works (KIV) |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Automaticka klasifikace textovych dokumentu.pdf | Plný text práce | 462,87 kB | Adobe PDF | View/Open |
A10B0834Pposudek.pdf | Posudek vedoucího práce | 438,15 kB | Adobe PDF | View/Open |
A10B0834Pprubeh.pdf | Průběh obhajoby práce | 53,01 kB | Adobe PDF | View/Open |
Please use this identifier to cite or link to this item:
http://hdl.handle.net/11025/5497
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.