Název: | Automatická klasifikace textových dokumentů |
Další názvy: | Automatic Text Document Classification |
Autoři: | Černá, Veronika |
Vedoucí práce/školitel: | Král, Pavel |
Datum vydání: | 2012 |
Nakladatel: | Západočeská univerzita v Plzni |
Typ dokumentu: | bakalářská práce |
URI: | http://hdl.handle.net/11025/5497 |
Klíčová slova: | klasifikace dokumentů;naivní Bayesův klasifikátor;support vector machines;maximální entropie |
Klíčová slova v dalším jazyce: | document classification;naive Bayes;support vector machines;maximum entropy |
Abstrakt: | Tato práce se zabývá automatickou klasifikací textových dokumentů, jejímž cílem je přiřadit dokumentům kategorii z nějaké předdefinované množiny kategorií. Pro experimenty byly vybrány tři známé klasifikační techniky: naivní Bayesův klasifikátor, support vector machines a maximální entropie. K předzpracování dat byly použity lemmatizátor a POS-tagger a na základě různých kritérií pro výběr příznaků pak byly vytvořeny 4 sady dokumentů. Všechny experimenty byly prováděny na českém korpusu nástrojem MinorThird. |
Abstrakt v dalším jazyce: | This work deals with automatic text document classification. Text classification is a process of labelling documents with thematic categories from a predefined set of categories. Three known classification techniques were chosen for experiments in this work: naive Bayes, support vector machines and maximum entropy. A lemmatizer and a POS-tagger were used for the text pre-processing. Four sets of documents were created based on the different feature selection criteria. All experiments were performed on the Czech corpus using the MinorThird toolkit. |
Práva: | Plný text práce je přístupný bez omezení. |
Vyskytuje se v kolekcích: | Bakalářské práce / Bachelor´s works (KIV) |
Soubory připojené k záznamu:
Soubor | Popis | Velikost | Formát | |
---|---|---|---|---|
Automaticka klasifikace textovych dokumentu.pdf | Plný text práce | 462,87 kB | Adobe PDF | Zobrazit/otevřít |
A10B0834Pposudek.pdf | Posudek vedoucího práce | 438,15 kB | Adobe PDF | Zobrazit/otevřít |
A10B0834Pprubeh.pdf | Průběh obhajoby práce | 53,01 kB | Adobe PDF | Zobrazit/otevřít |
Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam:
http://hdl.handle.net/11025/5497
Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.