Automatická klasifikace dokumentů s podobným obsahem

Hrala, Michal

Název:	Automatická klasifikace dokumentů s podobným obsahem
Další názvy:	Automatic Classification of the Documents with the Similar Content
Autoři:	Hrala, Michal
Vedoucí práce/školitel:	Král, Pavel
Oponent:	Pluskal, Jan
Datum vydání:	2012
Nakladatel:	Západočeská univerzita v Plzni
Typ dokumentu:	diplomová práce
URI:	http://hdl.handle.net/11025/3054
Klíčová slova:	příznakové metody;lemmatizace;maximální entropie;více třídní klasifikace;naivní Bayesův klasifikátor;POS tagging;metoda podpůrných vektorů;klasifikace textu
Klíčová slova v dalším jazyce:	feature selection;lemmatization;maximum entropy;multi-label document classification;naive Bayes classifier;POS tagging;support vector machine;text classification
Abstrakt:	Hlavním cílem práce je prozkoumat metody pro více třídní klasifikaci dokumentů a navrhnout programové řešení pro Českou tiskovou kancelář (ČTK). Více třídní klasifikace je úkol, při kterém jsou dokumenty klasifikovány do více kategorií. Na základě literatury byly vybrány tři klasifikátory, které jsou úspěšně používány v této oblasti: Naivní Bayesův klasifikátor, Support Vector Machine (SVM) a klasifikátor Maximum Entropy. Práce dále zkoumá možnost použití slovních druhů (POS-tagging) pro filtrování slov a lemmatizace pro zlepšení úspěšnosti klasifikace. Práce dále srovnává pět metod pro výběr příznaků: Dokumentová frekvence, Information Gain (IG), Chí-kvadrát test a metodu GSS. Všechny metody jsou vyhodnoceny na českém korpusu novinových článků dodaných ČTK. Na základě výsledků klasifikace je navrženo optimální nastavení klasifikátoru. Pro implementaci klasifikačních metod je použit nástroj MinorThird. Pro lemmatizaci a POS-tagging byl použit nástroj MateTool.
Abstrakt v dalším jazyce:	The main goal of this work is to study methods for a multi-label document classification and to propose a user friendly software solution for Czech News Agency (ČTK). Multi-label classification is a task, where document is classified in to more than one class. Based on the literature, we have chosen three classifiers that are successfully used in the document classification field: Naive Bayes (NB), Support Vectors Machine (SVM) and Maximum Entropy classifier. We also study the possibility to use Part of Speech (POS) tagging for document word filtration and lemmatization to improve classification accuracy. For the feature selection, five methods are compared: Document Frequency (DF), Information Gain (IG), Mutual Information (MI), Chi-square and GSS methods. All methods are evaluated on the Czech corpus of ČTK newspapers articles. An optimal classifier setting is proposed based on these results. The proposed software solution uses the MinorThird classification tool package as an implementation of the classification methods. We used the Mate tool for lemmatization and POS tagging.
Práva:	Plný text práce je přístupný bez omezení.
Vyskytuje se v kolekcích:	Diplomové práce / Theses (KIV)

Soubory připojené k záznamu:

Soubor	Popis	Velikost	Formát
diplomova prace.pdf	Plný text práce	2,55 MB	Adobe PDF	Zobrazit/otevřít
A10N0044Pposudek-ved.pdf	Posudek vedoucího práce	408,3 kB	Adobe PDF	Zobrazit/otevřít
A10N0044Pposudek-op.pdf	Posudek oponenta práce	422,48 kB	Adobe PDF	Zobrazit/otevřít
A10N0044Pprubeh.pdf	Průběh obhajoby práce	209,66 kB	Adobe PDF	Zobrazit/otevřít

Zobrazit celý záznam Zobrazit statistiky

Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/3054

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání

navigace