Automatická klasifikace dokumentů s podobným obsahem

Hrala, Michal

Full metadata record

DC pole	Hodnota	Jazyk
dc.contributor.advisor	Král, Pavel
dc.contributor.author	Hrala, Michal
dc.contributor.referee	Pluskal, Jan
dc.date.accepted	2012-06-19
dc.date.accessioned	2013-06-19T06:31:03Z
dc.date.available	2011-08-31	cs
dc.date.available	2013-06-19T06:31:03Z
dc.date.issued	2012
dc.date.submitted	2012-05-17
dc.identifier	46193
dc.identifier.uri	http://hdl.handle.net/11025/3054
dc.description.abstract	Hlavním cílem práce je prozkoumat metody pro více třídní klasifikaci dokumentů a navrhnout programové řešení pro Českou tiskovou kancelář (ČTK). Více třídní klasifikace je úkol, při kterém jsou dokumenty klasifikovány do více kategorií. Na základě literatury byly vybrány tři klasifikátory, které jsou úspěšně používány v této oblasti: Naivní Bayesův klasifikátor, Support Vector Machine (SVM) a klasifikátor Maximum Entropy. Práce dále zkoumá možnost použití slovních druhů (POS-tagging) pro filtrování slov a lemmatizace pro zlepšení úspěšnosti klasifikace. Práce dále srovnává pět metod pro výběr příznaků: Dokumentová frekvence, Information Gain (IG), Chí-kvadrát test a metodu GSS. Všechny metody jsou vyhodnoceny na českém korpusu novinových článků dodaných ČTK. Na základě výsledků klasifikace je navrženo optimální nastavení klasifikátoru. Pro implementaci klasifikačních metod je použit nástroj MinorThird. Pro lemmatizaci a POS-tagging byl použit nástroj MateTool.	cs
dc.format	68 s. (100 000 znaků)	cs
dc.format.mimetype	application/pdf
dc.language.iso	cs	cs
dc.publisher	Západočeská univerzita v Plzni	cs
dc.relation.isreferencedby	https://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=46193	-
dc.rights	Plný text práce je přístupný bez omezení.	cs
dc.subject	příznakové metody	cs
dc.subject	lemmatizace	cs
dc.subject	maximální entropie	cs
dc.subject	více třídní klasifikace	cs
dc.subject	naivní Bayesův klasifikátor	cs
dc.subject	POS tagging	cs
dc.subject	metoda podpůrných vektorů	cs
dc.subject	klasifikace textu	cs
dc.title	Automatická klasifikace dokumentů s podobným obsahem	cs
dc.title.alternative	Automatic Classification of the Documents with the Similar Content	en
dc.type	diplomová práce	cs
dc.thesis.degree-name	Ing.	cs
dc.thesis.degree-level	Navazující	cs
dc.thesis.degree-grantor	Západočeská univerzita v Plzni. Fakulta aplikovaných věd	cs
dc.description.department	Katedra informatiky a výpočetní techniky	cs
dc.thesis.degree-program	Inženýrská informatika	cs
dc.description.result	Obhájeno	cs
dc.rights.access	openAccess	en
dc.description.abstract-translated	The main goal of this work is to study methods for a multi-label document classification and to propose a user friendly software solution for Czech News Agency (ČTK). Multi-label classification is a task, where document is classified in to more than one class. Based on the literature, we have chosen three classifiers that are successfully used in the document classification field: Naive Bayes (NB), Support Vectors Machine (SVM) and Maximum Entropy classifier. We also study the possibility to use Part of Speech (POS) tagging for document word filtration and lemmatization to improve classification accuracy. For the feature selection, five methods are compared: Document Frequency (DF), Information Gain (IG), Mutual Information (MI), Chi-square and GSS methods. All methods are evaluated on the Czech corpus of ČTK newspapers articles. An optimal classifier setting is proposed based on these results. The proposed software solution uses the MinorThird classification tool package as an implementation of the classification methods. We used the Mate tool for lemmatization and POS tagging.	en
dc.subject.translated	feature selection	en
dc.subject.translated	lemmatization	en
dc.subject.translated	maximum entropy	en
dc.subject.translated	multi-label document classification	en
dc.subject.translated	naive Bayes classifier	en
dc.subject.translated	POS tagging	en
dc.subject.translated	support vector machine	en
dc.subject.translated	text classification	en
Vyskytuje se v kolekcích:	Diplomové práce / Theses (KIV)

Soubory připojené k záznamu:

Soubor	Popis	Velikost	Formát
diplomova prace.pdf	Plný text práce	2,55 MB	Adobe PDF	Zobrazit/otevřít
A10N0044Pposudek-ved.pdf	Posudek vedoucího práce	408,3 kB	Adobe PDF	Zobrazit/otevřít
A10N0044Pposudek-op.pdf	Posudek oponenta práce	422,48 kB	Adobe PDF	Zobrazit/otevřít
A10N0044Pprubeh.pdf	Průběh obhajoby práce	209,66 kB	Adobe PDF	Zobrazit/otevřít

Zobrazit minimální záznam Zobrazit statistiky

Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/3054

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání

navigace