Full metadata record
DC FieldValueLanguage
dc.contributor.advisorKrál, Pavel
dc.contributor.authorČerná, Veronika
dc.date.accepted2012-06-07
dc.date.accessioned2013-06-19T06:42:08Z-
dc.date.available2012-02-03cs
dc.date.available2013-06-19T06:42:08Z-
dc.date.issued2012
dc.date.submitted2012-05-11
dc.identifier49895
dc.identifier.urihttp://hdl.handle.net/11025/5497
dc.description.abstractTato práce se zabývá automatickou klasifikací textových dokumentů, jejímž cílem je přiřadit dokumentům kategorii z nějaké předdefinované množiny kategorií. Pro experimenty byly vybrány tři známé klasifikační techniky: naivní Bayesův klasifikátor, support vector machines a maximální entropie. K předzpracování dat byly použity lemmatizátor a POS-tagger a na základě různých kritérií pro výběr příznaků pak byly vytvořeny 4 sady dokumentů. Všechny experimenty byly prováděny na českém korpusu nástrojem MinorThird.cs
dc.format47 s.cs
dc.format.mimetypeapplication/pdf
dc.language.isocscs
dc.publisherZápadočeská univerzita v Plznics
dc.rightsPlný text práce je přístupný bez omezení.cs
dc.subjectklasifikace dokumentůcs
dc.subjectnaivní Bayesův klasifikátorcs
dc.subjectsupport vector machinescs
dc.subjectmaximální entropiecs
dc.titleAutomatická klasifikace textových dokumentůcs
dc.title.alternativeAutomatic Text Document Classificationen
dc.typebakalářská prácecs
dc.thesis.degree-nameBc.cs
dc.thesis.degree-levelBakalářskýcs
dc.thesis.degree-grantorZápadočeská univerzita v Plzni. Fakulta aplikovaných vědcs
dc.description.departmentKatedra informatiky a výpočetní technikycs
dc.thesis.degree-programInženýrská informatikacs
dc.description.resultObhájenocs
dc.rights.accessopenAccessen
dc.description.abstract-translatedThis work deals with automatic text document classification. Text classification is a process of labelling documents with thematic categories from a predefined set of categories. Three known classification techniques were chosen for experiments in this work: naive Bayes, support vector machines and maximum entropy. A lemmatizer and a POS-tagger were used for the text pre-processing. Four sets of documents were created based on the different feature selection criteria. All experiments were performed on the Czech corpus using the MinorThird toolkit.en
dc.subject.translateddocument classificationen
dc.subject.translatednaive Bayesen
dc.subject.translatedsupport vector machinesen
dc.subject.translatedmaximum entropyen
Appears in Collections:Bakalářské práce / Bachelor´s works (KIV)

Files in This Item:
File Description SizeFormat 
Automaticka klasifikace textovych dokumentu.pdfPlný text práce462,87 kBAdobe PDFView/Open
A10B0834Pposudek.pdfPosudek vedoucího práce438,15 kBAdobe PDFView/Open
A10B0834Pprubeh.pdfPrůběh obhajoby práce53,01 kBAdobe PDFView/Open


Please use this identifier to cite or link to this item: http://hdl.handle.net/11025/5497

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.