Název: Automatická klasifikace textových dokumentů
Další názvy: Automatic Text Document Classification
Autoři: Černá, Veronika
Vedoucí práce/školitel: Král, Pavel
Datum vydání: 2012
Nakladatel: Západočeská univerzita v Plzni
Typ dokumentu: bakalářská práce
URI: http://hdl.handle.net/11025/5497
Klíčová slova: klasifikace dokumentů;naivní Bayesův klasifikátor;support vector machines;maximální entropie
Klíčová slova v dalším jazyce: document classification;naive Bayes;support vector machines;maximum entropy
Abstrakt: Tato práce se zabývá automatickou klasifikací textových dokumentů, jejímž cílem je přiřadit dokumentům kategorii z nějaké předdefinované množiny kategorií. Pro experimenty byly vybrány tři známé klasifikační techniky: naivní Bayesův klasifikátor, support vector machines a maximální entropie. K předzpracování dat byly použity lemmatizátor a POS-tagger a na základě různých kritérií pro výběr příznaků pak byly vytvořeny 4 sady dokumentů. Všechny experimenty byly prováděny na českém korpusu nástrojem MinorThird.
Abstrakt v dalším jazyce: This work deals with automatic text document classification. Text classification is a process of labelling documents with thematic categories from a predefined set of categories. Three known classification techniques were chosen for experiments in this work: naive Bayes, support vector machines and maximum entropy. A lemmatizer and a POS-tagger were used for the text pre-processing. Four sets of documents were created based on the different feature selection criteria. All experiments were performed on the Czech corpus using the MinorThird toolkit.
Práva: Plný text práce je přístupný bez omezení.
Vyskytuje se v kolekcích:Bakalářské práce / Bachelor´s works (KIV)

Soubory připojené k záznamu:
Soubor Popis VelikostFormát 
Automaticka klasifikace textovych dokumentu.pdfPlný text práce462,87 kBAdobe PDFZobrazit/otevřít
A10B0834Pposudek.pdfPosudek vedoucího práce438,15 kBAdobe PDFZobrazit/otevřít
A10B0834Pprubeh.pdfPrůběh obhajoby práce53,01 kBAdobe PDFZobrazit/otevřít


Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/5497

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.