Title: TEXT-MINING WITH LINKED DATA
Other Titles: TEXT-MINING WITH LINKED DATA
Authors: Dostal, Martin
Advisor: Ježek, Karel
Issue Date: 2015
Publisher: Západočeská univerzita v Plzni
Document type: disertační práce
URI: http://hdl.handle.net/11025/20645
Keywords: text-mining;linked data;shlukování;klasifikace
Keywords in different language: text-mining;linked data;clustering;classification
Abstract: Tato práce představuje můj vývoj v oblasti text-miningu realizovaný s využitím sémantické informace získané z Linked Data. Tento přístup je demonstrován na dobře známých text-miningových úlohách jako je volba vlastností, klasifikace a shlukování. Tento přístup je vyhodnocen s využitím běžných datových kolekcí a s využitím několika vlastních korpusů v případech, kdy dostatečně velké korpusy nebyly k dispozici nebo nebyly vhodné pro daný experiment. Standardní datové kolekce zahrnují: 20 News Groups, Reuters-21578, The Open Directory Project, Kolekci článku z WOS pro citační analýzu, Datové kolekce ze Stanford University. Některé navržené metody, prezentované v této práci, však musely být vyhodnoceny manuálně z důvodu neexistence vhodného korpusu, jehož vytvoření by bylo značně náročné. Tato práce pokrývá i některé další experimenty, které se přímo netýkají text-miningu, ale které jsou této oblasti velmi blízké. Tyto experimenty byly realizovány s mými kolegy a zahrnují infometrii, citační analýzu a vylepšení grafových algoritmů typu PageRank.
Abstract in different language: This thesis proposes the progress in the area of text-mining realized with methods improved by semantic information from Linked Data. This approach is demonstrated on well-known text-mining tasks like feature extraction, classification and clustering. This approach is evaluated with common available data corpuses and with my own several corpuses in cases when the large enough corpuses were not available or were not suitable for an experiment. The standard explored data sets include: 20 News Groups, Reuters-21578, The Open Directory Project, WOS data collection for citation analysis, data collections from Stanford University. Anyway some of the proposed methods had to be evaluated manually because the convenient corpus was not available and its creation would be quite challenging. This thesis also covers some experiments from my other areas of interest close to text-mining and that are related to my field of study. These experiments were realized with my coworkers and they include infometrics, citation analysis and enhancement of PageRank-style graph algorithms.
Rights: Plný text práce je přístupný bez omezení.
Appears in Collections:Disertační práce / Dissertations (KIV)

Files in This Item:
File Description SizeFormat 
phd_komplet_na_portal.pdfPlný text práce4,31 MBAdobe PDFView/Open
oponent-posudky-odp-dostal.pdfPosudek oponenta práce2,17 MBAdobe PDFView/Open
obhajoba-protokol-odp-dostal.pdfPrůběh obhajoby práce878,75 kBAdobe PDFView/Open


Please use this identifier to cite or link to this item: http://hdl.handle.net/11025/20645

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.