Inkrementální shlukování zpravodajských textů

Váňa, Martin

Full metadata record

DC pole	Hodnota	Jazyk
dc.contributor.advisor	Steinberger Josef, Doc. Ing. Ph.D.
dc.contributor.author	Váňa, Martin
dc.contributor.referee	Brychcín Tomáš, Ing. Ph.D.
dc.date.accepted	2018-6-18
dc.date.accessioned	2019-03-15T10:14:26Z	-
dc.date.available	2017-9-1
dc.date.available	2019-03-15T10:14:26Z	-
dc.date.issued	2018
dc.date.submitted	2018-5-17
dc.identifier	74798
dc.identifier.uri	http://hdl.handle.net/11025/31803
dc.description.abstract	Cílem práce bylo prozkoumat možnosti shlukovacích metod založených na statistických modelech, zejména metodu založenou na Distance Dependent Chinese Restaurant Process (ddCRP), a navrhnout shlukovací systém, který bude schopný udržovat tematické shluky zpravodajských textů, které budou postupně přicházet z crawleru. Metody LDA, LSA a doc2vec byly použity k reprezentaci dokumentu jako číselný vektor fixní délky. Výsledné shluky odhalené proof-of-concept implementací takového systému byly vyhodnoceny zejména pomocí purity, F-measure a V-measure. Dále byla představena evaluační metrika NV-measure vycházející z V-measure, které penalizuje nadměrné či naopak nedostatečné množství shluků. Nejlepších výsledků bylo dosaženo pomocí doc2vec a ddCRP.	cs
dc.format	68 s.	cs
dc.format.mimetype	application/pdf
dc.language.iso	en	en
dc.publisher	Západočeská univerzita v Plzni	cs
dc.rights	Plný text práce je přístupný bez omezení.	cs
dc.subject	inkrementální shlukování	cs
dc.subject	shlukovací metody založené na statistických modelech	cs
dc.subject	nv-measure	cs
dc.subject	gensim	cs
dc.subject	zpracování přirozeného jazyka	cs
dc.subject	strojové učení	cs
dc.subject	distance dependent chinese restaurant process	cs
dc.subject	doc2vec	cs
dc.title	Inkrementální shlukování zpravodajských textů	cs
dc.title.alternative	Incremental news clustering	en
dc.type	diplomová práce	cs
dc.thesis.degree-name	Ing.	cs
dc.thesis.degree-level	Navazující	cs
dc.thesis.degree-grantor	Západočeská univerzita v Plzni. Fakulta aplikovaných věd	cs
dc.thesis.degree-program	Inženýrská informatika	cs
dc.description.result	Obhájeno	cs
dc.rights.access	openAccess	en
dc.description.abstract-translated	The goal was to research model-based clustering methods, notably the Distance Dependent Chinese Restaurant Process (ddCRP), and propose an incremental clustering system which would be capable of maintaining the growing number of topic clusters of news articles coming online from a crawler. LDA, LSA, and doc2vec methods were used to represent a document as a fixed-length numeric vector. Cluster assignments given by a proof-of-concept implementation of such a system were evaluated using various metrics, notably purity, F-measure and V-measure. A modification of V-measure -- NV-measure -- was introduced in order to penalize an excessive or insufficient number of clusters. The best results were achieved with doc2vec and ddCRP.	en
dc.subject.translated	incremental clustering	en
dc.subject.translated	model-based clustering	en
dc.subject.translated	nv-measure	en
dc.subject.translated	gensim	en
dc.subject.translated	natural language processing	en
dc.subject.translated	machine learning	en
dc.subject.translated	distance dependent chinese restaurant process	en
dc.subject.translated	doc2vec	en
Vyskytuje se v kolekcích:	Diplomové práce / Theses (KIV)

Soubory připojené k záznamu:

Soubor	Popis	Velikost	Formát
thesis.pdf	Plný text práce	2,45 MB	Adobe PDF	Zobrazit/otevřít
A15N0083Pposudek-op.PDF	Posudek oponenta práce	877,62 kB	Adobe PDF	Zobrazit/otevřít
A15N0083Phodnoceni-ved.PDF	Posudek vedoucího práce	379,56 kB	Adobe PDF	Zobrazit/otevřít
A15N0083Pobhajoba.PDF	Průběh obhajoby práce	208,12 kB	Adobe PDF	Zobrazit/otevřít

Zobrazit minimální záznam Zobrazit statistiky

Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/31803

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání

navigace