Experimenty s Apache Mahout

Hain, Lukáš

Full metadata record

DC pole	Hodnota	Jazyk
dc.contributor.advisor	Konopík, Miloslav
dc.contributor.author	Hain, Lukáš
dc.contributor.referee	Konkol, Michal
dc.date.accepted	2015-06-15
dc.date.accessioned	2016-03-15T08:38:23Z
dc.date.available	2014-09-01	cs
dc.date.available	2016-03-15T08:38:23Z
dc.date.issued	2015
dc.date.submitted	2015-05-14
dc.identifier	63093
dc.identifier.uri	http://hdl.handle.net/11025/17880
dc.description.abstract	Tato práce je zaměřena na knihovnou Apache Mahout. Úkolem je vytvoření návodu a ověřit její použitelnost na úlohách z oblasti zpracování přirozeného jazyka (NLP). V textu je znázorněno řešení tří problému z oblasti NLP: klasifikace emailu z podpory, extrakce diskuzních příspěvků z webových stránek a shlukování sémantických vektoru. Všechny tyto úlohy jsou doprovázeny podrobným popisem, který zahrnuje načítání dat, trénování, testování a použití natrénovaného modelu. Velice slibných výsledku bylo dosaženo v první a třetí úloze. Klasifikace emailu dosahuje úspešnosti kolem 91%. Shlukování do 25 000 shluků, ze 400 000 vektorů trvalo 43 hodin na běžném notebooku.	cs
dc.format	76 s.	cs
dc.format.mimetype	application/pdf
dc.language.iso	cs	cs
dc.publisher	Západočeská univerzita v Plzni	cs
dc.rights	Plný text práce je přístupný bez omezení.	cs
dc.subject	Mahout	cs
dc.subject	strojové učení	cs
dc.subject	doporučení	cs
dc.subject	klasifikace	cs
dc.subject	shlukování	cs
dc.subject	zpracování přirozeného jazyka	cs
dc.subject	NLP	cs
dc.title	Experimenty s Apache Mahout	cs
dc.title.alternative	Experiments with Apache Mahout	en
dc.type	diplomová práce	cs
dc.thesis.degree-name	Ing.	cs
dc.thesis.degree-level	Navazující	cs
dc.thesis.degree-grantor	Západočeská univerzita v Plzni. Fakulta aplikovaných věd	cs
dc.thesis.degree-program	Inženýrská informatika	cs
dc.description.result	Obhájeno	cs
dc.rights.access	openAccess	en
dc.description.abstract-translated	This thesis focuses on the Apache Mahout toolkit. The goal is to create a tutorial and verify its usability on some tasks from natural language processing (NLP) field. The text shows a solution to three NLP problems: classification of e-mails in a support forum, extracting discussion feeds from web pages and clustering semantic vectors. All these examples are accompanied with rich explanations that cover data loading, training, testing and using the trained models. Very promising results were achieved for the first and third task. Classification of emails achieved approximately 91% accuracy. Clustering into 25 000 clusters based upon 400 000 vectors finished in 43 hours on a common laptop.	en
dc.subject.translated	Mahout	en
dc.subject.translated	machine learning	en
dc.subject.translated	recommendation	en
dc.subject.translated	classification	en
dc.subject.translated	clustering	en
dc.subject.translated	natural language processing	en
dc.subject.translated	NLP	en
Vyskytuje se v kolekcích:	Diplomové práce / Theses (KIV)

Soubory připojené k záznamu:

Soubor	Popis	Velikost	Formát
dp.pdf	Plný text práce	1,19 MB	Adobe PDF	Zobrazit/otevřít
vedouci-A13N0103Phodnoceni-ved.PDF	Posudek vedoucího práce	374,51 kB	Adobe PDF	Zobrazit/otevřít
oponent-A13N0103Pposudek-oponent.PDF	Posudek oponenta práce	390,82 kB	Adobe PDF	Zobrazit/otevřít
obhajoba-A13N0103Pobhajoba.PDF	Průběh obhajoby práce	206,76 kB	Adobe PDF	Zobrazit/otevřít

Zobrazit minimální záznam Zobrazit statistiky

Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/17880

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání

navigace