Full metadata record
DC pole | Hodnota | Jazyk |
---|---|---|
dc.contributor.advisor | Konopík Miloslav, Ing. Ph.D. | |
dc.contributor.author | Steinberger, David | |
dc.contributor.referee | Zelinka Jan, Ing. PhD. | |
dc.date.accepted | 2016-9-6 | |
dc.date.accessioned | 2017-02-21T08:28:12Z | - |
dc.date.available | 2015-9-1 | |
dc.date.available | 2017-02-21T08:28:12Z | - |
dc.date.issued | 2016 | |
dc.date.submitted | 2016-6-23 | |
dc.identifier | 68335 | |
dc.identifier.uri | http://hdl.handle.net/11025/23695 | |
dc.description.abstract | Tato práce se zabývá statistickou sémantickou podobností a zaměřuje se na nástroj word2vec. Byla navržena rozšíření s ohledem na český jazyk založená na stemmování a n-gramech znaků. Výsledky této práce podávají na českém jazyce o 12% lepší výsledky než původní model. Na anglickém jazyce bylo dosaženo zlepšení o 3%. Nový model poskytuje dobré výsledky i při velmi malém množství trénovacích dat. V rámci práce byly vytvořeny dva trénovací korpusy a jedna obsáhlá testovací datová sada založená na podobnosti dvojic slov. Sada byla získána z 9 různých zdrojů dvojic slov, obsahuje slova v kontextech, odlišuje podobnost a souvislost slov. Výsledná mezi anotátorská shoda dosáhla korelaci 0,81, která je plně srovnatelná s anglickými datovými sadami. | cs |
dc.format | ii s., 60 s., XI s. | cs |
dc.format.mimetype | application/pdf | |
dc.language.iso | cs | cs |
dc.publisher | Západočeská univerzita v Plzni | cs |
dc.rights | Plný text práce je přístupný bez omezení. | cs |
dc.subject | word2vec | cs |
dc.subject | distribuční hypotéza | cs |
dc.subject | zpracování přirozeného jazyka | cs |
dc.subject | sémantická podobnost | cs |
dc.subject | umělé neuronové sítě | cs |
dc.subject | sémantické vektory slov | cs |
dc.title | Metody statistické sémantické analýzy | cs |
dc.title.alternative | Statistical Semantic Analysis Methods | en |
dc.type | diplomová práce | cs |
dc.thesis.degree-name | Ing. | cs |
dc.thesis.degree-level | Navazující | cs |
dc.thesis.degree-grantor | Západočeská univerzita v Plzni. Fakulta aplikovaných věd | cs |
dc.thesis.degree-program | Inženýrská informatika | cs |
dc.description.result | Obhájeno | cs |
dc.rights.access | openAccess | en |
dc.description.abstract-translated | The thesis deals with statistic semantic similarity focused on the word2vec tool. It introduces extensions for the Czech language based upon stemming and character n-grams. The achieved results improve the original tool by 12% on the Czech language and by 3% on English. The new model is providing good results even on small training data. In this thesis, we introduce two new training corpora and one large dataset based on similarity of word pairs. The dataset is compiled from 9 differenet sources, it contains words in their contexts, it distinguishes between the similarity and relatedness of the word pairs. The final inter-rater agreement reaches 0.81 correlation, which is fully comparable with english datasets. | en |
dc.subject.translated | word2vec | en |
dc.subject.translated | vector space model | en |
dc.subject.translated | distributional hypothesis | en |
dc.subject.translated | nlp | en |
dc.subject.translated | semantic similarity | en |
dc.subject.translated | artificial neural networks | en |
dc.subject.translated | word embeddings | en |
Vyskytuje se v kolekcích: | Diplomové práce / Theses (KIV) |
Soubory připojené k záznamu:
Soubor | Popis | Velikost | Formát | |
---|---|---|---|---|
D.Steinberger.Metody.statisticke.semanticke.analyzy.pdf | Plný text práce | 2,04 MB | Adobe PDF | Zobrazit/otevřít |
A13N0095Pposudek-op.PDF | Posudek oponenta práce | 593,82 kB | Adobe PDF | Zobrazit/otevřít |
A13N0095Phodnoceni-ved.PDF | Posudek vedoucího práce | 372,23 kB | Adobe PDF | Zobrazit/otevřít |
A13N0095Pobhajoba.PDF | Průběh obhajoby práce | 203,05 kB | Adobe PDF | Zobrazit/otevřít |
Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam:
http://hdl.handle.net/11025/23695
Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.