Full metadata record
DC pole | Hodnota | Jazyk |
---|---|---|
dc.contributor.advisor | Mouček, Roman | |
dc.contributor.author | Brychcín, Tomáš | |
dc.date.accepted | 2015-05-18 | |
dc.date.accessioned | 2016-03-15T09:11:05Z | |
dc.date.available | 2010-09-01 | cs |
dc.date.available | 2016-03-15T09:11:05Z | |
dc.date.issued | 2015 | |
dc.date.submitted | 2015-03-09 | |
dc.identifier | 64856 | |
dc.identifier.uri | http://hdl.handle.net/11025/20648 | |
dc.description.abstract | Jazykové modely jsou důležitou součástí mnoha úloh ve zpracování přirozeného jazyka a n-gramy jsou pravděpodobně nejlepší způsob jak je vytvořit. Vylepšování n-gramových jazykových modelů bylo věnováno značné úsilí. Použitím externí informace (morfologie, syntaxe, apod.) v těchto modelech může dojít k výraznému vylepšení. Tyto modely však mohou být vylepšeny i bez externí informace a efektivnější vyhlazování je reprezentativní příklad takového vylepšení. Pokud pochopíme skryté vzory v neoznačkovaných korpusech, můžeme zvýšit kvalitu jazykového modelování pouze s informací, která je již v těchto korpusech přítomna. Tato práce se zabývá třemi různými směry odkrývání latentní informace. Globální sémantika je modelována pomocí Latentní Dirichletovy alokace a zahrnuje globální relace do jazykových modelů. Slovní třídy, získané pomocí sémantických prostorů, obohacují tyto jazykové modely o lokální sémantiku. Nakonec je použit náš vlastní stemovací algoritmus, založený na trénování bez učitele, který ještě navyšuje výkonnost jazykových modelů u flektivních jazyků. Náš výzkum ukazuje, že tyto tři zdroje informací se obohacují navzájem a že jejich kombinace vede ke dramatickému vylepšení jazykových modelů. Všechny zkoumané modely jsou trénované bez učitele. Ukazujeme účinnost našich modelů na několika jazycích různých typů, což prokazuje nezávislost na konkrétním jazyce. | cs |
dc.format | 141 s. | cs |
dc.format.mimetype | application/pdf | |
dc.language.iso | en | cs |
dc.publisher | Západočeská univerzita v Plzni | cs |
dc.rights | Plný text práce je přístupný bez omezení. | cs |
dc.subject | jazykový model | cs |
dc.subject | distribuční sémantika | cs |
dc.subject | flektivní jazyky | cs |
dc.title | Distribuční sémantika v jazykovém modelování | cs |
dc.title.alternative | Distributional Semantics in Language Modeling | en |
dc.type | disertační práce | cs |
dc.thesis.degree-name | Ph.D. | cs |
dc.thesis.degree-level | Doktorský | cs |
dc.thesis.degree-grantor | Západočeská univerzita v Plzni. Fakulta aplikovaných věd | cs |
dc.thesis.degree-program | Inženýrská informatika | cs |
dc.description.result | Obhájeno | cs |
dc.rights.access | openAccess | en |
dc.description.abstract-translated | Language models are crucial for many tasks in natural language processing and n-grams are probably the best way to build them. Huge effort is being invested in improving the n-gram language models. By introducing external knowledge (morphology, syntax, etc.) into the models, a significant improvement can be achieved. The models can, however, be improved without external knowledge and the better smoothing is an excellent example of such improvement. By discovering hidden patterns in unlabeled training corpora, we can enhance the language modeling with the information that is already present in the corpora. This thesis studies three different ways of latent information discovery. Global semantics is modeled by latent Dirichlet allocation and brings long-range dependencies into language models. Word clusters given by semantic spaces enrich these language models with short-range semantics. Finally, our own unsupervised stemming algorithm is used to further enhance the performance of language modeling for inflectional languages. Our research shows that these three sources of information enrich each other and their combination dramatically improves language modeling. All investigated models are acquired in a fully unsupervised manner. We show the efficiency of our methods for several languages within different language families, proving their multilingual properties. | en |
dc.title.other | Distribuční sémantika v jazykovém modelování | cs |
dc.subject.translated | language model | en |
dc.subject.translated | distributional semantics | en |
dc.subject.translated | inflectional languages | en |
Vyskytuje se v kolekcích: | Disertační práce / Dissertations (KIV) |
Soubory připojené k záznamu:
Soubor | Popis | Velikost | Formát | |
---|---|---|---|---|
main.pdf | Plný text práce | 1,79 MB | Adobe PDF | Zobrazit/otevřít |
oponent-posudky-odp-brychcin.pdf | Posudek oponenta práce | 2,3 MB | Adobe PDF | Zobrazit/otevřít |
obhajoba-protokol-odp-brychcin.pdf | Průběh obhajoby práce | 910,1 kB | Adobe PDF | Zobrazit/otevřít |
Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam:
http://hdl.handle.net/11025/20648
Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.