Full metadata record
DC pole | Hodnota | Jazyk |
---|---|---|
dc.contributor.advisor | Steinberger Josef, Doc. Ing. Ph.D. | |
dc.contributor.author | Kopal, Petr | |
dc.contributor.referee | Přibáň Pavel, Ing. | |
dc.date.accepted | 2019-9-10 | |
dc.date.accessioned | 2020-08-24T11:42:38Z | - |
dc.date.available | 2018-9-10 | |
dc.date.available | 2020-08-24T11:42:38Z | - |
dc.date.issued | 2019 | |
dc.date.submitted | 2019-6-26 | |
dc.identifier | 79562 | |
dc.identifier.uri | http://hdl.handle.net/11025/39194 | |
dc.description.abstract | Cílem této diplomové práce bylo prozkoumat možnosti metod pro výpočet podobnosti textů napříč jazyky. Následně na základě těchto poznatků navrhnout systém, který bude schopen propojit tematicky podobné zpravodajské články v různých jazycích. Pro získání příznakových vektorů byly kromě společných entit a Eurovoc deskriptorů použity sémantické distribuční modely natrénované na srovnatelném korpusu Wikipedie. Konkrétně šlo o metody CL-ESA, K-means a CL-LSA. Výsledné shluky byly vyhodnoceny evaluačními metrikami (zejména pak F-mírou a purity) a zdokumentovány v samostatné kapitole. Nejlepších výsledků bylo dosaženo metodou CL-LSA v kombinaci se společnými entitami. | cs |
dc.format | 70 s. | cs |
dc.format.mimetype | application/pdf | |
dc.language.iso | cs | cs |
dc.publisher | Západočeská univerzita v Plzni | cs |
dc.relation.isreferencedby | https://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=79562 | - |
dc.rights | Plný text práce je přístupný bez omezení. | cs |
dc.subject | vícejazyčná podobnost dokumentů | cs |
dc.subject | propojování článků | cs |
dc.subject | cl-lsa | cs |
dc.subject | cl-esa | cs |
dc.subject | k-means | cs |
dc.subject | entity | cs |
dc.subject | eurovoc | cs |
dc.subject | word embeddings | cs |
dc.subject | distribuční sémantické modely | cs |
dc.subject | wikipedia korpus | cs |
dc.title | Propojení témat zpravodajských článků mezi jazyky | cs |
dc.title.alternative | Linking similar news across languages | en |
dc.type | diplomová práce | cs |
dc.thesis.degree-name | Ing. | cs |
dc.thesis.degree-level | Navazující | cs |
dc.thesis.degree-grantor | Západočeská univerzita v Plzni. Fakulta aplikovaných věd | cs |
dc.thesis.degree-program | Inženýrská informatika | cs |
dc.description.result | Obhájeno | cs |
dc.rights.access | openAccess | en |
dc.description.abstract-translated | The goal of this master thesis was to research cross-lingual document similarity methods, which were used then to design a system for linking of similar news topics across languages. Except of the common entities and Eurovoc descriptors, word embeddings models (CL-ESA, K-means, CL-LSA) were used as the main source of feature vectors. All these word embeddings models were trained on the Wikipedia comparable corpus. The clustering results were evaluated using various metrics (notably F-measure and purity) and documented in a separate chapter. The best results were achieved using the CL-LSA method in combination with common entities features. | en |
dc.subject.translated | cross-lingual document similarity | en |
dc.subject.translated | news linking | en |
dc.subject.translated | cl-lsa | en |
dc.subject.translated | cl-esa | en |
dc.subject.translated | k-means | en |
dc.subject.translated | entity | en |
dc.subject.translated | eurovoc | en |
dc.subject.translated | word embeddings | en |
dc.subject.translated | wikipedia corpus | en |
Vyskytuje se v kolekcích: | Diplomové práce / Theses (KIV) |
Soubory připojené k záznamu:
Soubor | Popis | Velikost | Formát | |
---|---|---|---|---|
Diplomka.pdf | Plný text práce | 1,1 MB | Adobe PDF | Zobrazit/otevřít |
A16N0044Pposudek-op.pdf | Posudek oponenta práce | 218,46 kB | Adobe PDF | Zobrazit/otevřít |
A16N0044Phodnoceni-ved.PDF | Posudek vedoucího práce | 343,01 kB | Adobe PDF | Zobrazit/otevřít |
A16N0044Pobhajoba.PDF | Průběh obhajoby práce | 269,95 kB | Adobe PDF | Zobrazit/otevřít |
Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam:
http://hdl.handle.net/11025/39194
Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.