Full metadata record
DC poleHodnotaJazyk
dc.contributor.advisorSteinberger Josef, Doc. Ing. Ph.D.
dc.contributor.authorKopal, Petr
dc.contributor.refereePřibáň Pavel, Ing.
dc.date.accepted2019-9-10
dc.date.accessioned2020-08-24T11:42:38Z-
dc.date.available2018-9-10
dc.date.available2020-08-24T11:42:38Z-
dc.date.issued2019
dc.date.submitted2019-6-26
dc.identifier79562
dc.identifier.urihttp://hdl.handle.net/11025/39194
dc.description.abstractCílem této diplomové práce bylo prozkoumat možnosti metod pro výpočet podobnosti textů napříč jazyky. Následně na základě těchto poznatků navrhnout systém, který bude schopen propojit tematicky podobné zpravodajské články v různých jazycích. Pro získání příznakových vektorů byly kromě společných entit a Eurovoc deskriptorů použity sémantické distribuční modely natrénované na srovnatelném korpusu Wikipedie. Konkrétně šlo o metody CL-ESA, K-means a CL-LSA. Výsledné shluky byly vyhodnoceny evaluačními metrikami (zejména pak F-mírou a purity) a zdokumentovány v samostatné kapitole. Nejlepších výsledků bylo dosaženo metodou CL-LSA v kombinaci se společnými entitami.cs
dc.format70 s.cs
dc.format.mimetypeapplication/pdf
dc.language.isocscs
dc.publisherZápadočeská univerzita v Plznics
dc.relation.isreferencedbyhttps://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=79562-
dc.rightsPlný text práce je přístupný bez omezení.cs
dc.subjectvícejazyčná podobnost dokumentůcs
dc.subjectpropojování článkůcs
dc.subjectcl-lsacs
dc.subjectcl-esacs
dc.subjectk-meanscs
dc.subjectentitycs
dc.subjecteurovoccs
dc.subjectword embeddingscs
dc.subjectdistribuční sémantické modelycs
dc.subjectwikipedia korpuscs
dc.titlePropojení témat zpravodajských článků mezi jazykycs
dc.title.alternativeLinking similar news across languagesen
dc.typediplomová prácecs
dc.thesis.degree-nameIng.cs
dc.thesis.degree-levelNavazujícícs
dc.thesis.degree-grantorZápadočeská univerzita v Plzni. Fakulta aplikovaných vědcs
dc.thesis.degree-programInženýrská informatikacs
dc.description.resultObhájenocs
dc.rights.accessopenAccessen
dc.description.abstract-translatedThe goal of this master thesis was to research cross-lingual document similarity methods, which were used then to design a system for linking of similar news topics across languages. Except of the common entities and Eurovoc descriptors, word embeddings models (CL-ESA, K-means, CL-LSA) were used as the main source of feature vectors. All these word embeddings models were trained on the Wikipedia comparable corpus. The clustering results were evaluated using various metrics (notably F-measure and purity) and documented in a separate chapter. The best results were achieved using the CL-LSA method in combination with common entities features.en
dc.subject.translatedcross-lingual document similarityen
dc.subject.translatednews linkingen
dc.subject.translatedcl-lsaen
dc.subject.translatedcl-esaen
dc.subject.translatedk-meansen
dc.subject.translatedentityen
dc.subject.translatedeurovocen
dc.subject.translatedword embeddingsen
dc.subject.translatedwikipedia corpusen
Vyskytuje se v kolekcích:Diplomové práce / Theses (KIV)

Soubory připojené k záznamu:
Soubor Popis VelikostFormát 
Diplomka.pdfPlný text práce1,1 MBAdobe PDFZobrazit/otevřít
A16N0044Pposudek-op.pdfPosudek oponenta práce218,46 kBAdobe PDFZobrazit/otevřít
A16N0044Phodnoceni-ved.PDFPosudek vedoucího práce343,01 kBAdobe PDFZobrazit/otevřít
A16N0044Pobhajoba.PDFPrůběh obhajoby práce269,95 kBAdobe PDFZobrazit/otevřít


Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/39194

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.