Title: Propojení témat zpravodajských článků mezi jazyky
Other Titles: Linking similar news across languages
Authors: Kopal, Petr
Advisor: Steinberger Josef, Doc. Ing. Ph.D.
Referee: Přibáň Pavel, Ing.
Issue Date: 2019
Publisher: Západočeská univerzita v Plzni
Document type: diplomová práce
URI: http://hdl.handle.net/11025/39194
Keywords: vícejazyčná podobnost dokumentů;propojování článků;cl-lsa;cl-esa;k-means;entity;eurovoc;word embeddings;distribuční sémantické modely;wikipedia korpus
Keywords in different language: cross-lingual document similarity;news linking;cl-lsa;cl-esa;k-means;entity;eurovoc;word embeddings;wikipedia corpus
Abstract: Cílem této diplomové práce bylo prozkoumat možnosti metod pro výpočet podobnosti textů napříč jazyky. Následně na základě těchto poznatků navrhnout systém, který bude schopen propojit tematicky podobné zpravodajské články v různých jazycích. Pro získání příznakových vektorů byly kromě společných entit a Eurovoc deskriptorů použity sémantické distribuční modely natrénované na srovnatelném korpusu Wikipedie. Konkrétně šlo o metody CL-ESA, K-means a CL-LSA. Výsledné shluky byly vyhodnoceny evaluačními metrikami (zejména pak F-mírou a purity) a zdokumentovány v samostatné kapitole. Nejlepších výsledků bylo dosaženo metodou CL-LSA v kombinaci se společnými entitami.
Abstract in different language: The goal of this master thesis was to research cross-lingual document similarity methods, which were used then to design a system for linking of similar news topics across languages. Except of the common entities and Eurovoc descriptors, word embeddings models (CL-ESA, K-means, CL-LSA) were used as the main source of feature vectors. All these word embeddings models were trained on the Wikipedia comparable corpus. The clustering results were evaluated using various metrics (notably F-measure and purity) and documented in a separate chapter. The best results were achieved using the CL-LSA method in combination with common entities features.
Rights: Plný text práce je přístupný bez omezení.
Appears in Collections:Diplomové práce / Theses (KIV)

Files in This Item:
File Description SizeFormat 
Diplomka.pdfPlný text práce1,1 MBAdobe PDFView/Open
A16N0044Pposudek-op.pdfPosudek oponenta práce218,46 kBAdobe PDFView/Open
A16N0044Phodnoceni-ved.PDFPosudek vedoucího práce343,01 kBAdobe PDFView/Open
A16N0044Pobhajoba.PDFPrůběh obhajoby práce269,95 kBAdobe PDFView/Open


Please use this identifier to cite or link to this item: http://hdl.handle.net/11025/39194

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.