Title: | Propojení témat zpravodajských článků mezi jazyky |
Other Titles: | Linking similar news across languages |
Authors: | Kopal, Petr |
Advisor: | Steinberger Josef, Doc. Ing. Ph.D. |
Referee: | Přibáň Pavel, Ing. |
Issue Date: | 2019 |
Publisher: | Západočeská univerzita v Plzni |
Document type: | diplomová práce |
URI: | http://hdl.handle.net/11025/39194 |
Keywords: | vícejazyčná podobnost dokumentů;propojování článků;cl-lsa;cl-esa;k-means;entity;eurovoc;word embeddings;distribuční sémantické modely;wikipedia korpus |
Keywords in different language: | cross-lingual document similarity;news linking;cl-lsa;cl-esa;k-means;entity;eurovoc;word embeddings;wikipedia corpus |
Abstract: | Cílem této diplomové práce bylo prozkoumat možnosti metod pro výpočet podobnosti textů napříč jazyky. Následně na základě těchto poznatků navrhnout systém, který bude schopen propojit tematicky podobné zpravodajské články v různých jazycích. Pro získání příznakových vektorů byly kromě společných entit a Eurovoc deskriptorů použity sémantické distribuční modely natrénované na srovnatelném korpusu Wikipedie. Konkrétně šlo o metody CL-ESA, K-means a CL-LSA. Výsledné shluky byly vyhodnoceny evaluačními metrikami (zejména pak F-mírou a purity) a zdokumentovány v samostatné kapitole. Nejlepších výsledků bylo dosaženo metodou CL-LSA v kombinaci se společnými entitami. |
Abstract in different language: | The goal of this master thesis was to research cross-lingual document similarity methods, which were used then to design a system for linking of similar news topics across languages. Except of the common entities and Eurovoc descriptors, word embeddings models (CL-ESA, K-means, CL-LSA) were used as the main source of feature vectors. All these word embeddings models were trained on the Wikipedia comparable corpus. The clustering results were evaluated using various metrics (notably F-measure and purity) and documented in a separate chapter. The best results were achieved using the CL-LSA method in combination with common entities features. |
Rights: | Plný text práce je přístupný bez omezení. |
Appears in Collections: | Diplomové práce / Theses (KIV) |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Diplomka.pdf | Plný text práce | 1,1 MB | Adobe PDF | View/Open |
A16N0044Pposudek-op.pdf | Posudek oponenta práce | 218,46 kB | Adobe PDF | View/Open |
A16N0044Phodnoceni-ved.PDF | Posudek vedoucího práce | 343,01 kB | Adobe PDF | View/Open |
A16N0044Pobhajoba.PDF | Průběh obhajoby práce | 269,95 kB | Adobe PDF | View/Open |
Please use this identifier to cite or link to this item:
http://hdl.handle.net/11025/39194
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.