Název: Propojení témat zpravodajských článků mezi jazyky
Další názvy: Linking similar news across languages
Autoři: Kopal, Petr
Vedoucí práce/školitel: Steinberger Josef, Doc. Ing. Ph.D.
Oponent: Přibáň Pavel, Ing.
Datum vydání: 2019
Nakladatel: Západočeská univerzita v Plzni
Typ dokumentu: diplomová práce
URI: http://hdl.handle.net/11025/39194
Klíčová slova: vícejazyčná podobnost dokumentů;propojování článků;cl-lsa;cl-esa;k-means;entity;eurovoc;word embeddings;distribuční sémantické modely;wikipedia korpus
Klíčová slova v dalším jazyce: cross-lingual document similarity;news linking;cl-lsa;cl-esa;k-means;entity;eurovoc;word embeddings;wikipedia corpus
Abstrakt: Cílem této diplomové práce bylo prozkoumat možnosti metod pro výpočet podobnosti textů napříč jazyky. Následně na základě těchto poznatků navrhnout systém, který bude schopen propojit tematicky podobné zpravodajské články v různých jazycích. Pro získání příznakových vektorů byly kromě společných entit a Eurovoc deskriptorů použity sémantické distribuční modely natrénované na srovnatelném korpusu Wikipedie. Konkrétně šlo o metody CL-ESA, K-means a CL-LSA. Výsledné shluky byly vyhodnoceny evaluačními metrikami (zejména pak F-mírou a purity) a zdokumentovány v samostatné kapitole. Nejlepších výsledků bylo dosaženo metodou CL-LSA v kombinaci se společnými entitami.
Abstrakt v dalším jazyce: The goal of this master thesis was to research cross-lingual document similarity methods, which were used then to design a system for linking of similar news topics across languages. Except of the common entities and Eurovoc descriptors, word embeddings models (CL-ESA, K-means, CL-LSA) were used as the main source of feature vectors. All these word embeddings models were trained on the Wikipedia comparable corpus. The clustering results were evaluated using various metrics (notably F-measure and purity) and documented in a separate chapter. The best results were achieved using the CL-LSA method in combination with common entities features.
Práva: Plný text práce je přístupný bez omezení.
Vyskytuje se v kolekcích:Diplomové práce / Theses (KIV)

Soubory připojené k záznamu:
Soubor Popis VelikostFormát 
Diplomka.pdfPlný text práce1,1 MBAdobe PDFZobrazit/otevřít
A16N0044Pposudek-op.pdfPosudek oponenta práce218,46 kBAdobe PDFZobrazit/otevřít
A16N0044Phodnoceni-ved.PDFPosudek vedoucího práce343,01 kBAdobe PDFZobrazit/otevřít
A16N0044Pobhajoba.PDFPrůběh obhajoby práce269,95 kBAdobe PDFZobrazit/otevřít


Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/39194

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.