Propojení témat zpravodajských článků mezi jazyky

Kopal, Petr

Full metadata record

DC pole	Hodnota	Jazyk
dc.contributor.advisor	Steinberger Josef, Doc. Ing. Ph.D.
dc.contributor.author	Kopal, Petr
dc.contributor.referee	Přibáň Pavel, Ing.
dc.date.accepted	2019-9-10
dc.date.accessioned	2020-08-24T11:42:38Z	-
dc.date.available	2018-9-10
dc.date.available	2020-08-24T11:42:38Z	-
dc.date.issued	2019
dc.date.submitted	2019-6-26
dc.identifier	79562
dc.identifier.uri	http://hdl.handle.net/11025/39194
dc.description.abstract	Cílem této diplomové práce bylo prozkoumat možnosti metod pro výpočet podobnosti textů napříč jazyky. Následně na základě těchto poznatků navrhnout systém, který bude schopen propojit tematicky podobné zpravodajské články v různých jazycích. Pro získání příznakových vektorů byly kromě společných entit a Eurovoc deskriptorů použity sémantické distribuční modely natrénované na srovnatelném korpusu Wikipedie. Konkrétně šlo o metody CL-ESA, K-means a CL-LSA. Výsledné shluky byly vyhodnoceny evaluačními metrikami (zejména pak F-mírou a purity) a zdokumentovány v samostatné kapitole. Nejlepších výsledků bylo dosaženo metodou CL-LSA v kombinaci se společnými entitami.	cs
dc.format	70 s.	cs
dc.format.mimetype	application/pdf
dc.language.iso	cs	cs
dc.publisher	Západočeská univerzita v Plzni	cs
dc.relation.isreferencedby	https://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=79562	-
dc.rights	Plný text práce je přístupný bez omezení.	cs
dc.subject	vícejazyčná podobnost dokumentů	cs
dc.subject	propojování článků	cs
dc.subject	cl-lsa	cs
dc.subject	cl-esa	cs
dc.subject	k-means	cs
dc.subject	entity	cs
dc.subject	eurovoc	cs
dc.subject	word embeddings	cs
dc.subject	distribuční sémantické modely	cs
dc.subject	wikipedia korpus	cs
dc.title	Propojení témat zpravodajských článků mezi jazyky	cs
dc.title.alternative	Linking similar news across languages	en
dc.type	diplomová práce	cs
dc.thesis.degree-name	Ing.	cs
dc.thesis.degree-level	Navazující	cs
dc.thesis.degree-grantor	Západočeská univerzita v Plzni. Fakulta aplikovaných věd	cs
dc.thesis.degree-program	Inženýrská informatika	cs
dc.description.result	Obhájeno	cs
dc.rights.access	openAccess	en
dc.description.abstract-translated	The goal of this master thesis was to research cross-lingual document similarity methods, which were used then to design a system for linking of similar news topics across languages. Except of the common entities and Eurovoc descriptors, word embeddings models (CL-ESA, K-means, CL-LSA) were used as the main source of feature vectors. All these word embeddings models were trained on the Wikipedia comparable corpus. The clustering results were evaluated using various metrics (notably F-measure and purity) and documented in a separate chapter. The best results were achieved using the CL-LSA method in combination with common entities features.	en
dc.subject.translated	cross-lingual document similarity	en
dc.subject.translated	news linking	en
dc.subject.translated	cl-lsa	en
dc.subject.translated	cl-esa	en
dc.subject.translated	k-means	en
dc.subject.translated	entity	en
dc.subject.translated	eurovoc	en
dc.subject.translated	word embeddings	en
dc.subject.translated	wikipedia corpus	en
Vyskytuje se v kolekcích:	Diplomové práce / Theses (KIV)

Soubory připojené k záznamu:

Soubor	Popis	Velikost	Formát
Diplomka.pdf	Plný text práce	1,1 MB	Adobe PDF	Zobrazit/otevřít
A16N0044Pposudek-op.pdf	Posudek oponenta práce	218,46 kB	Adobe PDF	Zobrazit/otevřít
A16N0044Phodnoceni-ved.PDF	Posudek vedoucího práce	343,01 kB	Adobe PDF	Zobrazit/otevřít
A16N0044Pobhajoba.PDF	Průběh obhajoby práce	269,95 kB	Adobe PDF	Zobrazit/otevřít

Zobrazit minimální záznam Zobrazit statistiky

Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/39194

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání

navigace