Sumarizace novinových článků

Seják, Michal

Full metadata record

DC pole	Hodnota	Jazyk
dc.contributor.advisor	Sido Jakub, Ing.
dc.contributor.author	Seják, Michal
dc.contributor.referee	Flek Lucie, Prof. Dr.
dc.date.accepted	2022-6-20
dc.date.accessioned	2022-07-18T22:33:53Z	-
dc.date.available	2021-9-10
dc.date.available	2022-07-18T22:33:53Z	-
dc.date.issued	2022
dc.date.submitted	2022-5-19
dc.identifier	89770
dc.identifier.uri	http://hdl.handle.net/11025/49094	-
dc.description.abstract	Automatická sumarizace textu je důležitý úkol z oboru zpracování přirozeného jazyka s mnoha aplikacemi. V této práci se zaměřujeme na sumarizaci novinových článků. V práci představujeme nový sumarizační dataset vytvořený z článků ČTK. Na tomto datasetu jsme natrénovali některé z nejmodernějších modelů pro extraktivní sumarizaci s využitím neuronových sítí BERT a Longformer a zhodnotili je podle metrik ROUGE-N, ROUGE-L a BertScore. Z experimentů vyplývá, že nejlepší model dle BertScore je založený na předtrénovaném Longformeru (0.802), ale lze jej využít jen pokud je dopředu znám či zadán počet vět ve shrnutí. Pokud tato informace k dispozici není, nejlepším přístupem se jeví klasifikace jednotlivých vět s kontextem a pozičními metadaty pomocí předtrénovaného modelu BERT (0.79).	cs
dc.format	75 s. (101778 znaků)
dc.language.iso	en
dc.publisher	Západočeská univerzita v Plzni
dc.relation.isreferencedby	https://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=89770	-
dc.rights	Plný text práce je přístupný bez omezení
dc.subject	sumarizace	cs
dc.subject	nlp	cs
dc.subject	extraktivní	cs
dc.subject	vícedokumentová	cs
dc.subject	bert	cs
dc.subject	czert	cs
dc.subject	longformer	cs
dc.title	Sumarizace novinových článků	cs
dc.title.alternative	Summarization of News Articles	en
dc.type	diplomová práce
dc.thesis.degree-name	Ing.
dc.thesis.degree-level	Navazující
dc.thesis.degree-grantor	Západočeská univerzita v Plzni. Fakulta aplikovaných věd
dc.thesis.degree-program	Inženýrská informatika
dc.description.result	Obhájeno
dc.description.abstract-translated	Automatic text summarization is an important NLP task with many applications. Our particular area of focus is summarization of news articles. We introduce a new Czech summarization dataset created from CNA articles. Using this dataset, we trained multiple state-of-the-art approaches for extractive summarization using the BERT and Longformer model architectures and evaluate them using ROUGE-N, ROUGE-L and BertScore. We found that a pretrained Czech Longformer is the best approach regarding BertScore (0.802), when the number of summary sentences is known. If it is unknown, we found that the best approach is sentence-wise classification with context and positional metadata using a pretrained Czech BERT (BertScore 0.79).	en
dc.subject.translated	summarization	en
dc.subject.translated	nlp	en
dc.subject.translated	extractive	en
dc.subject.translated	multi-document	en
dc.subject.translated	bert	en
dc.subject.translated	czert	en
dc.subject.translated	longformer	en
Vyskytuje se v kolekcích:	Diplomové práce / Theses (KIV)

Soubory připojené k záznamu:

Soubor	Popis	Velikost	Formát
masters.pdf	Plný text práce	1,44 MB	Adobe PDF	Zobrazit/otevřít
A20N0106Phodnoceni-ved.pdf	Posudek vedoucího práce	119 kB	Adobe PDF	Zobrazit/otevřít
A20N0106Pposudek-op.pdf	Posudek oponenta práce	1,25 MB	Adobe PDF	Zobrazit/otevřít
A20N0106Pobhajoba.pdf	Průběh obhajoby práce	552,7 kB	Adobe PDF	Zobrazit/otevřít

Zobrazit minimální záznam Zobrazit statistiky

Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/49094

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání

navigace