Full metadata record
DC pole | Hodnota | Jazyk |
---|---|---|
dc.contributor.advisor | Sido Jakub, Ing. | |
dc.contributor.author | Seják, Michal | |
dc.contributor.referee | Flek Lucie, Prof. Dr. | |
dc.date.accepted | 2022-6-20 | |
dc.date.accessioned | 2022-07-18T22:33:53Z | - |
dc.date.available | 2021-9-10 | |
dc.date.available | 2022-07-18T22:33:53Z | - |
dc.date.issued | 2022 | |
dc.date.submitted | 2022-5-19 | |
dc.identifier | 89770 | |
dc.identifier.uri | http://hdl.handle.net/11025/49094 | - |
dc.description.abstract | Automatická sumarizace textu je důležitý úkol z oboru zpracování přirozeného jazyka s mnoha aplikacemi. V této práci se zaměřujeme na sumarizaci novinových článků. V práci představujeme nový sumarizační dataset vytvořený z článků ČTK. Na tomto datasetu jsme natrénovali některé z nejmodernějších modelů pro extraktivní sumarizaci s využitím neuronových sítí BERT a Longformer a zhodnotili je podle metrik ROUGE-N, ROUGE-L a BertScore. Z experimentů vyplývá, že nejlepší model dle BertScore je založený na předtrénovaném Longformeru (0.802), ale lze jej využít jen pokud je dopředu znám či zadán počet vět ve shrnutí. Pokud tato informace k dispozici není, nejlepším přístupem se jeví klasifikace jednotlivých vět s kontextem a pozičními metadaty pomocí předtrénovaného modelu BERT (0.79). | cs |
dc.format | 75 s. (101778 znaků) | |
dc.language.iso | en | |
dc.publisher | Západočeská univerzita v Plzni | |
dc.rights | Plný text práce je přístupný bez omezení | |
dc.subject | sumarizace | cs |
dc.subject | nlp | cs |
dc.subject | extraktivní | cs |
dc.subject | vícedokumentová | cs |
dc.subject | bert | cs |
dc.subject | czert | cs |
dc.subject | longformer | cs |
dc.title | Sumarizace novinových článků | cs |
dc.title.alternative | Summarization of News Articles | en |
dc.type | diplomová práce | |
dc.thesis.degree-name | Ing. | |
dc.thesis.degree-level | Navazující | |
dc.thesis.degree-grantor | Západočeská univerzita v Plzni. Fakulta aplikovaných věd | |
dc.thesis.degree-program | Inženýrská informatika | |
dc.description.result | Obhájeno | |
dc.description.abstract-translated | Automatic text summarization is an important NLP task with many applications. Our particular area of focus is summarization of news articles. We introduce a new Czech summarization dataset created from CNA articles. Using this dataset, we trained multiple state-of-the-art approaches for extractive summarization using the BERT and Longformer model architectures and evaluate them using ROUGE-N, ROUGE-L and BertScore. We found that a pretrained Czech Longformer is the best approach regarding BertScore (0.802), when the number of summary sentences is known. If it is unknown, we found that the best approach is sentence-wise classification with context and positional metadata using a pretrained Czech BERT (BertScore 0.79). | en |
dc.subject.translated | summarization | en |
dc.subject.translated | nlp | en |
dc.subject.translated | extractive | en |
dc.subject.translated | multi-document | en |
dc.subject.translated | bert | en |
dc.subject.translated | czert | en |
dc.subject.translated | longformer | en |
Vyskytuje se v kolekcích: | Diplomové práce / Theses (KIV) |
Soubory připojené k záznamu:
Soubor | Popis | Velikost | Formát | |
---|---|---|---|---|
masters.pdf | Plný text práce | 1,44 MB | Adobe PDF | Zobrazit/otevřít |
A20N0106Phodnoceni-ved.pdf | Posudek vedoucího práce | 119 kB | Adobe PDF | Zobrazit/otevřít |
A20N0106Pposudek-op.pdf | Posudek oponenta práce | 1,25 MB | Adobe PDF | Zobrazit/otevřít |
A20N0106Pobhajoba.pdf | Průběh obhajoby práce | 552,7 kB | Adobe PDF | Zobrazit/otevřít |
Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam:
http://hdl.handle.net/11025/49094
Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.