Název: | Automatická identifikace revizí textových dokumentů |
Další názvy: | Automated Identification of Revisions of Text Documents |
Autoři: | Kupilík, Filip |
Vedoucí práce/školitel: | Konopík Miloslav, Ing. Ph.D. |
Oponent: | Král Pavel, Doc. Ing. Ph.D. |
Datum vydání: | 2017 |
Nakladatel: | Západočeská univerzita v Plzni |
Typ dokumentu: | bakalářská práce |
URI: | http://hdl.handle.net/11025/27699 |
Klíčová slova: | revize;duplikáty;apache lucene;vyhledávání informací;vektorový model;kullback-leiblerova divergence;rozpoznávání pojmenovaných entit |
Klíčová slova v dalším jazyce: | revision;duplicates;apache lucene;information retrieval;vector space model;kullback-leibler divergence;named-entity recognition |
Abstrakt: | Cílem této práce je navrhnout, vytvořit a otestovat algoritmus pro identifi- kaci revizí v množině textových dokumentů. V první části práce jsou zmapo- vány současné přístupy ve vyhledávání dokumentů a popsány stávající algo- ritmy pro identifikaci podobných dokumentů. Druhá část se zabývá návrhem a implementací algoritmu zaměřeného na detekci revizí, jehož úspěšnost je ověřena na vytvořené kolekci testovacích dokumentů. Výsledky získané z provedených experimentů jsou porovnány s výsledky vybraných stávajících algoritmů. |
Abstrakt v dalším jazyce: | The goal of the thesis is to design, create and test an algorithm which iden- tifies the revisions of test documents. The first part of the thesis is focused on analysing current approaches to document searching and a identification of highly similar documents (near-duplicates). The second part deals with a design and an implementation of a new algorithm. The efficiency of the algorithm is verified on a set of test documents. The tests results are com- pared with the results of the experiments which were done with the selected existing algorithms. |
Práva: | Plný text práce je přístupný bez omezení. |
Vyskytuje se v kolekcích: | Bakalářské práce / Bachelor´s works (KIV) |
Soubory připojené k záznamu:
Soubor | Popis | Velikost | Formát | |
---|---|---|---|---|
bakalarka.pdf | Plný text práce | 532,26 kB | Adobe PDF | Zobrazit/otevřít |
A14B0296P-hodnoceni.pdf | Posudek vedoucího práce | 620,39 kB | Adobe PDF | Zobrazit/otevřít |
A14B0296P-posudek.pdf | Posudek oponenta práce | 435,01 kB | Adobe PDF | Zobrazit/otevřít |
A14B0296P-obhajoba.pdf | Průběh obhajoby práce | 200,48 kB | Adobe PDF | Zobrazit/otevřít |
Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam:
http://hdl.handle.net/11025/27699
Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.