Název: Automatická identifikace revizí textových dokumentů
Další názvy: Automated Identification of Revisions of Text Documents
Autoři: Kupilík, Filip
Vedoucí práce/školitel: Konopík Miloslav, Ing. Ph.D.
Oponent: Král Pavel, Doc. Ing. Ph.D.
Datum vydání: 2017
Nakladatel: Západočeská univerzita v Plzni
Typ dokumentu: bakalářská práce
URI: http://hdl.handle.net/11025/27699
Klíčová slova: revize;duplikáty;apache lucene;vyhledávání informací;vektorový model;kullback-leiblerova divergence;rozpoznávání pojmenovaných entit
Klíčová slova v dalším jazyce: revision;duplicates;apache lucene;information retrieval;vector space model;kullback-leibler divergence;named-entity recognition
Abstrakt: Cílem této práce je navrhnout, vytvořit a otestovat algoritmus pro identifi- kaci revizí v množině textových dokumentů. V první části práce jsou zmapo- vány současné přístupy ve vyhledávání dokumentů a popsány stávající algo- ritmy pro identifikaci podobných dokumentů. Druhá část se zabývá návrhem a implementací algoritmu zaměřeného na detekci revizí, jehož úspěšnost je ověřena na vytvořené kolekci testovacích dokumentů. Výsledky získané z provedených experimentů jsou porovnány s výsledky vybraných stávajících algoritmů.
Abstrakt v dalším jazyce: The goal of the thesis is to design, create and test an algorithm which iden- tifies the revisions of test documents. The first part of the thesis is focused on analysing current approaches to document searching and a identification of highly similar documents (near-duplicates). The second part deals with a design and an implementation of a new algorithm. The efficiency of the algorithm is verified on a set of test documents. The tests results are com- pared with the results of the experiments which were done with the selected existing algorithms.
Práva: Plný text práce je přístupný bez omezení.
Vyskytuje se v kolekcích:Bakalářské práce / Bachelor´s works (KIV)

Soubory připojené k záznamu:
Soubor Popis VelikostFormát 
bakalarka.pdfPlný text práce532,26 kBAdobe PDFZobrazit/otevřít
A14B0296P-hodnoceni.pdfPosudek vedoucího práce620,39 kBAdobe PDFZobrazit/otevřít
A14B0296P-posudek.pdfPosudek oponenta práce435,01 kBAdobe PDFZobrazit/otevřít
A14B0296P-obhajoba.pdfPrůběh obhajoby práce200,48 kBAdobe PDFZobrazit/otevřít


Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/27699

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.