Automatické stahování smluvních podmínek z webových stránek

Bartička, Vojtěch

Full metadata record

DC pole	Hodnota	Jazyk
dc.contributor.advisor	Pražák Ondřej, Ing.
dc.contributor.author	Bartička, Vojtěch
dc.contributor.referee	Přibáň Pavel, Ing.
dc.date.accepted	2021-6-15
dc.date.accessioned	2021-06-25T12:33:23Z	-
dc.date.available	2020-10-5
dc.date.available	2021-06-25T12:33:23Z	-
dc.date.issued	2021
dc.date.submitted	2021-5-6
dc.identifier	86487
dc.identifier.uri	http://hdl.handle.net/11025/44238
dc.description.abstract	Práce se zabývá automatickým stahováním smluvních podmínek a zásad ochrany údajů z webových stránek. Je součástí většího projektu, který se zabývá analýzou obsahu těchto stránek a potřebuje pro ni trénovací dataset. Cílem je vytvořit aplikaci, která bude schopna tento dataset automaticky vytvořit. Jako základní řešení jsou použita pravidla založená na klíčových slovech. Toto řešení nám umožní získat dataset, pomocí kterého je vytvořena neuronová síť, která dále zlepšuje výsledky. Omezením kapacity sítě a zakrytím klíčových slov pak sítě dosahují zlepšení 6 až 9 % v f-míře, a až 71% snížení falešné pozitivity oproti klasifikaci pomocí klíčových slov.	cs
dc.format	55 s.	cs
dc.format.mimetype	application/pdf
dc.language.iso	cs	cs
dc.publisher	Západočeská univerzita v Plzni	cs
dc.rights	Plný text práce je přístupný bez omezení.	cs
dc.subject	zpracování přirozeného jazyka	cs
dc.subject	strojové učení	cs
dc.subject	sémantické reprezentace slov	cs
dc.subject	získávání informací	cs
dc.subject	klasifikace textu	cs
dc.subject	neuronové sítě	cs
dc.subject	fasttext	cs
dc.title	Automatické stahování smluvních podmínek z webových stránek	cs
dc.title.alternative	Automated scraping of licence agreements from websites	en
dc.type	bakalářská práce	cs
dc.thesis.degree-name	Bc.	cs
dc.thesis.degree-level	Bakalářský	cs
dc.thesis.degree-grantor	Západočeská univerzita v Plzni. Fakulta aplikovaných věd	cs
dc.thesis.degree-program	Inženýrská informatika	cs
dc.description.result	Obhájeno	cs
dc.rights.access	openAccess	en
dc.description.abstract-translated	The thesis deals with the automatic scraping of terms and conditions and privacy protection information from web pages. It's a part of a larger project which focuses on the analysis of such pages and requires a dataset to train the system on. The goal is to create an application, which will be able to automatically create this dataset. As a baseline solution, a keyword-based system is used. This system allows us to create a dataset, on which we can train a neural network, which further enhances the results. By limiting the capacity of the network and hiding the keywords the network achieves a 6 to 9% improvement in f-score and up to 71% reduction in false positivity compared to the keywords-based system.	en
dc.subject.translated	natural language processing	en
dc.subject.translated	machine learning	en
dc.subject.translated	semantic word representations	en
dc.subject.translated	information retrieval	en
dc.subject.translated	text classification	en
dc.subject.translated	neural networks	en
dc.subject.translated	fasttext	en
Vyskytuje se v kolekcích:	Bakalářské práce / Bachelor´s works (KIV)

Soubory připojené k záznamu:

Soubor	Popis	Velikost	Formát
prace.pdf	Plný text práce	641,32 kB	Adobe PDF	Zobrazit/otevřít
A18B0169P_Posudek.pdf	Posudek oponenta práce	251,46 kB	Adobe PDF	Zobrazit/otevřít
A18B0169P_Hodnoceni.pdf	Posudek vedoucího práce	234,93 kB	Adobe PDF	Zobrazit/otevřít
A18B0169P_Obhajoba.pdf	Průběh obhajoby práce	42,61 kB	Adobe PDF	Zobrazit/otevřít

Zobrazit minimální záznam Zobrazit statistiky

Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/44238

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání

navigace