Popis obrázků pomocí metod hlubokého učení

Železný, Tomáš

Název:	Popis obrázků pomocí metod hlubokého učení
Další názvy:	Image captioning using deep learning
Autoři:	Železný, Tomáš
Vedoucí práce/školitel:	Hrúz Marek, Ing. Ph.D.
Oponent:	Vyskočil Jiří, Ing.
Datum vydání:	2022
Nakladatel:	Západočeská univerzita v Plzni
Typ dokumentu:	diplomová práce
URI:	http://hdl.handle.net/11025/49563
Klíčová slova:	popis obrázků;hluboké učení;počítačové vidění;strojové učení;detekce objektů
Klíčová slova v dalším jazyce:	image captioning;deep learning;computer vision;machine learning;object detection
Abstrakt:	V této práci se zabývám technikou automatického popisu obrázků, založenou na existující metodě Oscar. Pomocí detekční sítě Faster-R-CNN vhodně předzpracovávám obrázky tak, aby mohly být dále použity metodou Oscar. Spojením těchto dvou metod vytvářím systém, který umožňuje vygenerování popisku pro libovolný obrázek. Tento systém je poté vyhodnocen na metrikách BLEU-4: 0.312, METEOR: 0.272, CIDEr: 1.02, a SPICE: 0.201, což je pokles oproti původním. V práci se tak dále zabývám důvody, které k tomu vedly. V rámci ablační studie se věnuji zkoumání závislosti jednotlivých modalit metody Oscar. Výsledky experimentu naznačují že Oscar je závislý na obou modalitách, vizuální modalita převažuje. V závěru práce diskutuji různé případy chování mého popisovacího systému, kdy měl generovat popisky k obrázkům s pro něj neznámými objekty.
Abstrakt v dalším jazyce:	In this work, I discuss an automatic image captioning technique based on an existing method Oscar. Using a Faster-R-CNN detection network, I pre-process the images so that they can be further used by Oscar. By combining these two methods, I create a pipeline that allows me to generate a caption for any image. I evaluate its performance using metrics BLEU-4: 0.312, METEOR: 0.272, CIDEr: 1.02, and SPICE: 0.201, which is a drop from the original performance. Thus, I further discuss the causes in this work. Within the ablation study, I investigate the impact of individual modalities of Oscar. The results of the experiment suggest that Oscar is dependent on both modalities, with the visual modality. In the end, I discuss the interesting cases of the behavior when the pipeline is supposed to generate captions for images with objects unknown to it.
Práva:	Plný text práce je přístupný bez omezení
Vyskytuje se v kolekcích:	Diplomové práce / Theses (KKY)

Soubory připojené k záznamu:

Soubor	Popis	Velikost	Formát
DP_Zelezny.pdf	Plný text práce	33,63 MB	Adobe PDF	Zobrazit/otevřít
Zelezny_V.pdf	Posudek vedoucího práce	456,3 kB	Adobe PDF	Zobrazit/otevřít
Zelezny_O.pdf	Posudek oponenta práce	471,39 kB	Adobe PDF	Zobrazit/otevřít
Zelezny_P.pdf	Průběh obhajoby práce	200,33 kB	Adobe PDF	Zobrazit/otevřít

Zobrazit celý záznam Zobrazit statistiky

Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/49563

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání

navigace