Title: Čtení textů pomocí metod hlubokého učení
Other Titles: Optical character recognition using deep learning
Authors: Andrlík, Pavel
Advisor: Hrúz Marek, Ing. Ph.D.
Referee: Soukup Lukáš, Ing.
Issue Date: 2022
Publisher: Západočeská univerzita v Plzni
Document type: diplomová práce
URI: http://hdl.handle.net/11025/48953
Keywords: neuronová síť;optické rozpoznávání znaků;detektor textu ve scéně;hluboké učení;generování dat
Keywords in different language: neural network;optical character recognition;scene text detector;deep learning;data generating
Abstract: Tato diplomová práce pojednává o problému optického rozpoznávání znaků při použití neuronových sítí. Zaměřuji se na zlepšení detekce a rozpoznávání textu pomocí dotrénování E2E-MLT scénového detektoru textu tak, že ho trénuji na umělých datech, která napodobují reálná data. Model byl dotrénováván na několika datasetech obsahujících uměle generovaná a reálná data, poté byly vybrány nejlepší modely a otestovány na jednom umělém a dvou reálných datasetech, jeden s převahou divokého textu, druhý s většinou textu vtištěného televizním zpravodajstvím. Na datasetu s většinout digitálně vložených textů bylo dosaženo zlepšení snížením chybovosti znaků z 52\% na 31.6\% a chybovosti slov z 56.5\% na 22\%. Během experimentů bylo také zjištěno, že trénování modelů na umělých datech simulující skutečné obrázky ze zpravodajství zhoršuje schopnost sítě detekovat a číst reálné divoké texty.
Abstract in different language: This diploma thesis deals with the problem of optical character recognition (OCR) using neural networks. I am focusing on improving text detection and OCR by fine-tuning an E2E-MLT scene text detector by training it on synthetic data which emulates real data. The model was fine-tuned on several datasets with synthetically generated data and real data, then the models were tested on one synthetic and two real datasets, one with the majority of the wild text, the second with the majority of TV news imprinted text. On the dataset with majority of TV news imprinted texts the fine-tuned models achieved improvement by decreasing character error rate from 52\% to 31.6\% word error rate and from 56.5\% to 22\%. It was also experimentally discovered that training models on synthetic data simulating real TV news images deteriorate detection and reading model capability on wild text data.
Rights: Plný text práce je přístupný bez omezení
Appears in Collections:Diplomové práce / Theses (KKY)

Files in This Item:
File Description SizeFormat 
Thesis___Pavel_Andrlik.pdfPlný text práce8,17 MBAdobe PDFView/Open
Andrlik_V.pdfPosudek vedoucího práce492,11 kBAdobe PDFView/Open
Andrlik_O.pdfPosudek oponenta práce472,13 kBAdobe PDFView/Open
Andrlik_P.pdfPrůběh obhajoby práce237,5 kBAdobe PDFView/Open


Please use this identifier to cite or link to this item: http://hdl.handle.net/11025/48953

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.