Full metadata record
DC FieldValueLanguage
dc.contributor.authorGruber, Ivan
dc.contributor.authorIrcing, Pavel
dc.contributor.authorNeduchal, Petr
dc.contributor.authorHrúz, Marek
dc.contributor.authorHlaváč, Miroslav
dc.contributor.authorZajíc, Zbyněk
dc.contributor.authorŠvec, Jan
dc.contributor.authorBulín, Martin
dc.date.accessioned2021-02-22T11:00:21Z-
dc.date.available2021-02-22T11:00:21Z-
dc.date.issued2020
dc.identifier.citationGRUBER, I., IRCING, P., NEDUCHAL, P., HRÚZ, M., HLAVÁČ, M., ZAJÍC, Z., ŠVEC, J., BULÍN, M. An Automated Pipeline for Robust Image Processing and Optical Character Recognition of Historical Documents. In: Speech and Computer, 22nd International Conference, SPECOM 2019, St. Petersburg, Russia, October 7-9,2020, Proceedings. Cham: Springer, 2020. s. 166-175. ISBN 978-3-030-60275-8, ISSN 0302-9743.cs
dc.identifier.isbn978-3-030-60275-8
dc.identifier.issn0302-9743
dc.identifier.uri2-s2.0-85092909562
dc.identifier.urihttp://hdl.handle.net/11025/42719
dc.description.abstractV tomto článku presentujeme proces předzpracování naskenovaných historických dokumentů do elektronické textové formy, která může poté být zindexována a uložena do databáze. Povaha dokumentů představuje velkou výzvu pro standardní automatizované techniky. Nejenže se jedná o kombinaci ručně psaných dokumentů a dokumentů psaných na stroji, ale dramaticky se liší i jejich kvalita a jednotlivé skeny často obsahují více než jen jednu stránku. Navíc, jazyk jednotlivých dokumentů se střídá převážně mezi ruštinou a ukrajinštinou, nicméně se v dokumentech vyskytují i úplně jiné jazyky. Tento článek se zaměřuje na segmentaci, klasifikaci typu dokumentu, a celkové předzpracování dokumentů. Nad výstupem těchto metod je pak otestován standardní OCR software a jeho úspěšnost je vyhodnocena na velmi jednoduché baseline úloze.cs
dc.format10 s.cs
dc.format.mimetypeapplication/pdf
dc.language.isoenen
dc.publisherSpringeren
dc.relation.ispartofseriesSpeech and Computer, 22nd International Conference, SPECOM 2019, St. Petersburg, Russia, October 7-9,2020, Proceedingsen
dc.rightsPlný text není přístupný.cs
dc.rights© Springeren
dc.subjectOCR, Klasifikace dokumentů, Digitalizace dokumentůcs
dc.titleAn Automated Pipeline for Robust Image Processing and Optical Character Recognition of Historical Documentsen
dc.title.alternativeAutomatizovaný proces pro robustní zpracování a optické rozpoznávání znaků historických dokumentůcs
dc.typekonferenční příspěvekcs
dc.typeconferenceObjecten
dc.rights.accessclosedAccessen
dc.type.versionpublishedVersionen
dc.description.abstract-translatedIn this paper, we propose a pipeline for processing of scanned historical documents into the electronic text form that could then be indexed and stored in a database. The nature of the documents presents a substantial challenge for standard automated techniques — not only there is a mix of typewritten and handwritten documents of varying quality but the scanned pages often contain multiple documents at once. Moreover, the language of the texts alternates mostly between Russian and Ukrainian but other languages also occur. The paper focuses mainly on segmentation, document type classification, and image preprocessing of the scanned documents; the output of those methods is then passed to the off-the-shelf OCR software and a baseline performance is evaluated on a simplified OCR task.en
dc.subject.translatedOCR, Document classification, Document digitizationen
dc.identifier.doi10.1007/978-3-030-60276-5_17
dc.type.statusPeer-revieweden
dc.identifier.obd43930663
dc.project.IDDG20P02OVV018/Digitální archiv dokumentů NKVD/KGB vztahujících se k Československucs
dc.project.IDLM2015042/E-infrastruktura CESNETcs
dc.project.ID90042/Velká výzkumná infrastruktura povinnost (J) - CESNET IIcs
Appears in Collections:Konferenční příspěvky / Conference papers (NTIS)
Konferenční příspěvky / Conference Papers (KKY)
OBD

Files in This Item:
File SizeFormat 
Gruber2020_Chapter_AnAutomatedPipelineForRobustIm.pdf2,67 MBAdobe PDFView/Open    Request a copy


Please use this identifier to cite or link to this item: http://hdl.handle.net/11025/42719

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

search
navigation
  1. DSpace at University of West Bohemia
  2. Publikační činnost / Publications
  3. OBD