Název: Automatické odezírání ze rtů pomocí LipsID
Další názvy: Automated lipreading using LipsID
Autoři: Hlaváč, Miroslav
Datum vydání: 2019
Nakladatel: Západočeská univerzita v Plzni
Typ dokumentu: disertační práce
URI: http://hdl.handle.net/11025/39247
Klíčová slova: odezírání ze rtů;strojové učení;neuronové sítě;vizuální příznaky;rozpoznávání řeči
Klíčová slova v dalším jazyce: lipreading;machine learning;neural networks;visual features;speech recognition
Abstrakt: Cílem této práce je vytvoření nových vizuálních příznaků pro systémy automatického odezírání ze rtů. Metody současného stavu poznání (především metody strojového učení) nevyužívají při svém trénování možnosti adaptace na konkrétního řečníka. Vyvstává tedy otázka, jak tuto metodu adaptace přizpůsobit pro oblast rozpoznávání vizuální řeči a jak ji implementovat do současných algoritmů pro strojové odezírání ze rtů. Pomocí analýzy současného stavu poznání v oblasti vizuálních příznaků pro rozpoznávání řeči navrhujeme novou parametrizaci LipsID a metodu pro její získání. Ukazujeme, že adaptací současných systému (založených na neuronových sítích) navrženou metodou LipsID se dá dosáhnout vyšší přesnosti rozpoznávání vizuální řeči. Význam této práce spočívá v prokázání významnosti příznaků založených na identitě řečníka pro automatické metody odezírání ze rtů.
Abstrakt v dalším jazyce: The aim of this is thesis is the creation of new visual features for the automatic lipreading systems. State-of-the-art methods (mainly machine learning methods) are not using any form of adaptation for a specific speaker during their training. We ask, how to adapt this method for the purpose of visual speech recognition and how to implement it into the current lipreading methods. Using the analysis of state-of-the-art methods for visual speech feature extraction we propose a new set of features LipsID and the method for extracting them. We show that by adapting the current system (based on neural networks) by the proposed LipsID features a higher recognition rate of the speech can be achieved. The significance of this work is in showing the importance of features based on the speaker identity for the task of lipreading.
Práva: Plný text práce je přístupný bez omezení.
Vyskytuje se v kolekcích:Disertační práce / Dissertations (KKY)

Soubory připojené k záznamu:
Soubor Popis VelikostFormát 
Hlavac_PhD_Thesis.pdfPlný text práce9,31 MBAdobe PDFZobrazit/otevřít
posudek-odp-hlavac.pdfPosudek oponenta práce300,45 kBAdobe PDFZobrazit/otevřít
protokol-odp-hlavac.pdfPrůběh obhajoby práce784,84 kBAdobe PDFZobrazit/otevřít


Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/39247

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.