Název: Vysokodimenzionální prostory a modelování v úloze rozpoznávání řečníka
Další názvy: High dimensional spaces and modelling in the task of speaker recognition
Autoři: Machlica, Lukáš
Vedoucí práce/školitel: Radová, Vlasta
Radová, Vlasta
Datum vydání: 2013
Nakladatel: Západočeská univerzita v Plzni
Typ dokumentu: disertační práce
URI: http://hdl.handle.net/11025/10777
Klíčová slova: model Gaussovských směsí;support vector machine;supervektor;faktorová analýza;redukce dimenze;rozpoznávání řečníka
Klíčová slova v dalším jazyce: Gaussian mixture models;support vector machine;supervector;factor analysis;dimensionality reduction;speaker recognition
Abstrakt: Během posledních dvou desetiletí bylo v úloze automatického rozpoznávání řečníka dosaženo výrazných pokroků. Byly nahrány obrovské řečové databáze obsahující tisíce řečníků mluvících na různých akustických kanálech. Zároveň byly vyvinuty metody, které se snaží z těchto dat extrahovat co nejvíce informací. Nejmodernější metody jsou založeny na modelech Gaussovských směsí. S jejich pomocí jsou z příznakových vektorů, extrahovaných z řečových dat řečníků, počítány statistiky. Tyto statistiky jsou následně zřetězeny/pospojovány do vysokorozměrných vektorů - supervektorů. Práce se zabývá podrobným popisem metod extrakce vysokodimenzionálních supervektorů společně s technikami jejich modelování. Hlavní důraz je kladen na analýzu těchto metod, jejich propojení, a protože je při trénování systému rozpoznávání řečníka potřeba zpracovat veliké množství vstupních dat, i na jejich efektivní implementaci. Je také experimentálně vyšetřen vliv dat pro trénování na kvalitu rozpoznávání.
Abstrakt v dalším jazyce: The automatic speaker recognition made a significant progress in the last two decades. Huge speech corpora containing thousands of speakers recorded on several channels are at hand, and methods utilizing as much information as possible were developed. Nowadays state-of-the-art methods are based on Gaussian mixture models used to estimate relevant statistics from feature vectors extracted from the speech of a speaker, which are further concatenated into a high dimensional vector - supervector. Methods concerning the extraction of high dimensional supervectors along with techniques capable to build a speaker model in such a high dimensional space are described in depth and links between these methods are found. The main emphasize is laid on the analysis of these methods and an efficient implementation in order to process huge amounts of development data to train the speaker recognition system. Also the influence of development corpora on the recognition performance is experimentally tested.
Práva: Plný text práce je přístupný bez omezení
Vyskytuje se v kolekcích:Disertační práce / Dissertations (FAV)

Soubory připojené k záznamu:
Soubor Popis VelikostFormát 
dizertace_machlica.pdfPlný text práce3,38 MBAdobe PDFZobrazit/otevřít
hodnoceni-skolitel-machlica.pdfPosudek vedoucího práce370,99 kBAdobe PDFZobrazit/otevřít
posudek-ODP-machlica.pdfPosudek oponenta práce2,35 MBAdobe PDFZobrazit/otevřít
protokol-ODP-machlica.pdfPrůběh obhajoby práce721,53 kBAdobe PDFZobrazit/otevřít


Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/10777

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.