Full metadata record
DC poleHodnotaJazyk
dc.contributor.advisorMatoušek, Jindřich
dc.contributor.authorKala, Jiří
dc.date.accepted2015-01-20
dc.date.accessioned2016-03-15T09:10:58Z-
dc.date.available2010-09-01cs
dc.date.available2016-03-15T09:10:58Z-
dc.date.issued2015
dc.date.submitted2014-09-30
dc.identifier62071
dc.identifier.urihttp://hdl.handle.net/11025/20640
dc.description.abstractTato disertační práce se zabývá optimalizací procesu výběru jednotek v konkatenační syntéze řeči, přičemž hlavním zaměřením je urychlení vyhledání optimální sekvence řečových segmentů. Klíčovým problémem této úlohy je nutnost vyhledat cestu s minimální cenou napříč velmi rozsáhlým grafem tvořeným možnými realizacemi řečových jednotek, což vede na obrovské množství kombinací a nutnosti vypočítat i odpovídající množství ohodnocení hran grafu čítající až desítky miliónů operací. Součástí práce je řada analýz složení promluv vygenerovaných pomocí běžně užívaného Viterbiova algoritmu, jehož nevýhodou jsou velmi vysoké výpočetní nároky. V rámci práce bylo navrženo a testováno množství algoritmů, které lze rozdělit do dvou skupin. První skupinu tvoří algoritmy, jež doplňují Viterbiův algoritmus o optimalizační techniky snižující nezbytný počet vyhodnocení cen cíle. Ve druhé skupině jsou algoritmy založené na původní myšlence využití souvislých řetězců s nulovou cenou řetězení, tj. úseků původní nahrávky z původního řečového korpusu nahraného lidským řečníkem (řetězce jsou značeny zkratkou ZCC z angl. zero concatenation cost). Výsledkem experimentů jsou dva srovnatelné algoritmy, které umožňují zvýšit velmi významně rychlost procesu výběru jednotek (přibližně 500x) při zachování kvality generované řeči. Kvalita výstupu pro oba algoritmy byla ověřena i pomocí poslechových testů. Doplňkovým tématem práce byla i analýza vzniku nežádoucích artefaktů způsobených buď výběrem řečového segmentu s nevhodnou délkou na dané pozici promluvy nebo zřetězením dvou kandidátů s odlišným průběhem frekvence základního hlasivkového tónu. V rámci práce byla navržena opatření jak vzniku artefaktů předcházet, čímž bylo dosaženo ještě vyšší kvality syntetické řeči ve srovnání s původním Viterbiovým algoritmem.cs
dc.format153 s.cs
dc.format.mimetypeapplication/pdf
dc.language.isocscs
dc.publisherZápadočeská univerzita v Plznics
dc.rightsPlný text práce je přístupný bez omezení.cs
dc.subjectsyntéza řečics
dc.subjectvýběr jednotekcs
dc.subjectviterbics
dc.subjectviterbiův algoritmuscs
dc.subjectzero-concatenation-costcs
dc.subjectzcc řetězeccs
dc.subjecttrvánícs
dc.subjectf0cs
dc.titleOptimalizace rychlosti výběru řečových jednotek v konkatenační syntéze řečics
dc.title.alternativeSpeed Optimization of Unit Selection Algorithm in Concatenative Speech Synthesisen
dc.typedisertační prácecs
dc.thesis.degree-namePh.D.cs
dc.thesis.degree-levelDoktorskýcs
dc.thesis.degree-grantorZápadočeská univerzita v Plzni. Fakulta aplikovaných vědcs
dc.thesis.degree-programAplikované vědy a informatikacs
dc.description.resultObhájenocs
dc.rights.accessopenAccessen
dc.description.abstract-translatedThis thesis addresses the optimization of the unit selection process in a concatenation synthesis and it mainly focuses on speeding-up the search for the optimal speech segments sequence. The key problem of this task is the need to find the minimal cost path through the graph consisted of all available unit candidates. This leads to a huge amount of acceptable combinations, and therefore the need to compute an adequate number of graph edges costs counting up to tens of millions of operations. The work incorporates the analysis of speech utterances synthesized using common the Viterbi algorithm, which has a major drawback of being computationally demanding. Within the work a number of algorithms were proposed and tested. These algorithms can be divided into two specific groups. The first group is made up of modifications of the original Viterbi scheme, which introduces optimization techniques to decrease the necessary amount of concatenation cost evaluations. Algorithms in the second group are based on the novel idea of using continuous chains of speech segments, which correspond to larger chunks from the original speech corpora. These chains do not require compute concatenation cost between containing speech segments, as it always has a zero value (therefore, they are denoted as ZCC - zero concatenation cost). The research resulted in two comparable algorithms, both of which significantly increased the speed of the unit selection process (approx. 500x), while the quality of the produced synthetic speech was maintained. The quality of the TTS system output was also evaluated and verified by listening tests. The additional topic of this work was the analysis of unwanted artifacts. These unwanted artifacts are caused by either selecting the speech segment which has an inappropriate length, or by concatenating two candidates of which the fundamental frequency has a different tendency. During the work, methods to prevent the causing of unwanted artifacts were designed and thus the quality of speech was improved in comparison with the original Viterbi algorithm.en
dc.subject.translatedspeech synthesisen
dc.subject.translatedconcatenative speech synthesisen
dc.subject.translatedunit selectionen
dc.subject.translatedviterbi algorithmen
dc.subject.translatedzero-concatenation-cost chainen
dc.subject.translateddurationen
dc.subject.translatedf0en
Vyskytuje se v kolekcích:Disertační práce / Dissertations (KKY)

Soubory připojené k záznamu:
Soubor Popis VelikostFormát 
dp.pdfPlný text práce3,68 MBAdobe PDFZobrazit/otevřít
oponent-posudky-odp-kala.pdfPosudek oponenta práce2,8 MBAdobe PDFZobrazit/otevřít
obhajoba-protokol-odp.pdfPrůběh obhajoby práce835,79 kBAdobe PDFZobrazit/otevřít


Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/20640

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.