Název: Optimalizace rychlosti výběru řečových jednotek v konkatenační syntéze řeči
Další názvy: Speed Optimization of Unit Selection Algorithm in Concatenative Speech Synthesis
Autoři: Kala, Jiří
Vedoucí práce/školitel: Matoušek, Jindřich
Datum vydání: 2015
Nakladatel: Západočeská univerzita v Plzni
Typ dokumentu: disertační práce
URI: http://hdl.handle.net/11025/20640
Klíčová slova: syntéza řeči;výběr jednotek;viterbi;viterbiův algoritmus;zero-concatenation-cost;zcc řetězec;trvání;f0
Klíčová slova v dalším jazyce: speech synthesis;concatenative speech synthesis;unit selection;viterbi algorithm;zero-concatenation-cost chain;duration;f0
Abstrakt: Tato disertační práce se zabývá optimalizací procesu výběru jednotek v konkatenační syntéze řeči, přičemž hlavním zaměřením je urychlení vyhledání optimální sekvence řečových segmentů. Klíčovým problémem této úlohy je nutnost vyhledat cestu s minimální cenou napříč velmi rozsáhlým grafem tvořeným možnými realizacemi řečových jednotek, což vede na obrovské množství kombinací a nutnosti vypočítat i odpovídající množství ohodnocení hran grafu čítající až desítky miliónů operací. Součástí práce je řada analýz složení promluv vygenerovaných pomocí běžně užívaného Viterbiova algoritmu, jehož nevýhodou jsou velmi vysoké výpočetní nároky. V rámci práce bylo navrženo a testováno množství algoritmů, které lze rozdělit do dvou skupin. První skupinu tvoří algoritmy, jež doplňují Viterbiův algoritmus o optimalizační techniky snižující nezbytný počet vyhodnocení cen cíle. Ve druhé skupině jsou algoritmy založené na původní myšlence využití souvislých řetězců s nulovou cenou řetězení, tj. úseků původní nahrávky z původního řečového korpusu nahraného lidským řečníkem (řetězce jsou značeny zkratkou ZCC z angl. zero concatenation cost). Výsledkem experimentů jsou dva srovnatelné algoritmy, které umožňují zvýšit velmi významně rychlost procesu výběru jednotek (přibližně 500x) při zachování kvality generované řeči. Kvalita výstupu pro oba algoritmy byla ověřena i pomocí poslechových testů. Doplňkovým tématem práce byla i analýza vzniku nežádoucích artefaktů způsobených buď výběrem řečového segmentu s nevhodnou délkou na dané pozici promluvy nebo zřetězením dvou kandidátů s odlišným průběhem frekvence základního hlasivkového tónu. V rámci práce byla navržena opatření jak vzniku artefaktů předcházet, čímž bylo dosaženo ještě vyšší kvality syntetické řeči ve srovnání s původním Viterbiovým algoritmem.
Abstrakt v dalším jazyce: This thesis addresses the optimization of the unit selection process in a concatenation synthesis and it mainly focuses on speeding-up the search for the optimal speech segments sequence. The key problem of this task is the need to find the minimal cost path through the graph consisted of all available unit candidates. This leads to a huge amount of acceptable combinations, and therefore the need to compute an adequate number of graph edges costs counting up to tens of millions of operations. The work incorporates the analysis of speech utterances synthesized using common the Viterbi algorithm, which has a major drawback of being computationally demanding. Within the work a number of algorithms were proposed and tested. These algorithms can be divided into two specific groups. The first group is made up of modifications of the original Viterbi scheme, which introduces optimization techniques to decrease the necessary amount of concatenation cost evaluations. Algorithms in the second group are based on the novel idea of using continuous chains of speech segments, which correspond to larger chunks from the original speech corpora. These chains do not require compute concatenation cost between containing speech segments, as it always has a zero value (therefore, they are denoted as ZCC - zero concatenation cost). The research resulted in two comparable algorithms, both of which significantly increased the speed of the unit selection process (approx. 500x), while the quality of the produced synthetic speech was maintained. The quality of the TTS system output was also evaluated and verified by listening tests. The additional topic of this work was the analysis of unwanted artifacts. These unwanted artifacts are caused by either selecting the speech segment which has an inappropriate length, or by concatenating two candidates of which the fundamental frequency has a different tendency. During the work, methods to prevent the causing of unwanted artifacts were designed and thus the quality of speech was improved in comparison with the original Viterbi algorithm.
Práva: Plný text práce je přístupný bez omezení.
Vyskytuje se v kolekcích:Disertační práce / Dissertations (KKY)

Soubory připojené k záznamu:
Soubor Popis VelikostFormát 
dp.pdfPlný text práce3,68 MBAdobe PDFZobrazit/otevřít
oponent-posudky-odp-kala.pdfPosudek oponenta práce2,8 MBAdobe PDFZobrazit/otevřít
obhajoba-protokol-odp.pdfPrůběh obhajoby práce835,79 kBAdobe PDFZobrazit/otevřít


Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/20640

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.