Název: Cena řetězení v syntéze řeči výběrem jednotek
Další názvy: Concatenation Cost in Unit Selection Speech Synthesis
Autoři: Legát, Milan
Vedoucí práce/školitel: Matoušek, Jindřich
Matoušek, Jindřich
Datum vydání: 2013
Nakladatel: Západočeská univerzita v Plzni
Typ dokumentu: disertační práce
URI: http://hdl.handle.net/11025/10779
Klíčová slova: syntéza řeči;výběr jednotek;cena řetězení;koartikulace;ladění výběru jednotek
Klíčová slova v dalším jazyce: speech synthesis;unit selection;concatenation cost;coarticulation;unit selection tuning
Abstrakt: Tato práce se zabývá jednou z klíčových součástí metody syntézy řeči výběrem jednotek - návrhem ceny řetězení. Cena řetězení měří kvalitu spojení jednotek, které jsou během syntézy vybírány z databáze jednotek. Rozsah této práce omezen na pět krátkých českých samohlásek a dva řečníky - jednoho ženského a jednoho mužského. V první části této práce je navržen postup, jehož použitím lze získat velké množství dat se spolehlivým označením kvality bodů řetězení od mnoha posluchačů. Práce ukazuje, že pro kvalitu řetězení v samohláskách je nejdůležitější F0. Nespojitosti v F0 musí však být měřeny na konturách, které zachycují průběh F0 v oblastech řetězení, a ne jako místní rozdíl hodnot F0 v bodě řeťězení, což je tradiční přístup. Je ukázáno, že různé souhláskové kontexty, které mohou měnit spektrální obsah samohlásek, mají pouze omezený vliv na kvalitu jejich řetězení. Je navržen analytický postup, který umožňuje měřit percepční důležitost různých cen metody výběru jednotek, stejně tak jejich komponent a vah.
Abstrakt v dalším jazyce: This thesis deals with one of the key aspects of the unit selection speech synthesis method - design of a concatenation cost function. The concatenation cost function measures quality of concatenations of units that are taken from a unit database at synthesis runtime. The scope of the work is narrowed to five short Czech vowels and two speakers ? one female and one male. In the first part of the work, a method for collecting reliably annotated data is proposed. It is shown that the method allows for obtaining well correlated annotations of the quality of concatenation points. This work mainly investigates the role of F0, which is found to be crucial for the quality of mid-vowel concatenations, and the role of consonantal contexts that can change the spectral content of concatenated vowel instances as a result of coarticulation. It is shown that the consonantal contexts have only a limited impact on the quality of the concatenations, in contrast to F0. The F0 discontinuities however have to be measured by using F0 contours capturing the dynamics of F0 in concatenation areas rather than by calculating static F0 differences at concatenation points, which is the traditional approach. An analytic method that allows for measuring the perceptual relevance of different costs, cost sub-components and their weights is also proposed as a part of this thesis.
Práva: Plný text práce je přístupný bez omezení
Vyskytuje se v kolekcích:Disertační práce / Dissertations (KKY)

Soubory připojené k záznamu:
Soubor Popis VelikostFormát 
dizertace_Legat_Milan.pdfPlný text práce1,93 MBAdobe PDFZobrazit/otevřít
posudky-odp-legat.pdfPosudek oponenta práce2,77 MBAdobe PDFZobrazit/otevřít
protokol-odp-legat.pdfPrůběh obhajoby práce806,07 kBAdobe PDFZobrazit/otevřít


Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/10779

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.