Název: Syntéza expresivní řeči s využitím dialogových aktů k popisu expresivity
Další názvy: Dialogue-Act Based Expressive Speech Synthesis
Autoři: Grůber, Martin
Vedoucí práce/školitel: Matoušek, Jindřich
Matoušek, Jindřich
Datum vydání: 2013
Nakladatel: Západočeská univerzita v Plzni
Typ dokumentu: disertační práce
URI: http://hdl.handle.net/11025/10778
Klíčová slova: syntéza řeči;expresivní řeč;výběr jendotek;dialogové akty
Klíčová slova v dalším jazyce: speech synthesis;expressive speech;unit selection;dialogue acts
Abstrakt: Tato disertační práce se zabývá syntézou expresivní řeči v dialogu, kdy pro popis expresivity jsou použity dialogové akty - diskrétní expresivní kategorie. Cílem práce je vytvořit postup pro vývoj syntézy expresivní řeči metodou dynamického výběru jednotek pro dialogový systém v oblasti rozhovorů mezi člověkem (seniorem) a počítačem na dané téma osobních fotografií ze~života. Tohoto cíle je dosaženo modifikací současných algoritmů používaných pro syntézu neutrální řeči. Základem je vytvoření expresivního řečového korpusu anotovaného pomocí nadefinovaných dialogových aktů. Zkoumání anotací tohoto korpusu a analýza expresivních řečových dat z hlediska různých akustických parametrů potom poskytují informace, jak od sebe odlišit řečové jednotky označené různými dialogovými akty. Toho je následně využito právě při výběru řečových jednotek z inventáře v průběhu syntézy řeči. Ačkoliv je práce zaměřena na konkrétní oblast dialogového systému, klade si za cíl popsat postup vývoje syntézy expresivní řeči pro dialog obecněji. Popsaný postup by tak mohl být využit i v podobných systémech zaměřených na jiná témata, kde by byly definovány jiné expresivní kategorie, případně by byl použit i jiný popis expresivity. V takovém případě by však zřejmě musel být postup přizpůsoben zvolenému popisu. Vyhodnocení dosažených výsledků je pak realizováno prostřednictvím poslechových testů, kdy posluchači hodnotí dva základní aspekty syntetické expresivní řeči: kvalitu a schopnost vyjádřit expresivitu. Vyhodnocení je provedeno jak pro izolované promluvy, tak v rámci dialogu. Z výsledků vyplývá, že syntetická expresivní řeč je hodnocena kladně, přestože její kvalita je ve srovnání se syntézou neutrální řeči o něco horší. Dokáže však na posluchače přenášet expresivitu a zvýšit tak přirozenost syntetické řeči, což bylo jedním z hlavních cílů této práce.
Abstrakt v dalším jazyce: This dissertation deals with expressive speech synthesis in a dialogue. Dialogue acts - discrete expressive categories - are used for expressivity description. The aim of this work is to create a procedure for development of expressive speech synthesis using unit selection method for a dialogue system in a limited domain. The domain is limited to dialogues between a human and a computer on a given topic of reminiscing about personal photographs. The main goal of this work is achieved by modification of current algorithms that are used for neutral speech synthesis. The basic task when solving this issue is to create an expressive speech corpus and its annotation using predefined set of dialogue acts. On the basis of both annotations and acoustic analysis of the speech data in terms of various acoustic parameters, we can enumerate differences between various dialogue acts. These numerical differences are then used in the process of selecting speech units from a unit inventory during speech synthesis. Although this work is focused on a specific dialogue system with limited domain, the goal is also to describe the procedure of development of expressive speech synthesis in general. Thus, the described procedure could be also used in similar systems that are focused on other topics with differently defined expressive categories or with different expressivity description. In this case, the procedure would need to be adapted to such a description. An evaluation of achieved results is performed using listening tests. The listeners asses two basic aspects of synthetic expressive speech: speech quality and expressivity perception. The evaluation is performed for isolated utterances as well as for utterances in a dialogue. We can conclude that the synthetic expressive speech is rated positively even though it is of worse quality when comparing with neutral speech synthesis. However, synthetic expressive speech is able to transmit expressivity on listeners and to improve the naturalness of the synthetic speech.
Práva: Plný text práce je přístupný bez omezení
Vyskytuje se v kolekcích:Disertační práce / Dissertations (KKY)

Soubory připojené k záznamu:
Soubor Popis VelikostFormát 
Disertace.pdfPlný text práce6,11 MBAdobe PDFZobrazit/otevřít
posudky-odp-gruber.pdfPosudek oponenta práce3,76 MBAdobe PDFZobrazit/otevřít
zapis-odp-gruber.pdfPrůběh obhajoby práce818,81 kBAdobe PDFZobrazit/otevřít


Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/10778

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.