Evaluation of Synthetic Speech by GMM-Based Continuous Detection of Emotional States

Přibil, Jiří; Přibilová, Anna; Matoušek, Jindřich

Název:	Evaluation of Synthetic Speech by GMM-Based Continuous Detection of Emotional States
Další názvy:	Hodnocení kvality syntetické řeči pomocí spojité detekce emočních stavů založené na GMM
Autoři:	Přibil, Jiří Přibilová, Anna Matoušek, Jindřich
Citace zdrojového dokumentu:	PŘIBIL, J., PŘIBILOVÁ, A., MATOUŠEK, J. Evaluation of Synthetic Speech by GMM-Based Continuous Detection of Emotional States. In: Text, Speech, and Dialogue 22nd International Conference, TSD 2019, Ljubljana,Slovenia, September 11-13, 2019, Proceedings. Cham: Springer, 2019. s. 264-273. ISBN 978-3-030-27946-2 , ISSN 0302-9743.
Datum vydání:	2019
Nakladatel:	Springer
Typ dokumentu:	konferenční příspěvek conferenceObject
URI:	2-s2.0-85072862982 http://hdl.handle.net/11025/36624
ISBN:	978-3-030-27946-2
ISSN:	0302-9743
Klíčová slova:	klasifikace GMM, statistická analýza, hodnocení syntetické řeči, syntéza řeči z textu
Klíčová slova v dalším jazyce:	GMM classification, Statistical analysis, Synthetic speech evaluation, Text-to-speech system
Abstrakt:	Příspěvek popisuje systém pro automatické hodnocení kvality syntetické řeči založený na spojité detekci emočních stavů během mluvené věty pomocí klasifikace s využitím modelu gaussovských směsí (GMM). Konečné hodnocení se provádí statistickou analýzou výsledků rozdílů emočních stavů mezi větami původních mužských nebo ženských hlasů a řečí syntetizovanými různými metodami s různými parametry, přístupy k manipulaci s prozodií atd. Základní experimenty potvrzují funkčnost vyvinutého systému, který poskytuje výsledky srovnatelné s výsledky získanými standardní metodou využívající poslechový test. Další výzkumy ukázaly, že počet směsí, typy řečových příznaků a řečové databáze používané pro tvorbu a výcvik GMM mají relativně velký vliv na spojitou detekci emočního stylu a konečné hodnocení kvality testované syntetické řeči.
Abstrakt v dalším jazyce:	The paper describes a system for automatic evaluation of synthetic speech quality based on continuous detection of emotional states throughout the spoken sentence using a Gaussian mixture model (GMM) classification. The final evaluation decision is made by statistical analysis of the results of emotional class differences between the sentences of original male or female voices and the speech synthesized by various methods with different parameters, approaches to prosody manipulation, etc. The basic experiments confirm the functionality of the developed system producing results comparable with those obtained by the standard listening test method. Additional investigations have shown that a number of mixtures, types of speech features, and a speech database used for creation and training of GMMs have a relatively great influence on continuous emotional style detection and the final quality evaluation of the tested synthetic speech.
Práva:	Plný text není přístupný. © Springer
Vyskytuje se v kolekcích:	Konferenční příspěvky / Conference Papers (KKY) OBD

Soubory připojené k záznamu:

Soubor	Velikost	Formát
Pribil2019_Chapter_EvaluationOfSyntheticSpeechByG.pdf	2,74 MB	Adobe PDF	Zobrazit/otevřít Vyžádat kopii

Zobrazit celý záznam Zobrazit statistiky

Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/36624

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání

navigace