GMM-Based Evaluation of Synthetic Speech Quality Using 2D Classification in Pleasure-Arousal Scale

Přibil, Jiří; Přibilová, Anna; Matoušek, Jindřich

Full metadata record

DC pole	Hodnota	Jazyk
dc.contributor.author	Přibil, Jiří
dc.contributor.author	Přibilová, Anna
dc.contributor.author	Matoušek, Jindřich
dc.date.accessioned	2021-11-01T11:00:31Z	-
dc.date.available	2021-11-01T11:00:31Z	-
dc.date.issued	2021
dc.identifier.citation	PŘIBIL, J. PŘIBILOVÁ, A. MATOUŠEK, J. GMM-Based Evaluation of Synthetic Speech Quality Using 2D Classification in Pleasure-Arousal Scale. Applied Sciences, 2021, roč. 11, č. 1, s. 1-18. ISSN: 2076-3417	cs
dc.identifier.issn	2076-3417
dc.identifier.uri	2-s2.0-85098620235
dc.identifier.uri	http://hdl.handle.net/11025/45598
dc.description.abstract	Článek se zaměřuje na popis systému pro automatické hodnocení kvality syntetické řeči založeného na klasifikátoru modelu gaussovských směsí (GMM). Řečový materiál pocházející od skutečného mluvčího se porovnává se syntetizovaným materiálem, aby se identifikovaly podobnosti nebo rozdíly mezi nimi. Finální hodnocení je určeno vzdálenostmi v prostoru potěšení-vzrušení (Pleasure-Arousal, P-A) mezi původní a syntetickou řečí pomocí různých metod syntézy a/nebo prozodických manipulací implementovaných v českém systému převodu textu na řeč. Modely GMM pro kontinuální 2D detekci tříd P-A jsou trénovány pomocí zvukového/řečového materiálu z databází bez jakéhokoli vztahu k původní řeči nebo k syntetizovaným větám. Předběžné a pomocné analýzy ukazují podstatný vliv počtu směsí, počtu a typu použitých řečových příznaků, velikosti zpracovaného řečového materiálu a typu databáze použité k vytvoření GMM na klasifikaci P-A procesu a na konečném výsledku hodnocení. Hlavní evaluační experimenty potvrzují funkčnost vyvinutého systému. Získané výsledky objektivního hodnocení jsou v zásadě korelovány se subjektivním hodnocením lidských hodnotitelů; byly však naznačeny dílčí rozdíly, takže je nutné provést následné podrobné šetření.	cs
dc.format	18 s.	cs
dc.format.mimetype	application/pdf
dc.language.iso	en	en
dc.publisher	MDPI	en
dc.relation.ispartofseries	Applied Sciences	en
dc.rights	©CC-BY	en
dc.subject	klasifikace GMM	cs
dc.subject	statistická analýza	cs
dc.subject	hodnocení syntetické řeči	cs
dc.subject	systém syntézy řeči z textu	cs
dc.title	GMM-Based Evaluation of Synthetic Speech Quality Using 2D Classification in Pleasure-Arousal Scale	en
dc.title.alternative	Hodnocení syntetické řeči založené na GMM klasifikaci ve 2D škále potěšení-vzrušení	cs
dc.type	článek	cs
dc.type	article	en
dc.rights.access	openAccess	en
dc.type.version	publishedVersion	en
dc.description.abstract-translated	The paper focuses on the description of a system for the automatic evaluation of synthetic speech quality based on the Gaussian mixture model (GMM) classifier. The speech material originating from a real speaker is compared with synthesized material to determine similarities or differences between them. The final evaluation order is determined by distances in the Pleasure-Arousal (P-A) space between the original and synthetic speech using different synthesis and/or prosody manipulation methods implemented in the Czech text-to-speech system. The GMM models for continual 2D detection of P-A classes are trained using the sound/speech material from the databases without any relation to the original speech or the synthesized sentences. Preliminary and auxiliary analyses show a substantial influence of the number of mixtures, the number and type of the speech features used the size of the processed speech material, as well as the type of the database used for the creation of the GMMs on the P-A classification process and on the final evaluation result. The main evaluation experiments confirm the functionality of the system developed. The objective evaluation results obtained are principally correlated with the subjective ratings of human evaluators; however, partial differences were indicated, so a subsequent detailed investigation must be performed.	en
dc.subject.translated	GMM classification	en
dc.subject.translated	statistical analysis	en
dc.subject.translated	synthetic speech evaluation	en
dc.subject.translated	text-to-speech system	en
dc.identifier.doi	10.3390/app11010002
dc.type.status	Peer-reviewed	en
dc.identifier.document-number	605808900001
dc.identifier.obd	43932288
dc.project.ID	GA19-19324S/Plně trénovatelná syntéza české řeči z textu s využitím hlubokých neuronových sítí	cs
Vyskytuje se v kolekcích:	Články / Articles (KKY) OBD

Soubory připojené k záznamu:

Soubor	Velikost	Formát
applsci-11-00002-v2.pdf	4,96 MB	Adobe PDF	Zobrazit/otevřít

Zobrazit minimální záznam Zobrazit statistiky

Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/45598

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání

navigace