Full metadata record
DC poleHodnotaJazyk
dc.contributor.authorPřibil, Jiří
dc.contributor.authorPřibilová, Anna
dc.contributor.authorMatoušek, Jindřich
dc.date.accessioned2021-11-01T11:00:31Z-
dc.date.available2021-11-01T11:00:31Z-
dc.date.issued2021
dc.identifier.citationPŘIBIL, J. PŘIBILOVÁ, A. MATOUŠEK, J. GMM-Based Evaluation of Synthetic Speech Quality Using 2D Classification in Pleasure-Arousal Scale. Applied Sciences, 2021, roč. 11, č. 1, s. 1-18. ISSN: 2076-3417cs
dc.identifier.issn2076-3417
dc.identifier.uri2-s2.0-85098620235
dc.identifier.urihttp://hdl.handle.net/11025/45598
dc.description.abstractČlánek se zaměřuje na popis systému pro automatické hodnocení kvality syntetické řeči založeného na klasifikátoru modelu gaussovských směsí (GMM). Řečový materiál pocházející od skutečného mluvčího se porovnává se syntetizovaným materiálem, aby se identifikovaly podobnosti nebo rozdíly mezi nimi. Finální hodnocení je určeno vzdálenostmi v prostoru potěšení-vzrušení (Pleasure-Arousal, P-A) mezi původní a syntetickou řečí pomocí různých metod syntézy a/nebo prozodických manipulací implementovaných v českém systému převodu textu na řeč. Modely GMM pro kontinuální 2D detekci tříd P-A jsou trénovány pomocí zvukového/řečového materiálu z databází bez jakéhokoli vztahu k původní řeči nebo k syntetizovaným větám. Předběžné a pomocné analýzy ukazují podstatný vliv počtu směsí, počtu a typu použitých řečových příznaků, velikosti zpracovaného řečového materiálu a typu databáze použité k vytvoření GMM na klasifikaci P-A procesu a na konečném výsledku hodnocení. Hlavní evaluační experimenty potvrzují funkčnost vyvinutého systému. Získané výsledky objektivního hodnocení jsou v zásadě korelovány se subjektivním hodnocením lidských hodnotitelů; byly však naznačeny dílčí rozdíly, takže je nutné provést následné podrobné šetření.cs
dc.format18 s.cs
dc.format.mimetypeapplication/pdf
dc.language.isoenen
dc.publisherMDPIen
dc.relation.ispartofseriesApplied Sciencesen
dc.rights©CC-BYen
dc.subjectklasifikace GMMcs
dc.subjectstatistická analýzacs
dc.subjecthodnocení syntetické řečics
dc.subjectsystém syntézy řeči z textucs
dc.titleGMM-Based Evaluation of Synthetic Speech Quality Using 2D Classification in Pleasure-Arousal Scaleen
dc.title.alternativeHodnocení syntetické řeči založené na GMM klasifikaci ve 2D škále potěšení-vzrušenícs
dc.typečlánekcs
dc.typearticleen
dc.rights.accessopenAccessen
dc.type.versionpublishedVersionen
dc.description.abstract-translatedThe paper focuses on the description of a system for the automatic evaluation of synthetic speech quality based on the Gaussian mixture model (GMM) classifier. The speech material originating from a real speaker is compared with synthesized material to determine similarities or differences between them. The final evaluation order is determined by distances in the Pleasure-Arousal (P-A) space between the original and synthetic speech using different synthesis and/or prosody manipulation methods implemented in the Czech text-to-speech system. The GMM models for continual 2D detection of P-A classes are trained using the sound/speech material from the databases without any relation to the original speech or the synthesized sentences. Preliminary and auxiliary analyses show a substantial influence of the number of mixtures, the number and type of the speech features used the size of the processed speech material, as well as the type of the database used for the creation of the GMMs on the P-A classification process and on the final evaluation result. The main evaluation experiments confirm the functionality of the system developed. The objective evaluation results obtained are principally correlated with the subjective ratings of human evaluators; however, partial differences were indicated, so a subsequent detailed investigation must be performed.en
dc.subject.translatedGMM classificationen
dc.subject.translatedstatistical analysisen
dc.subject.translatedsynthetic speech evaluationen
dc.subject.translatedtext-to-speech systemen
dc.identifier.doi10.3390/app11010002
dc.type.statusPeer-revieweden
dc.identifier.document-number605808900001
dc.identifier.obd43932288
dc.project.IDGA19-19324S/Plně trénovatelná syntéza české řeči z textu s využitím hlubokých neuronových sítícs
Vyskytuje se v kolekcích:Články / Articles (KKY)
OBD

Soubory připojené k záznamu:
Soubor VelikostFormát 
applsci-11-00002-v2.pdf4,96 MBAdobe PDFZobrazit/otevřít


Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/45598

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání
navigace
  1. DSpace at University of West Bohemia
  2. Publikační činnost / Publications
  3. OBD