Title: Generování české řeči pomocí neuronových sítí
Other Titles: Czech Speech Generation Using Neural Networks
Authors: Vít, Jakub
Issue Date: 2023
Publisher: Západočeská univerzita v Plzni
Document type: disertační práce
URI: http://hdl.handle.net/11025/55023
Keywords: syntéza řeči;tts;neuronové sítě;wavenet;wavernn
Keywords in different language: speech synthesis;tts;neural networks;wavenet;wavernn
Abstract: Disertační práce se zaměřuje na nové architektury pro počítačové generování řeči pomocí neuronových sítí. S jejich příchodem došlo k velmi bouřlivému rozvoji nových metod, které umožnily generovat řeč s vyšší kvalitou a přirozeností, než umožňovaly tradiční metody. V teoretické části se uvádí souhrn běžných postupů a důležitých pojmů týkajících se syntézy řeči, jako je například zpracování textu, fonetická abeceda, poslechové testy, anotace a melovský spektrogram. Představeny jsou zde tradiční metody syntézy řeči: konkatenační metoda a statistická parametrická metoda. Teoretická část zároveň popisuje nové architektury neuronových sítí pro syntézu řeči vysoké kvality, a to převážně architektury WaveNet a WaveRNN. Dále je zde představen podpůrný webový nástroj pro vývoj a výzkum syntézy řeči. Experimentální část práce popisuje výstupy, kterých bylo dosaženo vlastní implementací těchto metod na syntézu českého jazyka, a také experimenty, jejichž cílem bylo navrhnout a vyvinout nový systém TTS pro syntézu řeči s vyšší kvalitou než v té době stávající systém, který byl založen na konkatenační metodě. Poslechový test ukázal, že nový systém dosáhl na českém jazyce lepších výsledků. Práce obsahuje i pokusy s trénováním jedné sítě pro více řečníků a také s vícejazyčnou syntézou. Experimenty dále obsahují analýzu trénovacích dat pro nové modely ve srovnání s tradičními metodami. V posledních letech se objevilo značné množství nových architektur, poslední část proto obsahuje jejich ucelený přehled a popisuje podrobněji několik z nich. Jsou zde představeny architektury LPCNet, MelNet, Tacotron, MelGAN, VITS a další. Je zde i diskuse o stávajícím trendu v podobě end-to-end architektur.
Abstract in different language: This dissertation focuses on new architectures for computational speech generation using neural networks. With their advent, there has been a very vigorous development of new methods that have enabled the generation of speech with higher quality and naturalness than traditional methods have allowed. In the theoretical part, a summary of common procedures and important concepts related to speech synthesis, such as text processing, phonetic alphabet, listening tests, annotation and Mel's spectrogram, is presented. The traditional methods of speech synthesis are introduced: the concatenation method and the statistical parametric method. The theoretical part also describes new neural network architectures for high quality speech synthesis, mainly the WaveNet and WaveRNN architectures. Furthermore, a web-based support tool for speech synthesis development and research is presented. The experimental part of the thesis describes the outputs achieved by the actual implementation of these methods on Czech language synthesis, as well as the experiments aimed at designing and developing a new TTS system for speech synthesis with higher quality than the then existing system, which was based on the concatenation method. The listening test showed that the new system achieved better results on the Czech language. The paper also includes experiments on training a single network for multiple speakers as well as multilingual synthesis. The experiments also include an analysis of the training data for the new models compared to traditional methods. A significant number of new architectures have emerged in recent years, so the last section provides a comprehensive overview and describes several of them in more detail. LPCNet, MelNet, Tacotron, MelGAN, VITS and other architectures are introduced. There is also a discussion of the current trend towards end-to-end architectures.
Rights: Plný text práce je přístupný bez omezení
Appears in Collections:Disertační práce / Dissertations (KKY)

Files in This Item:
File Description SizeFormat 
Disertace_tisk.pdfPlný text práce8,18 MBAdobe PDFView/Open
posudky-odp-vit.pdfPosudek oponenta práce1,05 MBAdobe PDFView/Open
protokol-STAG-odp-vit.pdfPrůběh obhajoby práce463,5 kBAdobe PDFView/Open


Please use this identifier to cite or link to this item: http://hdl.handle.net/11025/55023

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.