Rozpoznávání řeči pomocí neuronových sítí s navazujícím sequence-to-sequence modelem

Šulc, Matěj

Title:	Rozpoznávání řeči pomocí neuronových sítí s navazujícím sequence-to-sequence modelem
Other Titles:	Speech recognition using neural networks followed by a sequence-to-sequence model
Authors:	Šulc, Matěj
Advisor:	Lehečka Jan, Ing. Ph.D.
Referee:	Šmídl Luboš, Ing. Ph.D.
Issue Date:	2024
Publisher:	Západočeská univerzita v Plzni
Document type:	bakalářská práce
URI:	http://hdl.handle.net/11025/57080
Keywords:	automatické rozpoznání řeči;asr;stt;transformers;wav2vec2.0;seq2seq;t5
Keywords in different language:	automatic speech recognition;asr;stt;transformers;wav2vec2.0;seq2seq;t5
Abstract:	Tato bakalářská práce se zaměřuje na vývoj a optimalizaci systému rozpoznávání řeči využívající kombinaci dvou hlavních technologických nástrojů z domén zpracování akustických signálů a přirozeného jazyka, a to neuronové sítě Wav2Vec2.0, která je doplněna o sequence-to-sequence model T5. Cílem je zvýšit přesnost převodu mluveného slova na textový formát. V první části práce je proveden rozbor metody Wav2Vec2.0, která slouží k extrakci významných akustických informací z audio nahrávek a vytvoření textové reprezentace. Následně je popsán sequence-to-sequence model T5, jenž slouží k úpravě získaného přepisu řeči, jelikož na rozdíl od Wa2Vec2.0 modelu vychází ze znalostí o přirozeném jazyce. Tyto dva klíčové prvky jsou následně integrovány do funkčního systému pro rozpoznávání řeči.
Abstract in different language:	This bachelor thesis focuses on the development and optimization of a speech recognition system utilizing a combination of two main technological tools from the domains of acoustic signal processing and natural language processing: the Wav2Vec2.0 neural network, complemented by the sequence-to-sequence model T5. The goal is to enhance the accuracy of converting spoken words into textual format. In the first part of the thesis, an analysis of the Wav2Vec2.0 method is conducted, which serves for extracting significant acoustic information from audio recordings and creating a textual representation. Subsequently, the sequence-to-sequence model T5 is described, which is used to refine the obtained speech transcription, as it differs from the Wa2Vec2.0 model by incorporating knowledge about natural language. These two key elements are then integrated into a functional system for speech recognition.
Rights:	Plný text práce je přístupný bez omezení
Appears in Collections:	Bakalářské práce / Bachelor´s works (KKY)

Files in This Item:

File	Description	Size	Format
BP_Sulc.pdf	Plný text práce	2,15 MB	Adobe PDF	View/Open
PosudekOponentaSTAG-SmidlL-53843.pdf	Posudek oponenta práce	63,67 kB	Adobe PDF	View/Open
PosudekVedoucihoSTAG-LeheckaJ-241985.pdf	Posudek vedoucího práce	61,5 kB	Adobe PDF	View/Open
ProtokolSPrubehemObhajobySTAG.pdf	Průběh obhajoby práce	39,37 kB	Adobe PDF	View/Open

Show full item record

Please use this identifier to cite or link to this item: http://hdl.handle.net/11025/57080

search

navigation