Rozpoznávání řeči pomocí neuronových sítí s navazujícím sequence-to-sequence modelem

Šulc, Matěj

Full metadata record

DC pole	Hodnota	Jazyk
dc.contributor.advisor	Lehečka Jan, Ing. Ph.D.
dc.contributor.author	Šulc, Matěj
dc.contributor.referee	Šmídl Luboš, Ing. Ph.D.
dc.date.accepted	2024-6-18
dc.date.accessioned	2024-07-12T09:12:50Z	-
dc.date.available	2023-10-17
dc.date.available	2024-07-12T09:12:50Z	-
dc.date.issued	2024
dc.date.submitted	2024-5-16
dc.identifier	96787
dc.identifier.uri	http://hdl.handle.net/11025/57080	-
dc.description.abstract	Tato bakalářská práce se zaměřuje na vývoj a optimalizaci systému rozpoznávání řeči využívající kombinaci dvou hlavních technologických nástrojů z domén zpracování akustických signálů a přirozeného jazyka, a to neuronové sítě Wav2Vec2.0, která je doplněna o sequence-to-sequence model T5. Cílem je zvýšit přesnost převodu mluveného slova na textový formát. V první části práce je proveden rozbor metody Wav2Vec2.0, která slouží k extrakci významných akustických informací z audio nahrávek a vytvoření textové reprezentace. Následně je popsán sequence-to-sequence model T5, jenž slouží k úpravě získaného přepisu řeči, jelikož na rozdíl od Wa2Vec2.0 modelu vychází ze znalostí o přirozeném jazyce. Tyto dva klíčové prvky jsou následně integrovány do funkčního systému pro rozpoznávání řeči.	cs
dc.format	39
dc.language.iso	cs
dc.publisher	Západočeská univerzita v Plzni
dc.rights	Plný text práce je přístupný bez omezení
dc.subject	automatické rozpoznání řeči	cs
dc.subject	asr	cs
dc.subject	stt	cs
dc.subject	transformers	cs
dc.subject	wav2vec2.0	cs
dc.subject	seq2seq	cs
dc.subject	t5	cs
dc.title	Rozpoznávání řeči pomocí neuronových sítí s navazujícím sequence-to-sequence modelem	cs
dc.title.alternative	Speech recognition using neural networks followed by a sequence-to-sequence model	en
dc.type	bakalářská práce
dc.thesis.degree-name	Bc.
dc.thesis.degree-level	Bakalářský
dc.thesis.degree-grantor	Západočeská univerzita v Plzni. Fakulta aplikovaných věd
dc.thesis.degree-program	Kybernetika a řídicí technika
dc.description.result	Obhájeno
dc.description.abstract-translated	This bachelor thesis focuses on the development and optimization of a speech recognition system utilizing a combination of two main technological tools from the domains of acoustic signal processing and natural language processing: the Wav2Vec2.0 neural network, complemented by the sequence-to-sequence model T5. The goal is to enhance the accuracy of converting spoken words into textual format. In the first part of the thesis, an analysis of the Wav2Vec2.0 method is conducted, which serves for extracting significant acoustic information from audio recordings and creating a textual representation. Subsequently, the sequence-to-sequence model T5 is described, which is used to refine the obtained speech transcription, as it differs from the Wa2Vec2.0 model by incorporating knowledge about natural language. These two key elements are then integrated into a functional system for speech recognition.	en
dc.subject.translated	automatic speech recognition	en
dc.subject.translated	asr	en
dc.subject.translated	stt	en
dc.subject.translated	transformers	en
dc.subject.translated	wav2vec2.0	en
dc.subject.translated	seq2seq	en
dc.subject.translated	t5	en
Vyskytuje se v kolekcích:	Bakalářské práce / Bachelor´s works (KKY)

Soubory připojené k záznamu:

Soubor	Popis	Velikost	Formát
BP_Sulc.pdf	Plný text práce	2,15 MB	Adobe PDF	Zobrazit/otevřít
PosudekOponentaSTAG-SmidlL-53843.pdf	Posudek oponenta práce	63,67 kB	Adobe PDF	Zobrazit/otevřít
PosudekVedoucihoSTAG-LeheckaJ-241985.pdf	Posudek vedoucího práce	61,5 kB	Adobe PDF	Zobrazit/otevřít
ProtokolSPrubehemObhajobySTAG.pdf	Průběh obhajoby práce	39,37 kB	Adobe PDF	Zobrazit/otevřít

Zobrazit minimální záznam Zobrazit statistiky

Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/57080

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání

navigace