Full metadata record
DC poleHodnotaJazyk
dc.contributor.advisorLehečka Jan, Ing. Ph.D.
dc.contributor.authorŠulc, Matěj
dc.contributor.refereeŠmídl Luboš, Ing. Ph.D.
dc.date.accepted2024-6-18
dc.date.accessioned2024-07-12T09:12:50Z-
dc.date.available2023-10-17
dc.date.available2024-07-12T09:12:50Z-
dc.date.issued2024
dc.date.submitted2024-5-16
dc.identifier96787
dc.identifier.urihttp://hdl.handle.net/11025/57080-
dc.description.abstractTato bakalářská práce se zaměřuje na vývoj a optimalizaci systému rozpoznávání řeči využívající kombinaci dvou hlavních technologických nástrojů z domén zpracování akustických signálů a přirozeného jazyka, a to neuronové sítě Wav2Vec2.0, která je doplněna o sequence-to-sequence model T5. Cílem je zvýšit přesnost převodu mluveného slova na textový formát. V první části práce je proveden rozbor metody Wav2Vec2.0, která slouží k extrakci významných akustických informací z audio nahrávek a vytvoření textové reprezentace. Následně je popsán sequence-to-sequence model T5, jenž slouží k úpravě získaného přepisu řeči, jelikož na rozdíl od Wa2Vec2.0 modelu vychází ze znalostí o přirozeném jazyce. Tyto dva klíčové prvky jsou následně integrovány do funkčního systému pro rozpoznávání řeči.cs
dc.format39
dc.language.isocs
dc.publisherZápadočeská univerzita v Plzni
dc.rightsPlný text práce je přístupný bez omezení
dc.subjectautomatické rozpoznání řečics
dc.subjectasrcs
dc.subjectsttcs
dc.subjecttransformerscs
dc.subjectwav2vec2.0cs
dc.subjectseq2seqcs
dc.subjectt5cs
dc.titleRozpoznávání řeči pomocí neuronových sítí s navazujícím sequence-to-sequence modelemcs
dc.title.alternativeSpeech recognition using neural networks followed by a sequence-to-sequence modelen
dc.typebakalářská práce
dc.thesis.degree-nameBc.
dc.thesis.degree-levelBakalářský
dc.thesis.degree-grantorZápadočeská univerzita v Plzni. Fakulta aplikovaných věd
dc.thesis.degree-programKybernetika a řídicí technika
dc.description.resultObhájeno
dc.description.abstract-translatedThis bachelor thesis focuses on the development and optimization of a speech recognition system utilizing a combination of two main technological tools from the domains of acoustic signal processing and natural language processing: the Wav2Vec2.0 neural network, complemented by the sequence-to-sequence model T5. The goal is to enhance the accuracy of converting spoken words into textual format. In the first part of the thesis, an analysis of the Wav2Vec2.0 method is conducted, which serves for extracting significant acoustic information from audio recordings and creating a textual representation. Subsequently, the sequence-to-sequence model T5 is described, which is used to refine the obtained speech transcription, as it differs from the Wa2Vec2.0 model by incorporating knowledge about natural language. These two key elements are then integrated into a functional system for speech recognition.en
dc.subject.translatedautomatic speech recognitionen
dc.subject.translatedasren
dc.subject.translatedstten
dc.subject.translatedtransformersen
dc.subject.translatedwav2vec2.0en
dc.subject.translatedseq2seqen
dc.subject.translatedt5en
Vyskytuje se v kolekcích:Bakalářské práce / Bachelor´s works (KKY)

Soubory připojené k záznamu:
Soubor Popis VelikostFormát 
BP_Sulc.pdfPlný text práce2,15 MBAdobe PDFZobrazit/otevřít
PosudekOponentaSTAG-SmidlL-53843.pdfPosudek oponenta práce63,67 kBAdobe PDFZobrazit/otevřít
PosudekVedoucihoSTAG-LeheckaJ-241985.pdfPosudek vedoucího práce61,5 kBAdobe PDFZobrazit/otevřít
ProtokolSPrubehemObhajobySTAG.pdfPrůběh obhajoby práce39,37 kBAdobe PDFZobrazit/otevřít


Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/57080

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.