Atribuční metody pro Transformer modely

Bartička, Vojtěch

Full metadata record

DC pole	Hodnota	Jazyk
dc.contributor.advisor	Pražák Ondřej, Ing.
dc.contributor.author	Bartička, Vojtěch
dc.contributor.referee	Baloun Josef, Ing.
dc.date.accepted	2023-6-19
dc.date.accessioned	2023-08-02T10:47:22Z	-
dc.date.available	2022-9-9
dc.date.available	2023-08-02T10:47:22Z	-
dc.date.issued	2023
dc.date.submitted	2023-5-18
dc.identifier	93451
dc.identifier.uri	http://hdl.handle.net/11025/53734	-
dc.description.abstract	Tato práce zkoumá atrubuční metody aplikovatelné na Transformer modely pomocí datových sad SST a CTDC. Do datové sady CTDC přidáváme anotace založené na klíčových slovech a bodové vzájemné informaci, čímž umožňujeme evaluaci atribučních metod na české datové sadě. Používáme sedm modelů různých velikostí a architektur, každý s pěti instancemi, což nám umožňuje měřit vliv náhodné inicializace a velikosti modelu. Používáme také destilovaný vícejazyčný model na datové sadě CTDC a ukazujeme, že se rozhoduje racionálně i při použití s jazykem méně frekventovaným v předtrénování. Testujeme atribuční metody s různými referenčními vstupy a počty vzorků, což poskytuje cenné poznatky pro praktické aplikace. Ukazujeme, že přeučení negativně ovlivňuje atribuční metody využívající gradient, zatímco u metody KernelSHAP, která gradient nevyužívá, dochází k velmi malému zhoršení.	cs
dc.format	73 s.
dc.language.iso	cs
dc.publisher	Západočeská univerzita v Plzni
dc.rights	Plný text práce je přístupný bez omezení
dc.subject	vysvětlitelná umělá inteligence	cs
dc.subject	transformer	cs
dc.subject	neuronové sítě	cs
dc.subject	strojové učení	cs
dc.subject	zpracování přirozeného jazyka	cs
dc.subject	atribuční metody	cs
dc.title	Atribuční metody pro Transformer modely	cs
dc.title.alternative	Attribution methods for explaining Transformers	en
dc.type	diplomová práce
dc.thesis.degree-name	Ing.
dc.thesis.degree-level	Navazující
dc.thesis.degree-grantor	Západočeská univerzita v Plzni. Fakulta aplikovaných věd
dc.thesis.degree-program	Inženýrská informatika
dc.description.result	Obhájeno
dc.description.abstract-translated	In this thesis, we evaluate multiple attribution methods applicable to Transformer models using the SST and CTDC datasets. We extend the CTDC dataset by adding ground-truth annotations based on keywords and pointwise mutual information, creating a ground-truth evaluation benchmark for the Czech language. We fine-tune seven models of various sizes and architectures with five instances each, allowing us to measure the effect of random initialization and model size. We also evaluate a distilled multilingual model on the CTDC dataset, showing that it makes rational decisions even when used with a language less represented in the pre-training process. We test attribution methods with different baseline references and sample counts, providing valuable insight for practical applications. We show that overfitting negatively affects gradient-based attribution methods, while KernelSHAP sees little performance degradation.	en
dc.subject.translated	explainable ai	en
dc.subject.translated	transformer	en
dc.subject.translated	neural networks	en
dc.subject.translated	machine learning	en
dc.subject.translated	natural language processing	en
dc.subject.translated	attribution methods	en
Vyskytuje se v kolekcích:	Diplomové práce / Theses (KIV)

Soubory připojené k záznamu:

Soubor	Popis	Velikost	Formát
prace.pdf	Plný text práce	2,05 MB	Adobe PDF	Zobrazit/otevřít
A21N0038Pposudek-op.pdf	Posudek oponenta práce	107,04 kB	Adobe PDF	Zobrazit/otevřít
A21N0038Phodnoceni-ved.pdf	Posudek vedoucího práce	232,37 kB	Adobe PDF	Zobrazit/otevřít
A21N0038Pobhajoba.pdf	Průběh obhajoby práce	522,62 kB	Adobe PDF	Zobrazit/otevřít

Zobrazit minimální záznam Zobrazit statistiky

Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/53734

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.

hledání

navigace