Full metadata record
DC pole | Hodnota | Jazyk |
---|---|---|
dc.contributor.advisor | Konopík Miloslav, Ing. Ph.D. | |
dc.contributor.author | Pašek, Jan | |
dc.contributor.referee | Habernal Ivan, Ing. Ph.D. | |
dc.date.accepted | 2022-6-20 | |
dc.date.accessioned | 2022-07-18T22:33:53Z | - |
dc.date.available | 2021-9-10 | |
dc.date.available | 2022-07-18T22:33:53Z | - |
dc.date.issued | 2022 | |
dc.date.submitted | 2022-5-18 | |
dc.identifier | 89761 | |
dc.identifier.uri | http://hdl.handle.net/11025/49093 | - |
dc.description.abstract | Tato diplomová práce představuje CodeFormer, nový model neuronové sítě, schopný na základě popisu úlohy v anglickém jazyce generovat funkce v programovacím jazyce Python. Tento model, založený na architektuře modelu BART, je předtrénovaný na 230 milionech funkcích získaných z veřejných GitHub repozitářů. Po dotrénování na CodeSearchNet datasetu náš model překonává konkurenční modely a nastavuje tak nové state of the art s 46,12 BLEU, což představuje zlepšení o 13,86 BLEU. Vedle CodeFormer modelu tato práce představuje nový Stack Overflow Code Generation Dataset (SOCGD), který je určený k trénování generativních modelů zdrojových kódů. Na tomto datasetu náš model dosahuje výsledku 47,68 BLEU. Výsledný model lze integrovat do vývojových prostředí a umožnit tak programátorům generovat části zdrojových kódů s cílem zvýšit efektivitu jejich práce. V rámci našeho výzkumu jsme také objevili lepší přístup k trénování modelu BART na úloze strojového překladu. Použitelnost tohoto přístupu na jiných doménách je třeba ověřit v navazující práci. | cs |
dc.format | 97 s. (126 800 znaků) | |
dc.language.iso | en | |
dc.publisher | Západočeská univerzita v Plzni | |
dc.rights | Plný text práce je přístupný bez omezení | |
dc.subject | strojové učení | cs |
dc.subject | zpracování přirozeného jazyka | cs |
dc.subject | neuronové sítě | cs |
dc.subject | generování zdrojového kódu | cs |
dc.subject | syntéza kódu | cs |
dc.title | Generování zdrojových kódů na základě popisu v přirozeném jazyce | cs |
dc.title.alternative | Source Code Generation from Descriptions in a Natural Language | en |
dc.type | diplomová práce | |
dc.thesis.degree-name | Ing. | |
dc.thesis.degree-level | Navazující | |
dc.thesis.degree-grantor | Západočeská univerzita v Plzni. Fakulta aplikovaných věd | |
dc.thesis.degree-program | Inženýrská informatika | |
dc.description.result | Obhájeno | |
dc.description.abstract-translated | This work introduces CodeFormer, a Python source code generator pre-trained on a massive GitHub crawl consisting of 230M Python functions. The released model, built on BART architecture, generates Python functions based on descriptions in English. On a CodeSearchNet dataset, the CodeFormer sets a new state of the art with 46.12 BLEU, representing an improvement of 13.86 BLEU. We also release a new parallel corpus for code generation called Stack Overflow Code Generation Dataset (SOCGD), on which our model sets a baseline of 47.68 BLEU. The resulting model is ready to be integrated into a source code suggestion system in an IDE, where it can improve software developers' productivity. During our research, we discovered a better way of training the BART for machine translation. However, the applicability of our approach to other domains must be verified in subsequent work. | en |
dc.subject.translated | machine learning | en |
dc.subject.translated | natural language processing | en |
dc.subject.translated | neural networks | en |
dc.subject.translated | source code generation | en |
dc.subject.translated | code synthesis | en |
Vyskytuje se v kolekcích: | Diplomové práce / Theses (KIV) |
Soubory připojené k záznamu:
Soubor | Popis | Velikost | Formát | |
---|---|---|---|---|
A20N0098P_DP.pdf | Plný text práce | 2,67 MB | Adobe PDF | Zobrazit/otevřít |
A20N0098Pposudek-op.pdf | Posudek oponenta práce | 41,27 kB | Adobe PDF | Zobrazit/otevřít |
A20N0098Phodnoceni-ved.pdf | Posudek vedoucího práce | 128,43 kB | Adobe PDF | Zobrazit/otevřít |
A20N0098Pobhajoba.pdf | Průběh obhajoby práce | 584,11 kB | Adobe PDF | Zobrazit/otevřít |
Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam:
http://hdl.handle.net/11025/49093
Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.