Title: Cross-lingual word analogies using linear transformations between semantic spaces
Other Titles: Kroslinguální slovní analogie pomocí lineárních transformací sémantických prostorů
Authors: Brychcín, Tomáš
Taylor, Stephen
Svoboda, Lukáš
Citation: HEIGL, M., DÖRR, L., TIEFNIG, N., FIALA, D., SCHRAMM, M. A resource-preserving self-regulating Uncoupled MAC algorithm to be applied in incident detection. Computers & Security, 2019, roč. 85, č. AUG 2019, s. 270-287. ISSN 0167-4048.
Issue Date: 2019
Publisher: Elsevier
Document type: článek
article
URI: 2-s2.0-85066237307
http://hdl.handle.net/11025/35855
ISSN: 0957-4174
Keywords: Slovní analogie;Sémantické prostory;Lineární transformace;Slovní reprezentace;Kroslinguální sémantické prostory
Keywords in different language: Word analogies;Semantic spaces;Linear transformation;Word embeddings;Cross-lingual semantic spaces
Abstract: Schopnost reprezentovat význam slov je jedna ze základních úloh porozumění přirozenému jazyku (NLU) s aplikacemi do strojového překladu, sumarizace, odpovídání na otázky, vyhledávání informací atd. Poptávka po schopnosti zpracovávat multilinguální kontexty a přenášet znalosti mezi jazyky ovlivnila výzkum v oblasti kroslinguálních sémantických prostorů, které reprezentují význam slov napříč různými jazyky. S rostoucím zájmem o kroslinguální reprezentace je čím dál tím více důležité zkoumat vhodné způsoby evaluace. Evaluace založená na slovních analogiích je jedna z nejčastějších nástrojů pro evaluaci lingvistických vztahů (např. vztah muž vs. žena nebo vztahy mezi slovesnými časy) zakódovaných v monolinguálních reprezentacích významu. V tomto článku jdeme dál a zobecňujeme evaluaci slovních analogií na více jazyků. Přinášíme tak nový evaluační nástroj pro kroslinguální sémantické prostory. Náš přístup umožňuje zkoumání kroslinguálních projekcí a jejich vlivu na různé aspekty významu. Pomáháme tak odhalit slabiny nebo silné stránky kroslinguálních metod, a to dříve, než jsou použity ve finálních inteligentních systémech. Experimentujeme se šesti jazyky z různých rodin včetně angličtiny, němčiny, španělštiny, italštiny, češtiny a chorvatštiny. Nejnovější monolinguální sémantické prostory jsou transformovány do sdíleného prostoru pomocí slovníku překladů. Porovnáváme několik lineárních transformací a experimentujeme s monolinguálními (bez transformace), bilinguálními (jeden sémantický prostor je transformován do druhého) a multilinguálními (všechny sémantické prostory jsou transformovány do angličtiny) verzemi sémantických prostorů. Ukazujeme, že testované lineární transformace ponechávají vztahy mezi slovy (slovní analogie) a vedou k velmi zajímavým výsledkům. Dosahujeme průměrných přesností 51,1 % pro monolinguální, 43,1 % pro bilinguální a 38,2 % pro multilinguální sémantické prostory.
Abstract in different language: The connectivity of embedded systems is increasing accompanied with thriving technology such as Internet of Things/Everything (IoT/E), Connected Cars, Smart Cities, Industry 4.0, 5G or Software-Defined Everything. Apart from the benefits of these trends, the continuous networking offers hackers a broad spectrum of attack vectors. The identification of attacks or unknown behavior through Intrusion Detection Systems (IDS) has established itself as a conducive and mandatory mechanism apart from the protection by cryptographic schemes in a holistic security eco-system. In systems where resources are valuable goods and stand in contrast to the ever increasing amount of network traffic, sampling has become a useful utility in order to detect malicious activities on a manageable amount of data. In this work an algorithm – Uncoupled MAC – is presented which secures network communication through a cryptographic scheme by uncoupled Message Authentication Codes (MAC) but as a side effect also provides IDS functionality producing alarms based on the violation of Uncoupled MAC values. Through a novel self-regulation extension, the algorithm adapts its sampling parameters based on the detection of malicious actions. The evaluation in a virtualized environment clearly shows that the detection rate increases over runtime for different attack scenarios. Those even cover scenarios in which intelligent attackers try to exploit the downsides of sampling.
Rights: © Elsevier
Appears in Collections:Články / Articles (KIV)
OBD

Files in This Item:
File SizeFormat 
ESWA Brychcín.pdf741,6 kBAdobe PDFView/Open    Request a copy


Please use this identifier to cite or link to this item: http://hdl.handle.net/11025/35855

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

search
navigation
  1. DSpace at University of West Bohemia
  2. Publikační činnost / Publications
  3. OBD