Full metadata record
DC poleHodnotaJazyk
dc.contributor.authorKolář, Jáchym
dc.contributor.authorŠvec, Jan
dc.contributor.authorStrassel, Stephanie
dc.contributor.authorWalker, Christopher
dc.contributor.authorKozlíková, Dagmar
dc.contributor.authorPsutka, Josef
dc.date.accessioned2016-01-06T08:58:52Z
dc.date.available2016-01-06T08:58:52Z
dc.date.issued2005
dc.identifier.citationKOLÁŘ, Jáchym; ŠVEC, Jan; STRASSEL, Stephanie; WALKER, Christopher; KOZLÍKOVÁ, Dagmar; PSUTKA, Josef. Czech spontaneous speech corpus with structural metadata. In: Proceedings of ICSPL 2005: 6th Annual Conference of the International Speech Communication Association 2005, Lisboa, Portugal, 4-8 September 2005. [Baixas]: ISCA, 2005, p. 1165-1168. ISSN 1990-9772.en
dc.identifier.issn1990-9772
dc.identifier.urihttp://www.kky.zcu.cz/cs/publications/KolarJ_2005_Czechspontaneous
dc.identifier.urihttp://hdl.handle.net/11025/17115
dc.description.abstractTento článek popisuje český korpus spontánní řeči skládajícíse z nahrávek rozhlasových diskusních pořadů. Jako první kompletní neanglický MDE korpus byl anotován strukturálními metadaty, která zvyšují čitelnost přepisů člověkem a umožňují i další automatické zpracování. Anotace zahrnuje rozdělení přepisů do syntakticko-sémantických jednotek a identifikace výplní a neplynulostí. Mimo modifikací nutných pouze pro češtinu také navrhujeme některé modifikace nezávislé na jazyku, jako je například limitované prozodické značkování na hranicích syntakticko-sémantických jednotek.cs
dc.format4 s.cs
dc.format.mimetypeapplication/pdf
dc.language.isoenen
dc.publisherISCAen
dc.rights© Jáchym Kolář - Jan Švec - Stephanie Strassel - Christopher Walker - Dagmar KozlÍková - Josef Psutkacs
dc.subjectstrukturální metadatacs
dc.subjectspontánní řečcs
dc.subjectneplynulostcs
dc.subjectvýplněcs
dc.titleCzech spontaneous speech corpus with structural metadataen
dc.title.alternativeČeský korpus spontánní řeči s anotací strukturálních metadatcs
dc.typečlánekcs
dc.typearticleen
dc.rights.accessopenAccessen
dc.type.versionpublishedVersionen
dc.description.abstract-translatedThis paper describes a Czech spontaneous speech corpus consisting of radio talk show recordings. As the first complete non-English MDE corpus, it has been annotated with structural metadata information beyond the words that is critical to both increasing transcript readability and allowing application of downstream NLP methods. Metadata annotation involves partitioning verbatim transcripts into syntactic/semantic units (SUs) that function to express a complete idea; and identifying fillers and edit disfluencies. Annotation guidelines for English metadata developed by Linguistic Data Consortium were taken as the starting point, with changes applied to accommodate specific phenomena of Czech. In addition to the necessary language-dependent modifications, we further propose some language-independent modifications including limited prosodic labeling at SU boundaries. Statistics about the structural metadata annotation present in the corpus and inter-annotator agreement numbers are also presented.en
dc.subject.translatedstructural metadataen
dc.subject.translatedspontaneous speechen
dc.subject.translateddisfluenceen
dc.subject.translatedfillersen
dc.type.statusPeer-revieweden
Vyskytuje se v kolekcích:Články / Articles (KKY)

Soubory připojené k záznamu:
Soubor Popis VelikostFormát 
KolarJ_2005_Czechspontaneous.pdfPlný text80,02 kBAdobe PDFZobrazit/otevřít


Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam: http://hdl.handle.net/11025/17115

Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.