В статье описывается процесс создания двух корпусов, наце- ленных на документирование торлакской речи в Восточной Сербии и Западной Болгарии. Корпусы будут отражать базовые торлакские языковые признаки с учетом их географической и социолингвистической вариативности. Создание корпусов описывается от этапа выборки записанных в поле интервью до этапа их транскрибирования (для болгарского корпуса) и от этапа выборки до кодирования метаданных, морфосинтакси- ческой аннотации и публикации (для находящегося в открытом доступе Тимокского подкорпуса сербского корпуса объемом в 498,021 словоформ). Охарактеризованы проблемы, с которы- ми столкнулись разработчики на различных этапах создания корпусов, обоснованы пути их решения, причем основное вни- мание уделено лингвистической стороне дела. Даны разъясне- ния о сбалансированном применении собственно лингвистиче- ских и социолингвистических критериев при отборе образцов речи, подлежащих транскрибированию, о решениях в связи с трактовкой диалектных явлений в транскрипции и аннота- ции, о компьютерных методах аннотирования. Намечены так- же дальнейшие шаги, преимущественно в части расширения в близком будущем сербского корпуса Лужницким подкорпусом, а также о планах объединения сербских и болгарских материа- лов в едином “Устном торлакском диалектном комплексе” (англ. Spoken Torlak Dialect Corpus).
Toward Sociolinguistic Corpora of Torlak
Miličević Petrović, Maja
;
2023
Abstract
В статье описывается процесс создания двух корпусов, наце- ленных на документирование торлакской речи в Восточной Сербии и Западной Болгарии. Корпусы будут отражать базовые торлакские языковые признаки с учетом их географической и социолингвистической вариативности. Создание корпусов описывается от этапа выборки записанных в поле интервью до этапа их транскрибирования (для болгарского корпуса) и от этапа выборки до кодирования метаданных, морфосинтакси- ческой аннотации и публикации (для находящегося в открытом доступе Тимокского подкорпуса сербского корпуса объемом в 498,021 словоформ). Охарактеризованы проблемы, с которы- ми столкнулись разработчики на различных этапах создания корпусов, обоснованы пути их решения, причем основное вни- мание уделено лингвистической стороне дела. Даны разъясне- ния о сбалансированном применении собственно лингвистиче- ских и социолингвистических критериев при отборе образцов речи, подлежащих транскрибированию, о решениях в связи с трактовкой диалектных явлений в транскрипции и аннота- ции, о компьютерных методах аннотирования. Намечены так- же дальнейшие шаги, преимущественно в части расширения в близком будущем сербского корпуса Лужницким подкорпусом, а также о планах объединения сербских и болгарских материа- лов в едином “Устном торлакском диалектном комплексе” (англ. Spoken Torlak Dialect Corpus).File | Dimensione | Formato | |
---|---|---|---|
Miličević-Petrović Vuković Mirić Konior Escher.pdf
accesso riservato
Tipo:
Versione (PDF) editoriale
Licenza:
Licenza per accesso riservato
Dimensione
2.95 MB
Formato
Adobe PDF
|
2.95 MB | Adobe PDF | Visualizza/Apri Contatta l'autore |
ZfSlPh_Towards sociolinguistic corpora of Torlak_accepted_manuscript.pdf
embargo fino al 03/05/2024
Tipo:
Postprint
Licenza:
Licenza per Accesso Aperto. Altra tipologia di licenza compatibile con Open Access
Dimensione
1.04 MB
Formato
Adobe PDF
|
1.04 MB | Adobe PDF | Visualizza/Apri Contatta l'autore |
I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.