В статье описывается процесс создания двух корпусов, наце- ленных на документирование торлакской речи в Восточной Сербии и Западной Болгарии. Корпусы будут отражать базовые торлакские языковые признаки с учетом их географической и социолингвистической вариативности. Создание корпусов описывается от этапа выборки записанных в поле интервью до этапа их транскрибирования (для болгарского корпуса) и от этапа выборки до кодирования метаданных, морфосинтакси- ческой аннотации и публикации (для находящегося в открытом доступе Тимокского подкорпуса сербского корпуса объемом в 498,021 словоформ). Охарактеризованы проблемы, с которы- ми столкнулись разработчики на различных этапах создания корпусов, обоснованы пути их решения, причем основное вни- мание уделено лингвистической стороне дела. Даны разъясне- ния о сбалансированном применении собственно лингвистиче- ских и социолингвистических критериев при отборе образцов речи, подлежащих транскрибированию, о решениях в связи с трактовкой диалектных явлений в транскрипции и аннота- ции, о компьютерных методах аннотирования. Намечены так- же дальнейшие шаги, преимущественно в части расширения в близком будущем сербского корпуса Лужницким подкорпусом, а также о планах объединения сербских и болгарских материа- лов в едином “Устном торлакском диалектном комплексе” (англ. Spoken Torlak Dialect Corpus).

Miličević Petrović, M., Vuković, T., Mirić, M., Konior, D.V., Escher, A. (2023). Toward Sociolinguistic Corpora of Torlak. ZEITSCHRIFT FUER SLAVISCHE PHILOLOGIE, 79, 123-151.

Toward Sociolinguistic Corpora of Torlak

Miličević Petrović, Maja
;
2023

Abstract

В статье описывается процесс создания двух корпусов, наце- ленных на документирование торлакской речи в Восточной Сербии и Западной Болгарии. Корпусы будут отражать базовые торлакские языковые признаки с учетом их географической и социолингвистической вариативности. Создание корпусов описывается от этапа выборки записанных в поле интервью до этапа их транскрибирования (для болгарского корпуса) и от этапа выборки до кодирования метаданных, морфосинтакси- ческой аннотации и публикации (для находящегося в открытом доступе Тимокского подкорпуса сербского корпуса объемом в 498,021 словоформ). Охарактеризованы проблемы, с которы- ми столкнулись разработчики на различных этапах создания корпусов, обоснованы пути их решения, причем основное вни- мание уделено лингвистической стороне дела. Даны разъясне- ния о сбалансированном применении собственно лингвистиче- ских и социолингвистических критериев при отборе образцов речи, подлежащих транскрибированию, о решениях в связи с трактовкой диалектных явлений в транскрипции и аннота- ции, о компьютерных методах аннотирования. Намечены так- же дальнейшие шаги, преимущественно в части расширения в близком будущем сербского корпуса Лужницким подкорпусом, а также о планах объединения сербских и болгарских материа- лов в едином “Устном торлакском диалектном комплексе” (англ. Spoken Torlak Dialect Corpus).
2023
Miličević Petrović, M., Vuković, T., Mirić, M., Konior, D.V., Escher, A. (2023). Toward Sociolinguistic Corpora of Torlak. ZEITSCHRIFT FUER SLAVISCHE PHILOLOGIE, 79, 123-151.
Miličević Petrović, Maja; Vuković, Teodora; Mirić, Mirjana; Konior, Daria V.; Escher, Anastasia
File in questo prodotto:
File Dimensione Formato  
Miličević-Petrović Vuković Mirić Konior Escher.pdf

accesso riservato

Tipo: Versione (PDF) editoriale
Licenza: Licenza per accesso riservato
Dimensione 2.95 MB
Formato Adobe PDF
2.95 MB Adobe PDF   Visualizza/Apri   Contatta l'autore
ZfSlPh_Towards sociolinguistic corpora of Torlak_accepted_manuscript.pdf

Open Access dal 04/05/2024

Tipo: Postprint
Licenza: Licenza per Accesso Aperto. Altra tipologia di licenza compatibile con Open Access
Dimensione 1.04 MB
Formato Adobe PDF
1.04 MB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11585/926255
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? 0
social impact