EPIC European Parliament Interpreting Corpus

Bendazzoli, Claudio; Sandrelli, Annalisa; Monti, C.; Russo, Mariachiara

EPIC è uno dei primi esempi di corpus elettronico nel campo degli studi sull'interpretazione simultanea. Contiene le trascrizioni di discorsi pronunciati in inglese, italiano e spagnolo (testi di partenza) al Parlamento europeo e le rispettive interpretazioni simultanee nelle altre due lingue (testi d'arrivo), coprendo tutte le possibili combinazioni e direzioni. EPIC risulta pertanto articolato in 9 sotto-corpora (originale inglese, interpretato dall'inglese allo spagnolo, interpretato dall'inglese all'italiano; originale spagnolo, interpretato dallo spagnolo all'inglese, interpretato dallo spagnolo in italiano; originale italiano, interpretato dall'italiano in inglese, interpretato dall'italiano in spagnolo). Data la sua struttura, EPIC può essere analizzato in una prospettiva comparabile, ovvero lingua originale e rispettive interpretazioni in quella stessa lingua (ad es. italiano originale vs. italiano interpretato) o in una prospettiva parallela, ovvero lingua originale e interpretazioni nelle altre due lingue. L'attuale dimensione del corpus è di 178.000 parole (token). Si tratta di un corpus aperto in costante espansione man mano che vengono trascritte tutte le 280 ore stimate di materiale registrato utile. Il materiale trascritto e archiviato in formato “.txt” (testo) viene trasformato in formato “.xml”, compatibile con i tagger da noi utilizzati (Treetagger e Freeling). Si tratta di applicazioni informatiche che assegnano automaticamente le categorie grammaticali alle parti del discorso (Part-Of-Speech tagging). I testi così annotati possono essere analizzati automaticamente, ad esempio nel nostro caso con i programmi offerti dall’IMS Corpus Work Bench (CWB), sviluppato presso l’Institute for Natural Language Processing dell’Università di Stoccarda. Tali programmi consentono di interrogare il corpus attraverso queries (richieste di informazione) formulate secondo le speciali regole sintattiche del linguaggio informatico CQP. In questo modo è possibile estrarre automaticamente informazioni linguistiche dal corpus, aumentando in maniera sostanziale le possibilità esplorative. All’inizio di ogni trascrizione è stato creato un header in cui sono fornite informazioni su: situazione di emissione (data), testo (durata, numero di parole, velocità media calcolata in parole al minuto, argomento trattato, modalità di esposizione) e oratore (nazionalità, lingua, sesso, funzione politica). Le queries possono essere effetuate anche in base a questi parametri per ricerche più mirate anche di tipo stilistico.

CRIS Current Research Information System