Presso la SSLiMIT di Forlì sono in fase di elaborazione avanzata l’annotazione morfosintattica (POS-Tagging) e la categorizzazione tematica, compiute secondo le linee guida TEI (cfr. http://www.tei-c.org/P4X/), del corpus de “la Repubblica”, il secondo quotidiano italiano per numero di lettori: si tratta di un ampio insieme di testi, la cui dimensione si aggira attualmente sui 130 milioni di parole con gli articoli dal 1985 al 1992, ma che una volta completato arriverà a 400 milioni di parole raccogliendo tutti i testi pubblicati fino al 2000. Oltre a quelle su singole parole specifiche il corpus annotato permette ricerche su sintagmi e classi di parole, e consente inoltre di selezionare sub-corpora costituiti ad es. dagli articoli di un certo autore, oppure da quelli pubblicati in un certo mese, o da quelli relativi ad un certo argomento, etc. La ricerca presentata nella comunicazione all'VIII cvonvegno SILFI (che è stata poi pubblicata negli Atti e di cui qui si segnala il Riassutno presentato per il Call for Papers e distribuito in volume all'inizio del Convegno) ha l'articolazione descritta di séguito: sul corpus sopra citato, che per l’italiano è probabilmente il più ampio attualmente disponibile e liberamente consultabile a scopi di ricerca (cfr. http://www.cilta.unibo.it/ricerca.htm), intenderemmo cercare le occorrenze di toponimi non italiani per verificarne la distribuzione in senso quantitativo e – almeno parzialmente – qualitativo. Oltre ad individuare la proporzione fra le occorrenze dei toponimi in relazione alle loro diverse aree geografiche di riferimento (compreso il rapporto type/token), controllando anche eventuali mutamenti nel corso degli anni, vorremmo verificare se la strategia utilizzata per ‘trasferire’ il toponimo straniero in italiano è di carattere totalmente (Parigi vs Paris, Barcellona vs Barcelona, Londra vs London, Dublino vs Dublin, Magonza vs Mainz, Zurigo vs Zürich, Città del Capo vs Cape Town, Pechino vs ?) o parzialmente (Nuova York vs New York) “acclimatante” oppure no (Besançon, Bruxelles, Madrid, Birmingham, Saarbrücken, Washington, Rio de Janeiro…). Fra le categorie di articolazione del materiale testuale disponibile, al livello esterno oltre alla dimensione cronologico-diacronica vorremmo tener presente la dimensione tematica (religione, cultura, economia, educazione, cronaca, politica, scienza, costume, sport, meteo) e/o il genere dell’articolo – resoconto vs commento –, mentre al livello della strutturazione interna si potrebbe distinguere in primo luogo fra il titolo e l’apparato sottotitolo-occhiello da una parte ed il testo dall’altra, e successivamente nel testo fra l’inizio (dove compare il nome del luogo di redazione/pertinenza dell’articolo) ed il testo vero e proprio. La ricerca si struttura dunque in due parti: da un lato, ci poniamo il problema informatico di come si possano identificare semi-automaticamente i toponimi in un corpus; dall’altro, l’analisi dei dati estratti con gli strumenti informatici dovrebbe fornire, speriamo, indicazioni sulle tendenze che hanno caratterizzato la lingua italiana in anni recenti. I due aspetti sono strettamente connessi, poiché solo un metodo di estrazione dei toponimi che tenga attentamente conto delle forme che essi possono assumere in italiano contemporaneo potrà portarci a scoprire risultati che non siano frutto di assunzioni a priori sulle caratteristiche dei toponimi medesimi.

I toponimi stranieri nella stampa quotidiana italiana: una ricerca sul corpus de "la Repubblica"

M. Mazzoleni
2004

Abstract

Presso la SSLiMIT di Forlì sono in fase di elaborazione avanzata l’annotazione morfosintattica (POS-Tagging) e la categorizzazione tematica, compiute secondo le linee guida TEI (cfr. http://www.tei-c.org/P4X/), del corpus de “la Repubblica”, il secondo quotidiano italiano per numero di lettori: si tratta di un ampio insieme di testi, la cui dimensione si aggira attualmente sui 130 milioni di parole con gli articoli dal 1985 al 1992, ma che una volta completato arriverà a 400 milioni di parole raccogliendo tutti i testi pubblicati fino al 2000. Oltre a quelle su singole parole specifiche il corpus annotato permette ricerche su sintagmi e classi di parole, e consente inoltre di selezionare sub-corpora costituiti ad es. dagli articoli di un certo autore, oppure da quelli pubblicati in un certo mese, o da quelli relativi ad un certo argomento, etc. La ricerca presentata nella comunicazione all'VIII cvonvegno SILFI (che è stata poi pubblicata negli Atti e di cui qui si segnala il Riassutno presentato per il Call for Papers e distribuito in volume all'inizio del Convegno) ha l'articolazione descritta di séguito: sul corpus sopra citato, che per l’italiano è probabilmente il più ampio attualmente disponibile e liberamente consultabile a scopi di ricerca (cfr. http://www.cilta.unibo.it/ricerca.htm), intenderemmo cercare le occorrenze di toponimi non italiani per verificarne la distribuzione in senso quantitativo e – almeno parzialmente – qualitativo. Oltre ad individuare la proporzione fra le occorrenze dei toponimi in relazione alle loro diverse aree geografiche di riferimento (compreso il rapporto type/token), controllando anche eventuali mutamenti nel corso degli anni, vorremmo verificare se la strategia utilizzata per ‘trasferire’ il toponimo straniero in italiano è di carattere totalmente (Parigi vs Paris, Barcellona vs Barcelona, Londra vs London, Dublino vs Dublin, Magonza vs Mainz, Zurigo vs Zürich, Città del Capo vs Cape Town, Pechino vs ?) o parzialmente (Nuova York vs New York) “acclimatante” oppure no (Besançon, Bruxelles, Madrid, Birmingham, Saarbrücken, Washington, Rio de Janeiro…). Fra le categorie di articolazione del materiale testuale disponibile, al livello esterno oltre alla dimensione cronologico-diacronica vorremmo tener presente la dimensione tematica (religione, cultura, economia, educazione, cronaca, politica, scienza, costume, sport, meteo) e/o il genere dell’articolo – resoconto vs commento –, mentre al livello della strutturazione interna si potrebbe distinguere in primo luogo fra il titolo e l’apparato sottotitolo-occhiello da una parte ed il testo dall’altra, e successivamente nel testo fra l’inizio (dove compare il nome del luogo di redazione/pertinenza dell’articolo) ed il testo vero e proprio. La ricerca si struttura dunque in due parti: da un lato, ci poniamo il problema informatico di come si possano identificare semi-automaticamente i toponimi in un corpus; dall’altro, l’analisi dei dati estratti con gli strumenti informatici dovrebbe fornire, speriamo, indicazioni sulle tendenze che hanno caratterizzato la lingua italiana in anni recenti. I due aspetti sono strettamente connessi, poiché solo un metodo di estrazione dei toponimi che tenga attentamente conto delle forme che essi possono assumere in italiano contemporaneo potrà portarci a scoprire risultati che non siano frutto di assunzioni a priori sulle caratteristiche dei toponimi medesimi.
2004
Programma e riassunti del'VIII Convegno SILFI "Lingua, cultura e intercultura: l'italiano e le altre lingue" (Copenhagen, CBS, 22-26 giugno 2004)
102
103
Baroni, M.; Mazzoleni, M.
File in questo prodotto:
Eventuali allegati, non sono esposti

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11585/8712
 Attenzione

Attenzione! I dati visualizzati non sono stati sottoposti a validazione da parte dell'ateneo

Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact