L’obiettivo generale che si pone il progetto consiste nel contribuire a superare le barriere tecnologiche che impediscono agli utenti del web utilizzare un’ampia quantità di testi scritti in italiano contemporaneo per migliorare le proprie conoscenze linguistiche accedendovi in maniera interattiva. Il progetto si rivolge in particolar modo agli emigrati di seconda generazione, che hanno l’italiano come lingua materna ma ne fanno un uso molto limitato, e di terza generazione, che parlano l’italiano come seconda lingua (L2). Per raggiungere questo obiettivo è stato costituito un ampio corpus di testi web in lingua italiana annotati nel dettaglio. Per la prima volta sono stati utilizzati dei testi liberamente disponibili (licenze creative commons) per costituire il corpus, selezionati in maniera automatica da Internet. In seguito sono stati aggiunti diversi livelli di annotazione (informazioni morfosintattiche, relazioni di dipendenza, ecc.) grazie agli strumenti per il trattamento automatico della lingua (o NLP, natural language processing) che si possono aggiustare e migliorare nel corso del progetto integrando manualmente altre informazioni per l’annotazione. La versione non annotata del corpus e la versione annotata possono essere scaricate gratuitamente. Inoltre, i parlanti e gli apprendenti della lingua italiana potranno accedere direttamente ai dati attraverso un’interfaccia di ricerca complessa. In tal modo è garantito l’accesso gratuito online a testi che documentano l’uso reale e contemporaneo della lingua italiana.

PAISA': Piattaforma per l'Apprendimento dell'Italiano Su corpora Annotati

MASINI, FRANCESCA
2013

Abstract

L’obiettivo generale che si pone il progetto consiste nel contribuire a superare le barriere tecnologiche che impediscono agli utenti del web utilizzare un’ampia quantità di testi scritti in italiano contemporaneo per migliorare le proprie conoscenze linguistiche accedendovi in maniera interattiva. Il progetto si rivolge in particolar modo agli emigrati di seconda generazione, che hanno l’italiano come lingua materna ma ne fanno un uso molto limitato, e di terza generazione, che parlano l’italiano come seconda lingua (L2). Per raggiungere questo obiettivo è stato costituito un ampio corpus di testi web in lingua italiana annotati nel dettaglio. Per la prima volta sono stati utilizzati dei testi liberamente disponibili (licenze creative commons) per costituire il corpus, selezionati in maniera automatica da Internet. In seguito sono stati aggiunti diversi livelli di annotazione (informazioni morfosintattiche, relazioni di dipendenza, ecc.) grazie agli strumenti per il trattamento automatico della lingua (o NLP, natural language processing) che si possono aggiustare e migliorare nel corso del progetto integrando manualmente altre informazioni per l’annotazione. La versione non annotata del corpus e la versione annotata possono essere scaricate gratuitamente. Inoltre, i parlanti e gli apprendenti della lingua italiana potranno accedere direttamente ai dati attraverso un’interfaccia di ricerca complessa. In tal modo è garantito l’accesso gratuito online a testi che documentano l’uso reale e contemporaneo della lingua italiana.
2013
2012
Francesca Masini
File in questo prodotto:
Eventuali allegati, non sono esposti

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11585/154030
 Attenzione

Attenzione! I dati visualizzati non sono stati sottoposti a validazione da parte dell'ateneo

Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact