L’obiettivo generale che si pone il progetto consiste nel contribuire a superare le barriere tecnologiche che impediscono agli utenti del web utilizzare un’ampia quantità di testi scritti in italiano contemporaneo per migliorare le proprie conoscenze linguistiche accedendovi in maniera interattiva. Il progetto si rivolge in particolar modo agli emigrati di seconda generazione, che hanno l’italiano come lingua materna ma ne fanno un uso molto limitato, e di terza generazione, che parlano l’italiano come seconda lingua (L2). Per raggiungere questo obiettivo è stato costituito un ampio corpus di testi web in lingua italiana annotati nel dettaglio. Per la prima volta sono stati utilizzati dei testi liberamente disponibili (licenze creative commons) per costituire il corpus, selezionati in maniera automatica da Internet. In seguito sono stati aggiunti diversi livelli di annotazione (informazioni morfosintattiche, relazioni di dipendenza, ecc.) grazie agli strumenti per il trattamento automatico della lingua (o NLP, natural language processing) che si possono aggiustare e migliorare nel corso del progetto integrando manualmente altre informazioni per l’annotazione. La versione non annotata del corpus e la versione annotata possono essere scaricate gratuitamente. Inoltre, i parlanti e gli apprendenti della lingua italiana potranno accedere direttamente ai dati attraverso un’interfaccia di ricerca complessa. In tal modo è garantito l’accesso gratuito online a testi che documentano l’uso reale e contemporaneo della lingua italiana.
Francesca Masini (2013). PAISA': Piattaforma per l'Apprendimento dell'Italiano Su corpora Annotati.
PAISA': Piattaforma per l'Apprendimento dell'Italiano Su corpora Annotati
MASINI, FRANCESCA
2013
Abstract
L’obiettivo generale che si pone il progetto consiste nel contribuire a superare le barriere tecnologiche che impediscono agli utenti del web utilizzare un’ampia quantità di testi scritti in italiano contemporaneo per migliorare le proprie conoscenze linguistiche accedendovi in maniera interattiva. Il progetto si rivolge in particolar modo agli emigrati di seconda generazione, che hanno l’italiano come lingua materna ma ne fanno un uso molto limitato, e di terza generazione, che parlano l’italiano come seconda lingua (L2). Per raggiungere questo obiettivo è stato costituito un ampio corpus di testi web in lingua italiana annotati nel dettaglio. Per la prima volta sono stati utilizzati dei testi liberamente disponibili (licenze creative commons) per costituire il corpus, selezionati in maniera automatica da Internet. In seguito sono stati aggiunti diversi livelli di annotazione (informazioni morfosintattiche, relazioni di dipendenza, ecc.) grazie agli strumenti per il trattamento automatico della lingua (o NLP, natural language processing) che si possono aggiustare e migliorare nel corso del progetto integrando manualmente altre informazioni per l’annotazione. La versione non annotata del corpus e la versione annotata possono essere scaricate gratuitamente. Inoltre, i parlanti e gli apprendenti della lingua italiana potranno accedere direttamente ai dati attraverso un’interfaccia di ricerca complessa. In tal modo è garantito l’accesso gratuito online a testi che documentano l’uso reale e contemporaneo della lingua italiana.I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.