Il corpus, di 810.715 parole, è costituito da 2.137 testi redatti da altrettanti studenti iscritti al II anno di corsi di studio triennali e magistrali a ciclo unico di 44 Atenei nell'a.a. 2020/21, raccolti nell'ambito del progetto PRIN 2017 “Univers-ITA. L'italiano scritto degli studenti universitari: quadro sociolinguistico, tendenze tipologiche, implicazioni didattiche” (coordinato da Nicola Grandi). Il campione di partecipanti è rappresentativo sia per aree disciplinari (umanistica, scientifica, sanitaria, sociale), sia per aree geografiche (nord, centro, sud+isole). I testi, mediamente di 400 parole, sono stati compilati secondo una traccia comune. I testi sono stati sottoposti ad una rigorosa analisi, sia quantitativa (attraverso un software che ha identificato caratteristiche come il numero di parole diverse, il numero di frasi, ecc.) sia qualitativa (attraverso una annotazione manuale di tutti i fenomeni devianti rispetto a quanto previsto dalla grammatica normativa dell’italiano rispetto a categorie come ortografia, punteggiatura, coesione e coerenza testuale, ecc.). I 2.137 studenti, dopo aver redatto i testi, hanno compilato un questionario sociobiografico di 58 domande, suddiviso in quattro sezioni: Profilo personale e familiare; Biografia linguistica e educativa; Consumi culturali; Atteggiamenti ed esperienze relativi alla scrittura. Le risposte fornite alle domande del questionario, al pari delle annotazioni qualitative e dei dati quantitativi, rappresentano il ricchissimo apparato di metadati del corpus. Questi metadati consentono di operare ricerche con grado elevato di complessità: ad esempio, combinando varie chiavi di ricerca, è possibile estrarre i testi che contengono annotazioni sul lessico, redatti da studenti e studentesse di area umanistica, iscritti/e in Atenei del Sud, ecc.; oppure è possibile estrarre i testi redatti da studenti con diploma secondario di tipo tecnico che parlano un'altra lingua oltre all'italiano, ecc. In questo modo è possibile individuare correlazioni sistematiche tra caratteristiche strutturali dei testi e profili degli e delle scriventi. Il corpus rappresenta ad oggi l’unica mappatura sistematica e rappresentativa delle competenze di scrittura formale degli studenti universitari. Esso può essere utilizzato sia per uno studio scientifico di questa porzione del diasistema italiano, sia come base per costruire percorsi didattici finalizzati al rafforzamento delle competenze di scrittura nelle aree in cui emergano reali debolezze.
Grandi, N., Ballarè, S., Chiusaroli, F., Gallina, F., Pascoli, M., Pistolesi, E. (2023). Corpus Univers-ITA [10.60760/unibo/univers-ita].
Corpus Univers-ITA
GRANDI N.;BALLARÈ S.;PASCOLI M.;
2023
Abstract
Il corpus, di 810.715 parole, è costituito da 2.137 testi redatti da altrettanti studenti iscritti al II anno di corsi di studio triennali e magistrali a ciclo unico di 44 Atenei nell'a.a. 2020/21, raccolti nell'ambito del progetto PRIN 2017 “Univers-ITA. L'italiano scritto degli studenti universitari: quadro sociolinguistico, tendenze tipologiche, implicazioni didattiche” (coordinato da Nicola Grandi). Il campione di partecipanti è rappresentativo sia per aree disciplinari (umanistica, scientifica, sanitaria, sociale), sia per aree geografiche (nord, centro, sud+isole). I testi, mediamente di 400 parole, sono stati compilati secondo una traccia comune. I testi sono stati sottoposti ad una rigorosa analisi, sia quantitativa (attraverso un software che ha identificato caratteristiche come il numero di parole diverse, il numero di frasi, ecc.) sia qualitativa (attraverso una annotazione manuale di tutti i fenomeni devianti rispetto a quanto previsto dalla grammatica normativa dell’italiano rispetto a categorie come ortografia, punteggiatura, coesione e coerenza testuale, ecc.). I 2.137 studenti, dopo aver redatto i testi, hanno compilato un questionario sociobiografico di 58 domande, suddiviso in quattro sezioni: Profilo personale e familiare; Biografia linguistica e educativa; Consumi culturali; Atteggiamenti ed esperienze relativi alla scrittura. Le risposte fornite alle domande del questionario, al pari delle annotazioni qualitative e dei dati quantitativi, rappresentano il ricchissimo apparato di metadati del corpus. Questi metadati consentono di operare ricerche con grado elevato di complessità: ad esempio, combinando varie chiavi di ricerca, è possibile estrarre i testi che contengono annotazioni sul lessico, redatti da studenti e studentesse di area umanistica, iscritti/e in Atenei del Sud, ecc.; oppure è possibile estrarre i testi redatti da studenti con diploma secondario di tipo tecnico che parlano un'altra lingua oltre all'italiano, ecc. In questo modo è possibile individuare correlazioni sistematiche tra caratteristiche strutturali dei testi e profili degli e delle scriventi. Il corpus rappresenta ad oggi l’unica mappatura sistematica e rappresentativa delle competenze di scrittura formale degli studenti universitari. Esso può essere utilizzato sia per uno studio scientifico di questa porzione del diasistema italiano, sia come base per costruire percorsi didattici finalizzati al rafforzamento delle competenze di scrittura nelle aree in cui emergano reali debolezze.File | Dimensione | Formato | |
---|---|---|---|
Vademecum.pdf
accesso aperto
Descrizione: Banca dati
Tipo:
File Supplementare
Licenza:
Licenza per accesso libero gratuito
Dimensione
2.45 MB
Formato
Adobe PDF
|
2.45 MB | Adobe PDF | Visualizza/Apri |
I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.