Il corpus, di 810.715 parole, è costituito da 2.137 testi redatti da altrettanti studenti iscritti al II anno di corsi di studio triennali e magistrali a ciclo unico di 44 Atenei nell'a.a. 2020/21, raccolti nell'ambito del progetto PRIN 2017 “Univers-ITA. L'italiano scritto degli studenti universitari: quadro sociolinguistico, tendenze tipologiche, implicazioni didattiche” (coordinato da Nicola Grandi). Il campione di partecipanti è rappresentativo sia per aree disciplinari (umanistica, scientifica, sanitaria, sociale), sia per aree geografiche (nord, centro, sud+isole). I testi, mediamente di 400 parole, sono stati compilati secondo una traccia comune. I testi sono stati sottoposti ad una rigorosa analisi, sia quantitativa (attraverso un software che ha identificato caratteristiche come il numero di parole diverse, il numero di frasi, ecc.) sia qualitativa (attraverso una annotazione manuale di tutti i fenomeni devianti rispetto a quanto previsto dalla grammatica normativa dell’italiano rispetto a categorie come ortografia, punteggiatura, coesione e coerenza testuale, ecc.). I 2.137 studenti, dopo aver redatto i testi, hanno compilato un questionario sociobiografico di 58 domande, suddiviso in quattro sezioni: Profilo personale e familiare; Biografia linguistica e educativa; Consumi culturali; Atteggiamenti ed esperienze relativi alla scrittura. Le risposte fornite alle domande del questionario, al pari delle annotazioni qualitative e dei dati quantitativi, rappresentano il ricchissimo apparato di metadati del corpus. Questi metadati consentono di operare ricerche con grado elevato di complessità: ad esempio, combinando varie chiavi di ricerca, è possibile estrarre i testi che contengono annotazioni sul lessico, redatti da studenti e studentesse di area umanistica, iscritti/e in Atenei del Sud, ecc.; oppure è possibile estrarre i testi redatti da studenti con diploma secondario di tipo tecnico che parlano un'altra lingua oltre all'italiano, ecc. In questo modo è possibile individuare correlazioni sistematiche tra caratteristiche strutturali dei testi e profili degli e delle scriventi. Il corpus rappresenta ad oggi l’unica mappatura sistematica e rappresentativa delle competenze di scrittura formale degli studenti universitari. Esso può essere utilizzato sia per uno studio scientifico di questa porzione del diasistema italiano, sia come base per costruire percorsi didattici finalizzati al rafforzamento delle competenze di scrittura nelle aree in cui emergano reali debolezze.

Grandi, N., Ballarè, S., Chiusaroli, F., Gallina, F., Pascoli, M., Pistolesi, E. (2023). Corpus Univers-ITA [10.60760/unibo/univers-ita].

Corpus Univers-ITA

GRANDI N.;BALLARÈ S.;PASCOLI M.;
2023

Abstract

Il corpus, di 810.715 parole, è costituito da 2.137 testi redatti da altrettanti studenti iscritti al II anno di corsi di studio triennali e magistrali a ciclo unico di 44 Atenei nell'a.a. 2020/21, raccolti nell'ambito del progetto PRIN 2017 “Univers-ITA. L'italiano scritto degli studenti universitari: quadro sociolinguistico, tendenze tipologiche, implicazioni didattiche” (coordinato da Nicola Grandi). Il campione di partecipanti è rappresentativo sia per aree disciplinari (umanistica, scientifica, sanitaria, sociale), sia per aree geografiche (nord, centro, sud+isole). I testi, mediamente di 400 parole, sono stati compilati secondo una traccia comune. I testi sono stati sottoposti ad una rigorosa analisi, sia quantitativa (attraverso un software che ha identificato caratteristiche come il numero di parole diverse, il numero di frasi, ecc.) sia qualitativa (attraverso una annotazione manuale di tutti i fenomeni devianti rispetto a quanto previsto dalla grammatica normativa dell’italiano rispetto a categorie come ortografia, punteggiatura, coesione e coerenza testuale, ecc.). I 2.137 studenti, dopo aver redatto i testi, hanno compilato un questionario sociobiografico di 58 domande, suddiviso in quattro sezioni: Profilo personale e familiare; Biografia linguistica e educativa; Consumi culturali; Atteggiamenti ed esperienze relativi alla scrittura. Le risposte fornite alle domande del questionario, al pari delle annotazioni qualitative e dei dati quantitativi, rappresentano il ricchissimo apparato di metadati del corpus. Questi metadati consentono di operare ricerche con grado elevato di complessità: ad esempio, combinando varie chiavi di ricerca, è possibile estrarre i testi che contengono annotazioni sul lessico, redatti da studenti e studentesse di area umanistica, iscritti/e in Atenei del Sud, ecc.; oppure è possibile estrarre i testi redatti da studenti con diploma secondario di tipo tecnico che parlano un'altra lingua oltre all'italiano, ecc. In questo modo è possibile individuare correlazioni sistematiche tra caratteristiche strutturali dei testi e profili degli e delle scriventi. Il corpus rappresenta ad oggi l’unica mappatura sistematica e rappresentativa delle competenze di scrittura formale degli studenti universitari. Esso può essere utilizzato sia per uno studio scientifico di questa porzione del diasistema italiano, sia come base per costruire percorsi didattici finalizzati al rafforzamento delle competenze di scrittura nelle aree in cui emergano reali debolezze.
2023
Grandi, N., Ballarè, S., Chiusaroli, F., Gallina, F., Pascoli, M., Pistolesi, E. (2023). Corpus Univers-ITA [10.60760/unibo/univers-ita].
Grandi, N.; Ballarè, S.; Chiusaroli, F.; Gallina, F.; Pascoli, M.; Pistolesi, E.
File in questo prodotto:
File Dimensione Formato  
Vademecum.pdf

accesso aperto

Descrizione: Banca dati
Tipo: File Supplementare
Licenza: Licenza per accesso libero gratuito
Dimensione 2.45 MB
Formato Adobe PDF
2.45 MB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11585/991756
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact