Nelle fasi che precedono un’analisi statistica di dati testuali, il corpus da analizzare viene solitamente sottoposto a diversi trattamenti preliminari, nel tentativo di migliorare la qualità del dato analizzato e di conseguenza la validità dei risultati delle elaborazioni statistiche successive. Operazioni di normalizzazione, lemmatizzazione e/o lessicalizzazione permettono di ridurre le ambiguità ed eliminare variazioni non significative sul piano semantico (il “rumore di fondo”), ma allo stesso tempo rischiano di modificare l’integrità del testo raccolto, con incognite ed insidie non trascurabili. Scopo di questo contributo è indagare se e in che misura i trattamenti preliminari su di un corpus costituito da interviste semi-strutturate incidono sui risultati ottenuti quando il corpus stesso viene analizzato con il software ALCESTE. Tali trattamenti sono stati introdotti per tre livelli progressivi: il primo livello è quello realizzato automaticamente dal software (lemmatizzazione basata su un dizionario ristretto e un algoritmo di derivazione dei lemmi), accompagnato dalla normalizzazione del testo. Al secondo livello sono state corrette le lemmatizzazioni indebite prodotte da ALCESTE e sono state lessicalizzate le forme più pertinenti rispetto al campo semantico della ricerca; al terzo livello sono state sistematicamente lemmatizzate tutte le forme al di sopra di una soglia predefinita di occorrenze. Sono stati quindi confrontati i risultati della Classificazione Discendente Gerarchica ottenuta da ALCESTE a partire dalle tre versioni dello stesso corpus. I risultati, che certo non possono dirsi conclusivi, evidenziano che gli interventi non producono effetti rilevanti sui risultati dell’analisi, per quanto facciano comunque registrare alcuni miglioramenti oggettivi nella stabilità delle classi e nel contenuto dei vocabolari specifici delle stesse. In particolare, soltanto l’intervento di lemmatizzazione più sistematico induce variazioni apprezzabili rispetto alla lemmatizzazione automatica effettuata da ALCESTE.
C. Tomasetto, A. Cattaneo, P. Selleri (2006). Molto rumore per nulla? Gli effetti della lemmatizzazione sull’analisi di un corpus di interviste con Alceste. BESANÇON : Presses Universitaires de Franche-Comté.
Molto rumore per nulla? Gli effetti della lemmatizzazione sull’analisi di un corpus di interviste con Alceste
TOMASETTO, CARLO;CATTANEO, ALBERTO ALFREDO PAOLO;SELLERI, PATRIZIA
2006
Abstract
Nelle fasi che precedono un’analisi statistica di dati testuali, il corpus da analizzare viene solitamente sottoposto a diversi trattamenti preliminari, nel tentativo di migliorare la qualità del dato analizzato e di conseguenza la validità dei risultati delle elaborazioni statistiche successive. Operazioni di normalizzazione, lemmatizzazione e/o lessicalizzazione permettono di ridurre le ambiguità ed eliminare variazioni non significative sul piano semantico (il “rumore di fondo”), ma allo stesso tempo rischiano di modificare l’integrità del testo raccolto, con incognite ed insidie non trascurabili. Scopo di questo contributo è indagare se e in che misura i trattamenti preliminari su di un corpus costituito da interviste semi-strutturate incidono sui risultati ottenuti quando il corpus stesso viene analizzato con il software ALCESTE. Tali trattamenti sono stati introdotti per tre livelli progressivi: il primo livello è quello realizzato automaticamente dal software (lemmatizzazione basata su un dizionario ristretto e un algoritmo di derivazione dei lemmi), accompagnato dalla normalizzazione del testo. Al secondo livello sono state corrette le lemmatizzazioni indebite prodotte da ALCESTE e sono state lessicalizzate le forme più pertinenti rispetto al campo semantico della ricerca; al terzo livello sono state sistematicamente lemmatizzate tutte le forme al di sopra di una soglia predefinita di occorrenze. Sono stati quindi confrontati i risultati della Classificazione Discendente Gerarchica ottenuta da ALCESTE a partire dalle tre versioni dello stesso corpus. I risultati, che certo non possono dirsi conclusivi, evidenziano che gli interventi non producono effetti rilevanti sui risultati dell’analisi, per quanto facciano comunque registrare alcuni miglioramenti oggettivi nella stabilità delle classi e nel contenuto dei vocabolari specifici delle stesse. In particolare, soltanto l’intervento di lemmatizzazione più sistematico induce variazioni apprezzabili rispetto alla lemmatizzazione automatica effettuata da ALCESTE.I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.