Nelle fasi che precedono un’analisi statistica di dati testuali, il corpus da analizzare viene solitamente sottoposto a diversi trattamenti preliminari, nel tentativo di migliorare la qualità del dato analizzato e di conseguenza la validità dei risultati delle elaborazioni statistiche successive. Operazioni di normalizzazione, lemmatizzazione e/o lessicalizzazione permettono di ridurre le ambiguità ed eliminare variazioni non significative sul piano semantico (il “rumore di fondo”), ma allo stesso tempo rischiano di modificare l’integrità del testo raccolto, con incognite ed insidie non trascurabili. Scopo di questo contributo è indagare se e in che misura i trattamenti preliminari su di un corpus costituito da interviste semi-strutturate incidono sui risultati ottenuti quando il corpus stesso viene analizzato con il software ALCESTE. Tali trattamenti sono stati introdotti per tre livelli progressivi: il primo livello è quello realizzato automaticamente dal software (lemmatizzazione basata su un dizionario ristretto e un algoritmo di derivazione dei lemmi), accompagnato dalla normalizzazione del testo. Al secondo livello sono state corrette le lemmatizzazioni indebite prodotte da ALCESTE e sono state lessicalizzate le forme più pertinenti rispetto al campo semantico della ricerca; al terzo livello sono state sistematicamente lemmatizzate tutte le forme al di sopra di una soglia predefinita di occorrenze. Sono stati quindi confrontati i risultati della Classificazione Discendente Gerarchica ottenuta da ALCESTE a partire dalle tre versioni dello stesso corpus. I risultati, che certo non possono dirsi conclusivi, evidenziano che gli interventi non producono effetti rilevanti sui risultati dell’analisi, per quanto facciano comunque registrare alcuni miglioramenti oggettivi nella stabilità delle classi e nel contenuto dei vocabolari specifici delle stesse. In particolare, soltanto l’intervento di lemmatizzazione più sistematico induce variazioni apprezzabili rispetto alla lemmatizzazione automatica effettuata da ALCESTE.

Molto rumore per nulla? Gli effetti della lemmatizzazione sull’analisi di un corpus di interviste con Alceste / C. Tomasetto; A. Cattaneo; P. Selleri. - STAMPA. - 2:(2006), pp. 915-926. (Intervento presentato al convegno 8èmes Journées Internationales d'Analyse Statistique des Données Textuelles tenutosi a Besançon nel 19-21/04/2006).

Molto rumore per nulla? Gli effetti della lemmatizzazione sull’analisi di un corpus di interviste con Alceste

TOMASETTO, CARLO;CATTANEO, ALBERTO ALFREDO PAOLO;SELLERI, PATRIZIA
2006

Abstract

Nelle fasi che precedono un’analisi statistica di dati testuali, il corpus da analizzare viene solitamente sottoposto a diversi trattamenti preliminari, nel tentativo di migliorare la qualità del dato analizzato e di conseguenza la validità dei risultati delle elaborazioni statistiche successive. Operazioni di normalizzazione, lemmatizzazione e/o lessicalizzazione permettono di ridurre le ambiguità ed eliminare variazioni non significative sul piano semantico (il “rumore di fondo”), ma allo stesso tempo rischiano di modificare l’integrità del testo raccolto, con incognite ed insidie non trascurabili. Scopo di questo contributo è indagare se e in che misura i trattamenti preliminari su di un corpus costituito da interviste semi-strutturate incidono sui risultati ottenuti quando il corpus stesso viene analizzato con il software ALCESTE. Tali trattamenti sono stati introdotti per tre livelli progressivi: il primo livello è quello realizzato automaticamente dal software (lemmatizzazione basata su un dizionario ristretto e un algoritmo di derivazione dei lemmi), accompagnato dalla normalizzazione del testo. Al secondo livello sono state corrette le lemmatizzazioni indebite prodotte da ALCESTE e sono state lessicalizzate le forme più pertinenti rispetto al campo semantico della ricerca; al terzo livello sono state sistematicamente lemmatizzate tutte le forme al di sopra di una soglia predefinita di occorrenze. Sono stati quindi confrontati i risultati della Classificazione Discendente Gerarchica ottenuta da ALCESTE a partire dalle tre versioni dello stesso corpus. I risultati, che certo non possono dirsi conclusivi, evidenziano che gli interventi non producono effetti rilevanti sui risultati dell’analisi, per quanto facciano comunque registrare alcuni miglioramenti oggettivi nella stabilità delle classi e nel contenuto dei vocabolari specifici delle stesse. In particolare, soltanto l’intervento di lemmatizzazione più sistematico induce variazioni apprezzabili rispetto alla lemmatizzazione automatica effettuata da ALCESTE.
2006
Actes des 8èmes Journées Internationales d'Analyse Statistique des Données Textuelles
915
926
Molto rumore per nulla? Gli effetti della lemmatizzazione sull’analisi di un corpus di interviste con Alceste / C. Tomasetto; A. Cattaneo; P. Selleri. - STAMPA. - 2:(2006), pp. 915-926. (Intervento presentato al convegno 8èmes Journées Internationales d'Analyse Statistique des Données Textuelles tenutosi a Besançon nel 19-21/04/2006).
C. Tomasetto; A. Cattaneo; P. Selleri
File in questo prodotto:
Eventuali allegati, non sono esposti

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11585/28299
 Attenzione

Attenzione! I dati visualizzati non sono stati sottoposti a validazione da parte dell'ateneo

Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact