Il presente rapporto tecnico ha lo scopo di fornire una visione d’insieme sui metodi, le tecnologie computazionali e gli strumenti disponibili e maggiormente utilizzati nell’ambito dell’estrazione di combinazioni di parole da corpora testuali, al fine di guidare la scelta di una metodologia appropriata per la realizzazione di un dizionario combinatorio dell’italiano secondo un approccio corpus-based. Il rapporto tecnico comprende due sezioni. Nella prima sezione vengono descritti i metodi computazionali più comunemente utilizzati per l’estrazione di combinazioni di parole o espressioni multiparola (MWE) da corpora; il rapporto si concentra su metodi e risorse impiegati per l’estrazione di MWE di lingua generale da corpora monolingui: non vengono quindi analizzati approcci più tipici della ricerca su linguaggi di specialità (in cui l’estrazione di MWE specializzate è spesso basata sul confronto tra corpora specialistici vs. corpora di riferimento), né studi condotti sull’identificazione di MWE mediante corpora paralleli. La seconda sezione è quindi dedicata ad un’analisi delle principali risorse esistenti e ad una loro valutazione preliminare.

Metodi e risorse computazionali per l’estrazione di combinazioni di parole da corpora

CASTAGNOLI, SARA;NISSIM, MALVINA;MASINI, FRANCESCA
2014

Abstract

Il presente rapporto tecnico ha lo scopo di fornire una visione d’insieme sui metodi, le tecnologie computazionali e gli strumenti disponibili e maggiormente utilizzati nell’ambito dell’estrazione di combinazioni di parole da corpora testuali, al fine di guidare la scelta di una metodologia appropriata per la realizzazione di un dizionario combinatorio dell’italiano secondo un approccio corpus-based. Il rapporto tecnico comprende due sezioni. Nella prima sezione vengono descritti i metodi computazionali più comunemente utilizzati per l’estrazione di combinazioni di parole o espressioni multiparola (MWE) da corpora; il rapporto si concentra su metodi e risorse impiegati per l’estrazione di MWE di lingua generale da corpora monolingui: non vengono quindi analizzati approcci più tipici della ricerca su linguaggi di specialità (in cui l’estrazione di MWE specializzate è spesso basata sul confronto tra corpora specialistici vs. corpora di riferimento), né studi condotti sull’identificazione di MWE mediante corpora paralleli. La seconda sezione è quindi dedicata ad un’analisi delle principali risorse esistenti e ad una loro valutazione preliminare.
2014
Sara Castagnoli; Malvina Nissim; Francesca Masini
File in questo prodotto:
Eventuali allegati, non sono esposti

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11585/395115
 Attenzione

Attenzione! I dati visualizzati non sono stati sottoposti a validazione da parte dell'ateneo

Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact