Metodi Entropici e Distanze di Similarita'

Degli Esposti, Mirko

Negli ultimi anni si e' resa disponibile una grande quantita' di dati sotto forma di sequenze simboliche e l'afflusso mantiene un andamento crescente. Per citare solo alcuni esempi: sequenze biologiche come genomi e proteine, testi scritti, pagine web, immagini e files musicali, sequenze temporali biomediche, fisiche, geologiche, dati scientifici ottenuti da modellizzazioni numeriche. Tutto cio' rende necessario e sempre piu' interessante lo sviluppo di tecniche e metodologie utili al trattamento ed elaborazione di dati di questa natura, spesso ''non strutturati''. L'elenco dei problemi piu' rilevanti a questo riguardo comprende: quantificare il contenuto informativo, comprimere, catalogare e comparare stringhe simboliche. Cio' si traduce nei vari contesti applicativi nello sviluppo di motori di ricerca efficienti, nel "data mining", nel riconoscimento del soggetto e dell'autore di un testo, nella classificazione e segmentazione di sequenze genomiche e proteiche a seconda della loro funzionalita'. Il progetto si propone di sviluppare tecniche matematiche e algoritmi numerici innovativi adatti all'analisi del contenuto informativo di sequenze simboliche. Per sua natura, il progetto ha un carattere fortemente multidisciplinare: pur essendo centrato prevalentemente su alcuni recenti sviluppi nel campo della fisica-matematica, le applicazioni ricadono nell'ambito di diversi settori disciplinari, quali la linguistica, la medicina e la biologia molecolare. Nella ricerca di strumenti utili ai fini delle applicazioni su vasta scala, l'attenzione va rivolta a metodi in grado di cogliere analogie strutturali tra le stringhe e, soprattutto, che siano '' computabili'' e ''realisticamente implementabili'' nelle applicazioni concrete. Tutti gli approcci oggetto di questo Progetto Strategico rientrano in quest'ultima categoria e sono tutti basati su metodi cosidetti ''alignment-free'', ovvero che non prevedono un ''allineamento'' delle sequenze, procedura tipicamente estremamente ''pesante'' dal punto di vista computazionale. Le idee fondamentali che stanno alla base dei metodi che intendiamo sviluppare durante la prima fase provengono da solide e tradizionali aree di ricerca e si collocano in quell'area di intersezione tra la Teoria dell'Informazione, la Teoria dei Sistemi Dinamici e la Meccanica Statistica. E' pero' cruciale rimarcare che l'impulso decisivo alla creazione di questo Progetto Strategico proviene da alcuni risultati sperimentali molto recenti che hanno evidenziato, a nostro avviso in maniera molto chiara, l'efficacia di questi metodi in diversi campi d'applicazione.

CRIS Current Research Information System