UNIGENE TABULATOR: UN PROGRAMMA PER EFFETTUARE IL PARSING COMPLETO DEL FORMATO DEI DATI DELLA BANCA “UNIGENE”

Lenzi, Luca; Frabetti, Flavia; Facchin, Federica; Casadei, Raffaella; Vitale, Lorenza; Canaider, Silvia; Carinci, Paolo; Zannotti, Maria; Strippoli, Pierluigi

UniGene è un sistema sperimentale per ripartire in maniera non ambigua le sequenze nucleotidiche contenute in GenBank ed attribuirle a gruppi di sequenze (cluster) rappresentativi di geni trascritti. Nella costruzione di UniGene, ad ogni locus genico è assegnato un gruppo di sequenze di RNA che possono essere determinate sperimentalmente in modo accurato “finished”, etichette di sequenze espresse (EST) o sequenze predette. Come conseguenza, UniGene risulta fondamentale in tutte le analisi bioinformatiche che coinvolgono dati a partire da sequenze nucleotidiche, come l’attribuzione di sonde nucleotidiche utilizzate nell’analisi del profilo d’espressione genica, l’integrazione dei dati tra banche dati differenti, l’identificazione di nuovi geni e la predizione della funzione o, infine, l’analisi di profili d’espressione per specifici tessuti o per posizione di mappa genica. Esistono due modalità per l’accesso ai dati UniGene: la ricerca di specifiche schede attraverso il portale web “Entrez” selezionando UniGene tra la lista di banche dati, o il prelievo dell’intera banca dati dal sito “ftp” abilitato. In entrambi i casi, il risultato è l’ottenimento di un file di testo semplice (flat file) da cui le informazioni necessarie devono essere estratte appositamente per essere utilizzate. Il processo di estrazione dati da un file di testo (parsing) richiede l’applicazione di conoscenze informatiche complesse, come i linguaggi BioPerl, JAVA o C++ utilizzati per analizzare le banche dati MedLine (Oliver et al. 2004) ed Entrez Gene (Liu and Grigoriev, 2005), o l’utilizzo di pacchetti software mirati, ad esempio GeneRecords (D’Addabbo et al. 2004) per analizzare il formato GenBank. Tuttavia, ad oggi, non esistono pubblicazioni riguardanti algoritmi o applicazioni dedicati al parsing del formato UniGene. UniGene Tabulator è stato da noi sviluppato per gestire i dati contenuti nel formato UniGene: il file di testo semplice viene importato direttamente in una banca dati apposita, al cui interno avviene il parsing delle informazioni. La banca dati è costituita da sei tabelle, una per ogni tipo di informazione presente nella scheda UniGene (informazioni generali, somiglianze con altre proteine note, sequenze STS note, dati di relativi alla mappa di trascrizione ed informazioni sulle genoteche utilizzate per la creazione delle EST, associate nel cluster UniGene) relazionate tra loro mediante l’identificativo del cluster UniGene. Ogni “record” di una tabella contiene i dati di una singola sequenza, o di un cluster solo per le informazioni generali, ed è suddiviso in campi che contengono i valori estratti. Ogni campo è indicizzato per eseguire rapidamente ricerche specifiche ed il risultato può essere esportato in un file di testo per essere utilizzato per ulteriori analisi o altre ricerche. UniGene tabulator è basato su FileMaker Pro 8, un gestore di basi di dati di semplice utilizzo, ed è distribuito come applicazione stand-alone per piattaforme Macintosh e Windows corredato di una guida descrittiva delle operazioni utili ad importare il file UniGene con i dati per la specie animale in studio.

Lenzi L., Frabetti F., Facchin F., Casadei R., Vitale L., Canaider S., et al. (2006). UNIGENE TABULATOR: UN PROGRAMMA PER EFFETTUARE IL PARSING COMPLETO DEL FORMATO DEI DATI DELLA BANCA “UNIGENE”. s.l : s.n.