La Linguistica Computazionale: un crogiolo di esperienze multidisciplinari

Tamburini, Fabio

In questo breve saggio, tenterò di delineare e caratterizzare i confini, peraltro molto sfumati, di una disciplina che, nata attorno alla metà del secolo scorso, affronta problemi estremamente attuali, specialmente in questi anni nei quali il trattamento dell’informazione è divenuto uno degli aspetti centrali della nostra vita quotidiana. Per far questo mi avvarrò di numerosi e preziosi contributi di studiosi che, negli anni, hanno analizzato e descritto attentamente l’evoluzione della disciplina [Key, 2003; Lee, 2001; Mitkov, 2003; Spärck Jones, 2007]. Gli ovvi limiti di spazio mi costringeranno a tratteggiare brevemente argomenti che meriterebbero, e hanno meritato in passato, ben più ampie discussioni, e di questo mi scuso anticipatamente. La Linguistica Computazionale (o Natural Language Processing – Trattamento Automatico delle Lingue) – d’ora in poi LC – è un settore fortemente interdisciplinare, e si occupa dell’elaborazione delle lingue, in ogni possibile aspetto, mediante l’uso di calcolatori. Dalla sua nascita alla fine degli anni ’50, e dalla sua configurazione come disciplina autonoma, ha subito una crescita esponenziale in diverse direzioni arrivando ad attingere contributi da ambiti quali la linguistica, che produce i modelli teorici del linguaggio, la psicologia, che fornisce un’analisi dei processi cognitivi, la teoria dell’informazione, che analizza le modalità comunicative, la matematica e la statistica, che forniscono gli strumenti per esprimere tali modelli in modo computazionalmente trattabile e naturalmente l’informatica per quanto riguarda lo sviluppo degli algoritmi atti ad implementare i modelli teorici dei fenomeni linguistici. Nelle aspettative comuni questa disciplina dovrebbe riuscire, in un futuro auspicabilmente prossimo, ma tuttavia non ben definibile, a produrre macchine in grado di interagire con gli esseri umani utilizzando il linguaggio naturale. Nella letteratura e cinematografia fantascientifica gli esempi di tali visioni sono numerosi (si pensi ad esempio all’elaboratore HAL9000 del film 2001 odissea nello spazio o al robot C-3PO della saga di Guerre stellari). Tuttavia queste “macchine” sono ancora lontane, e gli esempi più sofisticati a nostra disposizione sono ben lungi dal poter soddisfare queste aspettative. E’ lecito quindi chiedersi: perché dopo più di cinquant’anni di intensa ricerca non si è ancora riusciti a centrare il bersaglio “imbrigliando” il linguaggio umano in opportuni modelli atti ad essere formalizzati e implementati con programmi per calcolatori? Dopo tutto un bambino si appropria di una lingua in pochi anni e senza seguire alcun corso sulla struttura e le caratteristiche della lingua stessa. Molto del successo del linguaggio umano nei processi comunicativi deriva dall’innata abilità degli esseri umani nel gestire imprecisioni e ambiguità in modo efficiente, evincendo da un insieme estremamente ampio di stimoli e informazioni relative al contesto, testuale, situazionale ed emotivo, la corretta interpretazione e il senso del messaggio, un contesto ben più esteso delle poche parole utilizzate tradizionalmente nei sistemi di analisi testuale. La stessa forzata suddivisione dei task classici della LC (analisi morfologica, PoS-tagging, parsing, ecc…) mantenendo la divisione nei tradizionali livelli d’analisi a causa della mancanza di adeguate risorse modellistico-computazionali, introduce, spesso artificiosamente, un numero enorme di ambiguità, e quindi di problemi da risolvere computazionalmente, rendendo ogni task estremamente complesso da trattare con metodi automatici. Questo ha generato negli anni situazioni estremamente frustranti e di tensione tra i linguisti computazionali, che in certi casi, hanno acquisito la reputazione di non essere in grado di far fronte alle sfide tecnologiche costruendo adeguati modelli teorici in grado di supportare la costruzione di sistemi performanti ed efficienti. Molti di questi problemi sono tuttavia dovuti al fallimento,...

CRIS Current Research Information System