Archival finding aids are often only partially capable of fully expressing the informational potential of data due to the presence of numerous unstructured fields in the descriptions of documentary complexes. The prevalence of extensive literal sections, or full-text fields, limits both the possibility of semantic queries and the ability to uncover the latent contexts embedded in such unstructured text. This study proposes a methodology for the automatic extraction of knowledge (Knowledge Extraction, KE) from archival descriptions, aiming to enhance their structuring and semantic interoperability. Through a case study based on the Italian National Archival System (SAN) and leveraging ready-to-use tools such as Tint, FRED, and GPT-4o, we conducted a preliminary evaluation of various morphosyntactic, lexical, and semantic analysis techniques. The most promising results highlighted the potential of Large Language Models (LLMs), leading to the development of a KE pipeline based on the open-source model Llama 3.3. The findings demonstrate a high capacity for extracting biographical events and relationships, achieving a good balance between precision and recall, thus confirming the validity of the approach. However, the need for a more robust software architecture emerges, as LLM-based pipelines must become truly scalable to enable effective integration into archival systems.

Gli strumenti di corredo archivistici sono spesso solo parzialmente capaci di esprimere il vero potenziale informativo dei dati, a causa della molteplicità di campi non strutturati presenti nelle descrizioni dei complessi documentari. La presenza di numerose sezioni literal, ovvero a testo pieno, limita, da un lato, la possibilità di interrogazioni a base semantica e, dall’altro, non consente l’apertura ai numerosi contesti latenti che tali porzioni di testo non strutturato veicolano. Questa ricerca propone una metodologia per l’estrazione automatica di conoscenza (Knowledge Extraction, KE) da descrizioni archivistiche, con l’obiettivo di migliorarne la strutturazione e l’interoperabilità semantica. Attraverso un caso di studio basato sul Sistema Archivistico Nazionale (SAN) e utilizzando strumenti ready-to-usecome Tint, FRED e GPT-4o, si è valutata preliminarmente l’efficacia di diverse tecniche di analisi morfosintattica, lessicale e semantica. I risultati più promettenti hanno evidenziato il potenziale dei Large Language Model (LLM), portando allo sviluppo di una pipeline di estrazione della conoscenza basata sul modello open-source Llama 3.3. I risultati hanno dimostrato un’elevata capacità di estrazione di eventi biografici e relazioni, con un buon equilibrio tra precisione e recall, confermando la validità dell’approccio. Tuttavia, emerge l’esigenza di un’architettura software più robusta affinché le pipeline basate su LLM diventino davvero scalabili nell’ottica di un’integrazione nei sistemi archivistici.

Giagnolini, L., Schimmenti, A., Bonora, P., Tomasi, F. (2025). Expliciting Contexts: Semantic Knowledge Extraction from Traditional Archival Descriptions. UMANISTICA DIGITALE, 9(20), 115-144 [10.6092/issn.2532-8816/21229].

Expliciting Contexts: Semantic Knowledge Extraction from Traditional Archival Descriptions

Giagnolini, Lucia
;
Schimmenti, Andrea;Bonora, Paolo;Tomasi, Francesca
2025

Abstract

Archival finding aids are often only partially capable of fully expressing the informational potential of data due to the presence of numerous unstructured fields in the descriptions of documentary complexes. The prevalence of extensive literal sections, or full-text fields, limits both the possibility of semantic queries and the ability to uncover the latent contexts embedded in such unstructured text. This study proposes a methodology for the automatic extraction of knowledge (Knowledge Extraction, KE) from archival descriptions, aiming to enhance their structuring and semantic interoperability. Through a case study based on the Italian National Archival System (SAN) and leveraging ready-to-use tools such as Tint, FRED, and GPT-4o, we conducted a preliminary evaluation of various morphosyntactic, lexical, and semantic analysis techniques. The most promising results highlighted the potential of Large Language Models (LLMs), leading to the development of a KE pipeline based on the open-source model Llama 3.3. The findings demonstrate a high capacity for extracting biographical events and relationships, achieving a good balance between precision and recall, thus confirming the validity of the approach. However, the need for a more robust software architecture emerges, as LLM-based pipelines must become truly scalable to enable effective integration into archival systems.
2025
Giagnolini, L., Schimmenti, A., Bonora, P., Tomasi, F. (2025). Expliciting Contexts: Semantic Knowledge Extraction from Traditional Archival Descriptions. UMANISTICA DIGITALE, 9(20), 115-144 [10.6092/issn.2532-8816/21229].
Giagnolini, Lucia; Schimmenti, Andrea; Bonora, Paolo; Tomasi, Francesca
File in questo prodotto:
File Dimensione Formato  
21229-Giagnolini+et+al_def_v2.pdf

accesso aperto

Descrizione: Articolo
Tipo: Versione (PDF) editoriale / Version Of Record
Licenza: Licenza per Accesso Aperto. Creative Commons Attribuzione (CCBY)
Dimensione 1.07 MB
Formato Adobe PDF
1.07 MB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11585/1019338
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus 0
  • ???jsp.display-item.citation.isi??? ND
social impact