L’argomentazione che sostiene che il “AI-web scraping” riguarderebbe il contenuto espressivo delle opere utilizzate a fini di addestramento e che, “in ultima analisi”, ciò condurrebbe alla creazione di prodotti concorrenti sostanzialmente identici o simili per contenuto non opera una distinzione sufficientemente rigorosa tra: da un lato, la creazione di un dataset utilizzabile — anche — per l’addestramento di un modello di Intelligenza Artificiale; dall’altro, il successivo addestramento della rete neurale artificiale mediante tale dataset e, terzo, la successiva utilizzazione dell’Intelligenza Artificiale addestrata per la generazione di nuovi contenuti. Al momento della compilazione del dataset di allenamento non è prevedibile quanto il secondo step avrà successo né quale contenuto in concreto possa essere generato mediante l’allenata Intelligenza Artificiale nel terzo step. Le concrete possibilità applicative di una tecnologia in rapido sviluppo come l’Intelligenza Artificiale non sono perciò prevedibili in modo definitivo al momento della creazione del dataset di allenamento e, di conseguenza, non possono essere stabilite con certezza giuridica. A causa di tale incertezza giuridica, la mera intenzione generica di ottenere contenuti generati con l’IA in futuro quando si costruisce un dataset di allenamento non rappresenta un criterio adeguato a stabilire normativamente l’ammissibilità della costruzione del dataset di allenamento in quanto tale.
Conte, F. (2025). L'estrazione di testo e dati nella costruzione di dataset di allenamento per modelli generativi: profili critici e nuove prospettive per il diritto d'autore sulle opere digitali. IL DIRITTO DELL'INFORMAZIONE E DELL'INFORMATICA, 3, 519-554.
L'estrazione di testo e dati nella costruzione di dataset di allenamento per modelli generativi: profili critici e nuove prospettive per il diritto d'autore sulle opere digitali
Francesca ContePrimo
2025
Abstract
L’argomentazione che sostiene che il “AI-web scraping” riguarderebbe il contenuto espressivo delle opere utilizzate a fini di addestramento e che, “in ultima analisi”, ciò condurrebbe alla creazione di prodotti concorrenti sostanzialmente identici o simili per contenuto non opera una distinzione sufficientemente rigorosa tra: da un lato, la creazione di un dataset utilizzabile — anche — per l’addestramento di un modello di Intelligenza Artificiale; dall’altro, il successivo addestramento della rete neurale artificiale mediante tale dataset e, terzo, la successiva utilizzazione dell’Intelligenza Artificiale addestrata per la generazione di nuovi contenuti. Al momento della compilazione del dataset di allenamento non è prevedibile quanto il secondo step avrà successo né quale contenuto in concreto possa essere generato mediante l’allenata Intelligenza Artificiale nel terzo step. Le concrete possibilità applicative di una tecnologia in rapido sviluppo come l’Intelligenza Artificiale non sono perciò prevedibili in modo definitivo al momento della creazione del dataset di allenamento e, di conseguenza, non possono essere stabilite con certezza giuridica. A causa di tale incertezza giuridica, la mera intenzione generica di ottenere contenuti generati con l’IA in futuro quando si costruisce un dataset di allenamento non rappresenta un criterio adeguato a stabilire normativamente l’ammissibilità della costruzione del dataset di allenamento in quanto tale.I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.


