Attenzione: i dati modificati non sono ancora stati salvati. Per confermare inserimenti o cancellazioni di voci è necessario confermare con il tasto SALVA/INSERISCI in fondo alla pagina
CRIS Current Research Information System
In this paper we describe an activity of information integration
performed on databases with patent data and company
indicators. In particular, we present a detailed case
study on company name matching. We show how to choose
and tune existing methods to work on the domain object of
this paper, and describe an efficient implementation to process
large volumes of data. The integration activity involves
the application of approximate string matching techniques.
Then, we show the experimental results obtained on real
data sets, highlighting the pros and cons of approximate
string matching in this specific domain, and analyze the impact
of domain knowledge on the results of the matching
activity.
In this paper we describe an activity of information integration
performed on databases with patent data and company
indicators. In particular, we present a detailed case
study on company name matching. We show how to choose
and tune existing methods to work on the domain object of
this paper, and describe an efficient implementation to process
large volumes of data. The integration activity involves
the application of approximate string matching techniques.
Then, we show the experimental results obtained on real
data sets, highlighting the pros and cons of approximate
string matching in this specific domain, and analyze the impact
of domain knowledge on the results of the matching
activity.
I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
Utilizza questo identificativo per citare o creare un link a questo documento: http://hdl.handle.net/11585/55533
Attenzione
Attenzione! I dati visualizzati non sono stati sottoposti a validazione da parte dell'ateneo
Citazioni
ND
0
0
social impact
simulazione ASN
Il report seguente simula gli indicatori relativi alla propria produzione scientifica in relazione alle soglie ASN 2021-2023 del proprio SC/SSD. Si ricorda che il superamento dei valori soglia (almeno 2 su 3) è requisito necessario ma non sufficiente al conseguimento dell'abilitazione. La simulazione si basa sui dati IRIS e sugli indicatori bibliometrici alla data indicata e non tiene conto di eventuali periodi di congedo obbligatorio, che in sede di domanda ASN danno diritto a incrementi percentuali dei valori. La simulazione può differire dall'esito di un’eventuale domanda ASN sia per errori di catalogazione e/o dati mancanti in IRIS, sia per la variabilità dei dati bibliometrici nel tempo. Si consideri che Anvur calcola i valori degli indicatori all'ultima data utile per la presentazione delle domande.
La presente simulazione è stata realizzata sulla base delle specifiche raccolte sul tavolo ER del Focus Group IRIS coordinato dall’Università di Modena e Reggio Emilia e delle regole riportate nel DM 589/2018 e allegata Tabella A. Cineca, l’Università di Modena e Reggio Emilia e il Focus Group IRIS non si assumono alcuna responsabilità in merito all’uso che il diretto interessato o terzi faranno della simulazione. Si specifica inoltre che la simulazione contiene calcoli effettuati con dati e algoritmi di pubblico dominio e deve quindi essere considerata come un mero ausilio al calcolo svolgibile manualmente o con strumenti equivalenti.