Objective: to compare record linkage (RL) procedures adopted in several Italian settings and a standard probabilistic RL procedure for matching data from electronic health care databases. Design: two health care archives are matched: the hospital discharges (HD) archive and the population registry of four Italian areas. Exact deterministic, stepwise deterministic techniques and a standard probabilistic RL procedure are applied to match HD for acute myocardial infarction (AMI) and diabetes mellitus. Sensitivity and specificity for RL procedures are estimated after manual review. Age and gender standardized annual hospitalization rates for AMI and diabetes are computed using different RL procedures and compared. Setting: municipalities of Pisa and Roma, and Regions of Puglia and Piemonte. Participants: residents in the considered areas on 31 December 2003 and corresponding episodes of hospitalization in the same areas during 2004. Main outcome measures: measures of accuracy of RL procedures to match health care administrative databases. Results: data quality varies among archives and affects the decision rule of the probabilistic procedure. A unique decision rule was therefore adopted by means of choosing a positive predictive value of at least 98% for all the considered areas. The number of matched pairs identified with the probabilistic procedure is on average more then 11% greater than the number identified with the deterministic procedure. Sensitivity of probabilistic RL is similar or greater than that of other procedures. Differences between annual standardized hospitalization rates computed with stepwise deterministic RL and the standard probabilistic RL procedure vary among areas. Conclusion: exact deterministic RL works well when unique identifiers and high quality data are available. The probabilistic procedure here proposed works as well as semi-deterministic RL when the latter implements a quality control of data or a manual review of final results. Otherwise, deterministic or semi-deterministic procedures imply classification errors of unknown size and direction.

Obiettivo: confrontare le caratteristiche operative di procedure di record linkage (RL) utilizzate in diverse realtà italiane e di una tecnica probabilistica standard per l’integrazione di archivi di dati sanitari. Disegno: appaiamento dell’archivio delle schede di dimissione ospedaliera (SDO) e di quello anagrafico degli assistititi o dei residenti, disponibili presso centri di servizio epidemiologico localizzati in diverse regioni italiane. Le procedure di RL utilizzate da ciascun centro, una procedura deterministica esatta e una procedura probabilistica sono applicate selezionando le SDO per infarto miocardico acuto e diabete. Un controllo manuale di un campione estratto casualmente dall’archivio delle SDO ha permesso di stimare sensibilità e specificità delle procedure. Tassi di ospedalizzazione annuali, standardizzati per genere ed età, sono calcolati al fine di valutare il possibile impatto della tecnica di RL adottata su misure di interesse epidemiologico. Setting: comuni di Pisa e Roma e Regioni Piemonte e Puglia. Partecipanti: popolazioni assistite o residenti al 31 dicembre 2003 e corrispondenti archivi delle SDO registrate nell’anno 2004. Outcome principali: misure di accuratezza di procedure di RL per l’appaiamento di banche dati sanitarie. Risultati: la qualità dei dati, assai differente in ogni archivio, influenza il criterio decisionale della procedura probabilistica. Pertanto è stato individuato un criterio standard che garantisse un valore predittivo positivo di almeno il 98%. La procedura probabilistica individua in media l’11% di coppie in più rispetto a quella deterministica esatta; risulta inoltre paragonabile, o migliore, delle procedure utilizzate dai singoli centri in termini di sensibilità. Dal confronto dei tassi standardizzati di ospedalizzazione ottenuti con le procedure del centro e probabilistica emergono differenze di direzione variabile nei diversi centri. Conclusione: l’utilizzo del RL deterministico esatto appare limitato alle situazioni in cui sono disponibili codici univoci di identificazione di buona qualità. La tecnica di RL probabilistico proposta risulta paragonabile a quella usualmente adottata dai centri quando questi implementano un controllo di qualità dei dati o una revisione manuale dei risultati ottenuti. Se questo non accade, la tecnica usualmente adottata dai centri comporta errori sistematici di direzione ed entità non note.

Record-linkage procedures in epidemiology: an Italian multicentre study

TREROTOLI, Paolo;BARTOLOMEO, NICOLA;SERIO, Gabriella;
2008-01-01

Abstract

Objective: to compare record linkage (RL) procedures adopted in several Italian settings and a standard probabilistic RL procedure for matching data from electronic health care databases. Design: two health care archives are matched: the hospital discharges (HD) archive and the population registry of four Italian areas. Exact deterministic, stepwise deterministic techniques and a standard probabilistic RL procedure are applied to match HD for acute myocardial infarction (AMI) and diabetes mellitus. Sensitivity and specificity for RL procedures are estimated after manual review. Age and gender standardized annual hospitalization rates for AMI and diabetes are computed using different RL procedures and compared. Setting: municipalities of Pisa and Roma, and Regions of Puglia and Piemonte. Participants: residents in the considered areas on 31 December 2003 and corresponding episodes of hospitalization in the same areas during 2004. Main outcome measures: measures of accuracy of RL procedures to match health care administrative databases. Results: data quality varies among archives and affects the decision rule of the probabilistic procedure. A unique decision rule was therefore adopted by means of choosing a positive predictive value of at least 98% for all the considered areas. The number of matched pairs identified with the probabilistic procedure is on average more then 11% greater than the number identified with the deterministic procedure. Sensitivity of probabilistic RL is similar or greater than that of other procedures. Differences between annual standardized hospitalization rates computed with stepwise deterministic RL and the standard probabilistic RL procedure vary among areas. Conclusion: exact deterministic RL works well when unique identifiers and high quality data are available. The probabilistic procedure here proposed works as well as semi-deterministic RL when the latter implements a quality control of data or a manual review of final results. Otherwise, deterministic or semi-deterministic procedures imply classification errors of unknown size and direction.
2008
Obiettivo: confrontare le caratteristiche operative di procedure di record linkage (RL) utilizzate in diverse realtà italiane e di una tecnica probabilistica standard per l’integrazione di archivi di dati sanitari. Disegno: appaiamento dell’archivio delle schede di dimissione ospedaliera (SDO) e di quello anagrafico degli assistititi o dei residenti, disponibili presso centri di servizio epidemiologico localizzati in diverse regioni italiane. Le procedure di RL utilizzate da ciascun centro, una procedura deterministica esatta e una procedura probabilistica sono applicate selezionando le SDO per infarto miocardico acuto e diabete. Un controllo manuale di un campione estratto casualmente dall’archivio delle SDO ha permesso di stimare sensibilità e specificità delle procedure. Tassi di ospedalizzazione annuali, standardizzati per genere ed età, sono calcolati al fine di valutare il possibile impatto della tecnica di RL adottata su misure di interesse epidemiologico. Setting: comuni di Pisa e Roma e Regioni Piemonte e Puglia. Partecipanti: popolazioni assistite o residenti al 31 dicembre 2003 e corrispondenti archivi delle SDO registrate nell’anno 2004. Outcome principali: misure di accuratezza di procedure di RL per l’appaiamento di banche dati sanitarie. Risultati: la qualità dei dati, assai differente in ogni archivio, influenza il criterio decisionale della procedura probabilistica. Pertanto è stato individuato un criterio standard che garantisse un valore predittivo positivo di almeno il 98%. La procedura probabilistica individua in media l’11% di coppie in più rispetto a quella deterministica esatta; risulta inoltre paragonabile, o migliore, delle procedure utilizzate dai singoli centri in termini di sensibilità. Dal confronto dei tassi standardizzati di ospedalizzazione ottenuti con le procedure del centro e probabilistica emergono differenze di direzione variabile nei diversi centri. Conclusione: l’utilizzo del RL deterministico esatto appare limitato alle situazioni in cui sono disponibili codici univoci di identificazione di buona qualità. La tecnica di RL probabilistico proposta risulta paragonabile a quella usualmente adottata dai centri quando questi implementano un controllo di qualità dei dati o una revisione manuale dei risultati ottenuti. Se questo non accade, la tecnica usualmente adottata dai centri comporta errori sistematici di direzione ed entità non note.
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11586/121633
 Attenzione

Attenzione! I dati visualizzati non sono stati sottoposti a validazione da parte dell'ateneo

Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus 19
  • ???jsp.display-item.citation.isi??? ND
social impact