INTRODUZIONE. Le procedure di Record Linkage (RL), di tipo deterministico o probabilistico, consentono di legare banche dati indipendenti in forma disaggregata, come le Schede di Dimissione Ospedaliera (SDO) e l'Anagrafe Comunale (AC), per la stima di indicatori epidemiologici per livelli geografici/amministrativi subcomunali. Nella modalità probabilistica il legame tra i record delle diverse banche dati è basato sulla scelta di una soglia di valori di falsi positivi (α, probabilità che i record si uniscano anche se non sono relativi allo stesso individuo) e falsi negativi (β, probabilità che i record non si uniscano anche se sono relativi allo stesso individuo). Le scelta delle soglie rappresenta un momento critico per l’affidabilità dell’analisi epidemiologica. OBIETTIVO. Lo scopo di questo lavoro è valutare come cambia, modificando i valori di α e β in un RL probabilistico, il rapporto standardizzato di ospedalizzazione (SHR Standardized Hospitalization Ratio) a livello di aree subcomunali in uno studio descrittivo sull’ospedalizzazione per neoplasia nel Comune di Taranto. MATERIALI E METODI. Al fine di determinare e georeferenziare i casi osservati per quartiere è stato effettuato il RL tra SDO e AC, prima deterministico, utilizzando come campo chiave il codice fiscale, poi, sui rimanenti, quello probabilistico [1] basato sul modello di Fellegi e Sunter [2]. Nel RL probabilistico sono state scelte come variabili di “blocco” il cognome e l’anno di nascita, mentre come variabili di “confronto” il nome, il sesso, il comune di nascita, il giorno ed il mese di nascita. Il numero di record appaiati varia al variare di uno score associato alle soglie di errore α e β. Sono state scelte quattro soglie: 1) α<0.05, β<0.05; 2) α<0.05, β<0.10; 3) α<0.01, β<0.20; 4) α<0.001, β<0.30. Al fine di disporre di un numero di casi osservati che possa considerarsi come riferimento (GS: gold standard), il RL è stato applicato ripetutamente cambiando le variabili di blocco e verificando manualmente i record appaiati considerati “dubbi”, utilizzando anche informazioni disponibili sul sistema informativo regionale. E' stato determinato l’SHR come rapporto tra casi osservati ed attesi. I casi attesi sono stati determinati applicando i tassi di riferimento regionali (specifici per anno, sesso e classe d'età) alla popolazione per quartiere di Taranto, utilizzando il database dell'Anagrafe Comunale (AC) e ricostruendo lo storico delle residenze nel periodo in esame. I casi osservati sono stati selezionati dalle SDO dei ricoveri entro e fuori regione dei residenti del comune di Taranto nel periodo 2001-2013 secondo il seguente criterio: primo ricovero con diagnosi principale o secondaria per tumore maligno in qualsiasi sede (codici ICD9CM 140-208) dei residenti nel comune di Taranto nel periodo 2001-2013. RISULTATI. Il numero di casi osservati in seguito alla selezione dei ricoveri dei residenti è di 18220, il numero dei casi attesi è pari a 17656, con un SHR pari a 103 (CL 95% 102-105). L’applicazione del RL, necessario per l’analisi subcomunale, accoppia correttamente con metodo deterministico SDO e AC nel 93,86% dei casi. Il RL probabilistico sulle restanti schede, permette di accoppiarne una ulteriore quota che scende al diminuire della probabilità α e all’aumentare della probabilità β (Tabella 1). L’applicazione del RL probabilistico, necessario per l’analisi subcomunale, con le soglie 1, 2 o 3, consente di utilizzare un numero di casi osservati pari rispettivamente a 18067, 17997 e 17981, molto vicini ai 18029 casi rilevati dopo RL con metodo GS. Solo scegliendo la soglia 4 (α<0,1%) si abbassa in modo considerevole in numero di casi (17719). In modo analogo sia l’SHR globale del Comune di Taranto che quelli per quartiere ottenuti scegliendo la soglia 1 sono sovrapponibili a quelli ottenuti con il GS (Tabella 2). Gli SHR non cambiano scegliendo le soglie 2 e 3, mentre si abbassano con la soglia 4 facendo venir meno la significatività sia dell’indice totale che quella del quartiere Isola-Borgo.CONCLUSIONI. Nel RL probabilistico la scelta di una soglia di falsi positivi inferiore al 5% assicura l’individuazione di un numero di casi consistente senza dover ricorrere a controlli manuali. Comunque, il numero di casi osservati quando si deve ricorrere ad analisi più di dettaglio risulta affetto da un certo grado di sottostima, che aumenta al diminuire della soglia di falsi positivi che si ritiene accettabile nel RL probabilistico. In questa esperienza scegliere un errore alfa inferiore allo 0,1% induce a ridimensionare la quota di rischio per quartiere ed anche per l’intera area comunale. Tale dato risulta in contrasto sia con un calcolo effettuato usando fonti di dati aggregati, che con quanto diffuso in letteratura sulle indagini effettuate sulla città di Taranto. Maggiore qualità dei dati e gestione integrata delle banche dati, sanitarie e non, potrebbero ridurre il ricorso a RL probabilistici, migliorando la validità della descrizione epidemiologica.

Effetto del record linkage probabilistico sulla stima del rischio dell' ospedalizzazione

BARTOLOMEO, NICOLA;SERIO, Gabriella;TREROTOLI, Paolo
2016-01-01

Abstract

INTRODUZIONE. Le procedure di Record Linkage (RL), di tipo deterministico o probabilistico, consentono di legare banche dati indipendenti in forma disaggregata, come le Schede di Dimissione Ospedaliera (SDO) e l'Anagrafe Comunale (AC), per la stima di indicatori epidemiologici per livelli geografici/amministrativi subcomunali. Nella modalità probabilistica il legame tra i record delle diverse banche dati è basato sulla scelta di una soglia di valori di falsi positivi (α, probabilità che i record si uniscano anche se non sono relativi allo stesso individuo) e falsi negativi (β, probabilità che i record non si uniscano anche se sono relativi allo stesso individuo). Le scelta delle soglie rappresenta un momento critico per l’affidabilità dell’analisi epidemiologica. OBIETTIVO. Lo scopo di questo lavoro è valutare come cambia, modificando i valori di α e β in un RL probabilistico, il rapporto standardizzato di ospedalizzazione (SHR Standardized Hospitalization Ratio) a livello di aree subcomunali in uno studio descrittivo sull’ospedalizzazione per neoplasia nel Comune di Taranto. MATERIALI E METODI. Al fine di determinare e georeferenziare i casi osservati per quartiere è stato effettuato il RL tra SDO e AC, prima deterministico, utilizzando come campo chiave il codice fiscale, poi, sui rimanenti, quello probabilistico [1] basato sul modello di Fellegi e Sunter [2]. Nel RL probabilistico sono state scelte come variabili di “blocco” il cognome e l’anno di nascita, mentre come variabili di “confronto” il nome, il sesso, il comune di nascita, il giorno ed il mese di nascita. Il numero di record appaiati varia al variare di uno score associato alle soglie di errore α e β. Sono state scelte quattro soglie: 1) α<0.05, β<0.05; 2) α<0.05, β<0.10; 3) α<0.01, β<0.20; 4) α<0.001, β<0.30. Al fine di disporre di un numero di casi osservati che possa considerarsi come riferimento (GS: gold standard), il RL è stato applicato ripetutamente cambiando le variabili di blocco e verificando manualmente i record appaiati considerati “dubbi”, utilizzando anche informazioni disponibili sul sistema informativo regionale. E' stato determinato l’SHR come rapporto tra casi osservati ed attesi. I casi attesi sono stati determinati applicando i tassi di riferimento regionali (specifici per anno, sesso e classe d'età) alla popolazione per quartiere di Taranto, utilizzando il database dell'Anagrafe Comunale (AC) e ricostruendo lo storico delle residenze nel periodo in esame. I casi osservati sono stati selezionati dalle SDO dei ricoveri entro e fuori regione dei residenti del comune di Taranto nel periodo 2001-2013 secondo il seguente criterio: primo ricovero con diagnosi principale o secondaria per tumore maligno in qualsiasi sede (codici ICD9CM 140-208) dei residenti nel comune di Taranto nel periodo 2001-2013. RISULTATI. Il numero di casi osservati in seguito alla selezione dei ricoveri dei residenti è di 18220, il numero dei casi attesi è pari a 17656, con un SHR pari a 103 (CL 95% 102-105). L’applicazione del RL, necessario per l’analisi subcomunale, accoppia correttamente con metodo deterministico SDO e AC nel 93,86% dei casi. Il RL probabilistico sulle restanti schede, permette di accoppiarne una ulteriore quota che scende al diminuire della probabilità α e all’aumentare della probabilità β (Tabella 1). L’applicazione del RL probabilistico, necessario per l’analisi subcomunale, con le soglie 1, 2 o 3, consente di utilizzare un numero di casi osservati pari rispettivamente a 18067, 17997 e 17981, molto vicini ai 18029 casi rilevati dopo RL con metodo GS. Solo scegliendo la soglia 4 (α<0,1%) si abbassa in modo considerevole in numero di casi (17719). In modo analogo sia l’SHR globale del Comune di Taranto che quelli per quartiere ottenuti scegliendo la soglia 1 sono sovrapponibili a quelli ottenuti con il GS (Tabella 2). Gli SHR non cambiano scegliendo le soglie 2 e 3, mentre si abbassano con la soglia 4 facendo venir meno la significatività sia dell’indice totale che quella del quartiere Isola-Borgo.CONCLUSIONI. Nel RL probabilistico la scelta di una soglia di falsi positivi inferiore al 5% assicura l’individuazione di un numero di casi consistente senza dover ricorrere a controlli manuali. Comunque, il numero di casi osservati quando si deve ricorrere ad analisi più di dettaglio risulta affetto da un certo grado di sottostima, che aumenta al diminuire della soglia di falsi positivi che si ritiene accettabile nel RL probabilistico. In questa esperienza scegliere un errore alfa inferiore allo 0,1% induce a ridimensionare la quota di rischio per quartiere ed anche per l’intera area comunale. Tale dato risulta in contrasto sia con un calcolo effettuato usando fonti di dati aggregati, che con quanto diffuso in letteratura sulle indagini effettuate sulla città di Taranto. Maggiore qualità dei dati e gestione integrata delle banche dati, sanitarie e non, potrebbero ridurre il ricorso a RL probabilistici, migliorando la validità della descrizione epidemiologica.
2016
File in questo prodotto:
File Dimensione Formato  
AttiSISMEC2016_Effetto del record linkage probabilistico sulla stima del rischio di ospedalizzazione.pdf

non disponibili

Descrizione: Effetto del record linkage probabilistico sulla stima del rischio di ospedalizzazione
Tipologia: Abstract
Licenza: NON PUBBLICO - Accesso privato/ristretto
Dimensione 510.71 kB
Formato Adobe PDF
510.71 kB Adobe PDF   Visualizza/Apri   Richiedi una copia

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11586/200536
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact