[Forum SIS] Seminario Fabio Divino A MCMC data augmentation algorithm for contaminated case-control analyses

giovanna jona lasinio giojona a gmail.com
Mer 20 Apr 2011 19:00:34 CEST


Dipartimento di Scienze Statistiche Università di Roma "Sapienza"

Giovedì 28 aprile, ore 15.00 - Sala 34 - Edificio di Statistica 4 piano

A MCMC data augmentation algorithm for contaminated case-control analyses

Fabio Divino
Dipartimento STAT, Scienze MM.FF.NN, Università del Molise
fabio.divino at unimol.it


Abstract. In molti ambiti applicativi esiste un grande interesse verso
lo studio di modelli parametrici di regressione per disegni campionari
non casuali. Una situazione molto comune riguarda i cosiddetti dati di
sola presenza in cui si vuole studiare la relazione fra un insieme di
covariate informative (X) ed una variabile di risposta binaria (Y)
nota solo nel caso Y=1.  In tal senso uno schema campionario che viene
adottato è: considerare due gruppi distinti di osservazioni. Il primo
gruppo è rappresentato da un campione casuale di presenze (Y=1) mentre
 il secondo è un campione casuale selezionato dall'intera popolazione
di riferimento P per cui solo le variabili esplicative sono osservate
e non  la variabile risposta Y. Questo tipo di schema, molto
utilizzato in forma retrospettiva, è noto in  letteratura come disegno
caso-controllo contaminato (Hsieh et al., 1985) in quanto le
osservazioni campionarie relative ai controlli (Y=0) sono  contaminate
da un meccanismo di censura. In ambito ecologico, ad esempio, è molto
frequente che, per popolazioni animali o vegetali, sia difficile
determinare un campione di assenze; in tal senso l'inferenza sui
modelli di regressioni deve basarsi su un'informazione solo parziale
della variabile  risposta. Per affrontare questo tipo di situazione
diverse soluzioni sono state presentate in letteratura.
Di recente Ward et al. (2009) hanno proposto un algoritmo di tipo EM
per studiare dati di sola presenza basato sulla funzione di
verosimiglianza. Tale approccio, nella sua formulazione più
efficiente, prevede però la conoscenza a priori della prevalenza
marginale della  variabile Y, assunzione molto difficile da accettare
nella pratica. In questo lavoro vogliamo presentare un algoritmo di
tipo MCMC che può essere utilizzato soprattutto in ambito Bayesiano
per la stima di un modello  logistico lineare.
Il contributo principale riguarda l'introduzione di
un'approssimazione  aleatoria del fattore di correzione del modello
caso-controllo contaminato. In tal senso, attraverso un passo di
data-augmentation, è possibile stimare i parametri di regressione
congiuntamente alla prevalenza marginale di Y. I risultati ottenuti,
relativi a simulazioni di diverse situazioni sperimentali, sono molto
incoraggianti soprattutto per la grande efficacia previsiva sul
parametro di prevalenza. Anche la precisione e l'efficienza delle
stime di regressione sono buone ma, come è  naturale che sia, restano
in parte condizionate al grado di informatività delle covariate X.
Questo lavoro si svolge in collaborazione con Natalia Golini
(Università  di Roma), Giovanna Jona Lasinio (Università di Roma) e
Antti Penttinen (University  of Jyvaskyla).

Bibliografia essenziale
- Divino, Jona Lasinio, Golini, Penttinen (2011): Data augmentation
approach in  Bayesian modelling of presenceonly data. Proceedings of
Spatial  Statistics 2011.
- Hisieh, Manski, Mc Fadden (1985): Estimation of response
probabilities from  augmented retrospective observations. JASA.
- Lancaster, Imbens (1996): Case-control studies with contaminated
controls,  Journal of Econometrics.
- Liu (2004): Monte Carlo strategies in scientific computing, Springer.
- Pearce, Boyce (2006): Modelling distribution and abundance with
presence-only data.  Journal of Applied Ecology.
- Ward, Hastie,Barry, Elith3, Leathwick (2009): Presence-only data and
the EM algorith. Biometrics



Maggiori informazioni sulla lista Sis