Unità di ricerca Università di Perugia

Titolo dell'unità

Tecniche di calibrazione e reti bayesiane per l'integrazione di dati da più fonti

Calibration techniques and Bayesian networks to integrate data from different sources

 

Programma di ricerca

 Negli ultimi anni, con la sempre più intensa informatizzazione delle attività amministrative e lavorative in genere, è andata di pari passo crescendo la disponibilità di database informativi sui più svariati fenomeni e, quindi, la possibilità di utilizzare tali basi di dati a fini statistici, cioé per la produzione di statistiche ufficiali, nel comparto pubblico, e più in generale per i processi decisionali. Considerata poi la crescente sensibilità della collettività alla pressione statistica generata dalla rilevazione di qualsiasi fenomeno in ambito sociale o economico, è naturale che si richieda agli statistici, ed in particolar modo a quelli ufficiali, di sfruttare le potenzialità racchiuse in questi veri e propri giacimenti informativi. La simultanea accessibilità, a costi molto più contenuti che nel passato, ad archivi diversi offre un sostegno conoscitivo sui più svariati fenomeni che certamente non ha precedenti e costituisce sempre più una condizione irrinunciabile per qualsiasi processo decisionale.

È in questo nuovo scenario che si amplifica enormemente per i produttori di statistiche, ed in particolare delle statistiche ufficiali, l’esigenza di trasformare un insieme di archivi in un sistema di indagini; in altre parole, di dare una risposta soddisfacente a problemi quali l’impiego a fini statistici di basi di dati nate prevalentemente per altri scopi e la diffusione di statistiche facilmente utilizzabili congiuntamente. L’enfasi che nel passato è stata riservata a dimensioni della qualità delle statistiche quali la rilevanza, l’accuratezza, la tempestività, l’accessibilità, deve quindi essere bilanciata da una contestuale attenzione ad aspetti quali la comparabilità, la coerenza e la completezza. Queste ultime, infatti, sono caratteristiche che emergono in tutta la loro importanza nel momento in cui si considerano congiuntamente più statistiche, eventualmente ottenute da fonti diverse.

Questo progetto di ricerca intende affrontare tali problematiche mirando allo sviluppo e all’approfondimento, da una parte, di principi e metodi di analisi per la scelta delle relazioni che è opportuno esistano tra statistiche prodotte partendo da basi di dati diverse e, dall’altra, di tecniche di stima in grado di incorporare al loro interno tali relazioni. In questo contesto, gli stimatori calibrati e le reti bayesiane sono metodologie che congiuntamente si prestano a questi fini.

Le tecniche di calibrazione consistono in un insieme di metodi di stima che hanno la proprietà di fornire stime coincidenti con i parametri di popolazione, supposti noti, di una o più variabili ausiliarie. Queste ultime sono variabili note (nel senso che se ne conoscono i valori per tutte le unità della popolazione oppure sono noti i livelli di parametri descrittivi della loro distribuzione nella popolazione) la cui utilizzazione consente inferenze più efficienti ed accurate sulle variabili oggetto di studio. Si veda al riguardo Estevao et al. (1995) e Singh e Mohl (1996). Gli stimatori calibrati consentono, tra l’altro, di perseguire altre finalità quali ad esempio:

- il trattamento della mancata risposta totale (Zhang, 2000);

- la produzione di stime per piccole aree (Théberge, 1999);

- la produzione di stime coerenti con le risultanze di altre indagini o altri archivi amministrativi (Thomsen e Kleive Holmoy, 1998; Rensen, 1998; Ballin et al., 2000; Kroese e Renseen, 2000);

- la correzione della distorsione da selezione (selection bias, Copas et al., 1997; Vella, 1998);

- il trattamento di valori anomali (Duchesne, 1999).

Le reti bayesiane in generale, ed i "junction trees" in particolare (Jensen, 1996; Ballin e Vicard, 2001), costituiscono invece

- uno strumento naturale per una rappresentazione concisa, facilmente interpretabile e soprattutto informativa, di un sistema di statistiche e della loro struttura di dipendenza;

- una metodologia idonea ad aggiornare le informazioni prodotte da un sistema di indagini, ovvero un metodo efficace per il trasporto dell’informazione tra basi di dati;

- uno strumento per la scelta delle variabili ausiliarie da utilizzare negli stimatori calibrati.

Tali modelli, infatti, nascono dalla duplice esigenza di ricercare l’esistenza di possibili strutture di dipendenza in sistemi stocastici complessi (offrendone una rappresentazione sintetica e soprattutto informativa) e determinare gli effetti in una struttura complessa di uno shock informativo in qualunque suo punto (Cowell et al., 1999).

Si tratta perciò di due temi, quello delle tecniche di calibrazione e quello delle reti bayesiane, di grande interesse, suscettibili di sviluppi ed innovazioni in particolare per quanto riguarda le problematiche attinenti all’uso di informazioni ausiliarie sempre più ricche, pure nella dimensione longitudinale, e disponibili a livello individuale, anche come conseguenza di avanzamenti nelle tecniche di record linkage tra più fonti di dati.

 Il progetto di ricerca di questa unità operativa si concentrerà principalmente sugli aspetti metodologici delle tecniche di calibrazione e sull’uso delle reti bayesiane per la rappresentazione e la gestione di sistemi di indagini e archivi amministrativi.

 

Abstract

 In recent years, the availability of administrative databases has been growing rapidly, due to the computerisation of almost all work activities. Thus, there has been a parallel increase in the possibility to use these databases in order to produce valid official statistics and, more generally speaking, to produce information for decisional processes. Hence, it follows a growing need for inference techniques which can make use efficiently of the amount of auxiliary information now available. Furthermore, the need of reducing the statistical burden on the respondent, on one hand, and enlarging the statistical information provided on the phenomenas under investigation, on the other hand, suggests the massive use of administrative databases and their integration with available survey data in order to build a consistent statistical system. Here, a statistical system is said consistent when the relationships that hold between parameters of a population under study also hold for their estimates.

Thus, there is an increased need in this new sector to transform a number of archives into an investigation system and emphasis in the past on statistical qualities such as importance, accuracy, timeliness and easy access should now be weighed against new aspects such as comparability, consistency and completeness. In fact, the latter prove to be of extreme importance when combining statistics from different sources.

With this project we wish to study how to select the relationships that must hold between statistics produced from different sources of data and the estimation techniques that ensure those relationships. In this respect, calibration techniques and Bayesian networks are methodologies that seem promising for new developments and improvements.

Calibration techniques provide estimators defined as linear combinations of sample observations with coefficients (weights) that have the property of reproducing the true population parameters (assumed to be known) of one or more auxiliary variables when applied to the sample observations of those variables (see Estevao et al., 1995; Singh & Mohl, 1995). These techniques serve various purposes such as

- the reduction of the sampling variance of estimators;

- the treatment of non-response (Zhang, 2000);

- small area estimation (Théberge, 1999);

- the control of the selection bias (Copas and Li, 1997; Vella, 1998);

- imposing consistency with results from other sources (Thomsen e Kleive Holmoy, 1998; Rensen, 1998; Ballin, Falorsi e Russo, 2000; Kroese A.H., Renseen R.H., 2000);

- dealing with outliers (Duchesne, 1999).

Bayesian networks, and "junction trees" in particular (Jensen, 1996; Ballin & Vicard, 2001), can be used to

- describe relationships between statistics;

- update the statistical information provided by a system of surveys and archives;

- select the variables to be used for calibrated estimation.

In fact, this kind of model has been proposed in order to search for relationships between elements of a complex, stochastic system and to determine the effect of information shocks in any of its components (Cowell. et al., 1999).

Thus, calibration estimation, together with Bayesian networks, are promising tools for significant developments and improvements in dealing with the increasing availability of auxiliary variables in both a longitudinal dimension and at an individual level, as a result, also, of advancements in record linkage techniques between data from different sources.

 

Bibliografia

Ballin M., Falorsi P. D., Russo A. (2000): Condizioni di coerenza e metodi di stima per le indagini campionarie sulle famiglie. Rivista di Statistica Ufficiale, 2, 31-52.

Ballin M., Vicard P., (2001): A proposal for the use of graphical representation in official statistics. Mimeo, ISTAT.

Benedetti R., Espa G., Piersimoni F. (2001): Available methods, techniques and software for survey data editing. Proceedings of Caesar conference, Rome. 

Breidt F.J., Opsomer J. (2000): Local Polynomial Regression Estimators in Survey Sampling. The Annals of Statistics, 28.

Copas J. B., Li H. G. (1997): Inference from non random samples. Journal of the Royal Statistical Society, B 41.

Cowell, R. G., Dawid A. P., Lauritzen S.L. e Spiegelhalter D.J. (1999): Probabilistic expert systems. Springer, New York.

Deville J.C., Särndal C.E. (1992): Calibration estimators in survey sampling. Journal of the American Statistical Association, 87.

Duchesne P. (1999): Robust calibration estimators. Survey Methodology, 25.

Estevao V., Hidiroglou M.A., Särndal C.E. (1995): Methodological principles for a generalised estimation system at Statistics Canada. Journal of Official Statistics, 11.

Friedman J.H. (1996): Local Learning Based on Recursive Covering. Tech. Rep., Dept. of Statistics, Stanford University, available at http://www-stat.stanford.edu/~jhf.

Friedman J. H., Stuetzle W. (1984): Projection Pursuit Regression. Journal of the American Statistical Association, 76.

Heckman J.J., Hotz V.J. (1989): Choosing among alternative Nonexperimental Methods for Estimating the Impact of Social Programs, the case of manpower training. Journal of the American Statistical Association, Vol 84, N. 408, pp. 862-874

Kroese A.H., Renseen R.H. (2000): New applications of old weighting techniques; constructing a consistent set of estimates based on data form different sources. Research paper n. 100736, Statistics Netherlands, Division Research and Developments.

Jensen, F.V. (1996): An Introduction to Bayesian networks. UCL Press, London.

Lauritzen, S. L. (1996): Graphical Models. Oxford University Press.

Rensen R. H. Nieuwenbroek N.J (1997): Aligning estimates for common variables in two or more sample surveys. Journal of the American Statistica Association, 92, 437.

Montanari G.E. (1998): On regression estimation of finite population mean. Survey Methodology, 24.

Montanari G. E. (2000): Conditioning on auxiliary variable means in finite population inference. Australian Journal of Statistics, 42.

Pizzoli E. (2000): Il flusso informativo di origine amministrativa come base di dati da verificare ed integrare attraverso la fonte censuaria: il caso dell’archivio ex-SCAU (INPS). Atti del convegno “Verso i censimenti del 2000”, Udine, Vol . 2.

Rensen R.H. (1998): Use of statistical matching techniques in calibration estimation. Survey Methodology, 24.

Riccio J.A., Bloom H. S. (2002): Extending the reach of randomized social experiments: new directions in evaluations of American welfare-to-work and employment initiatives. J.R. Statist. Soc. A, 165.

Singh S., Horn S., Yu F. (1998):, Estimation of variance of general regression estimator: higher level calibration approach. Survey Methodology, 24.

Singh A. C., Mohl C. A. (1996): Understanding calibration estimators in survey sampling. Survey Methodology, 22.

Théberge A. (1999): Extensions of calibration estimators in survey sampling. Journal of the American Statistical Association, 94.

Théberge A. (2000): Calibration and restricted weights. Survey Methodology, 26.

Thomsen I., Kleive Holmoy A.M. (1998): Combining data from surveys and administrative systems. The Norvegian Experience. International Statistical Review, 66.

Vella F. (1998): Estimating models with sample selection Bias: a survey. The Journal of Human Resources, XXXIII(1).

Zhang L.C. (2000): Post-stratification and calibration – A synthesis. The American Statistician, 54.