[Forum SIS] Analisi statistica dati COVID-19

Venera Tomaselli tomavene a unict.it
Gio 12 Mar 2020 11:33:13 CET


Stavo pensando che nel paper di Paolo e Arianna credo sia utilizzato un
modello data-driven che si discosta dai modelli epidemiologici SIR.
L'assunzione implicita è che nella lotta tra sanità e virus, per così dire,
tutto dipenda dal numero di infetti palesati nei diversi giorni precedenti.

Ora, il modello SIR è un modello base per gli studi epidemiologici,
piuttosto o quasi comparabile ai modelli gaussiani:

S = Suscettibili

I = Infetti

R = Guariti.

S -> I e I -> R sono due parametri.

Secondo il modello utilizzato, si stima il numero di infetti futuri in
funzione del tempo, di S, o di R. Non è un modello ad agenti ma spesso
viene incorporato in modelli ad agenti. Si tratta, pertanto, di un modello
riduzionista e guidato da una teoria scientifica (ovvero che il numero di
infetti sia in funzione di Infetti e Guariti). Il valore R0 di una
malattia, infatti, si stima con un modello SIR.

Un modello data-driven, invece, non è guidato da una teoria scientifica
riduzionista ma è un modello olistico che guarda al fenomeno come non
riducibile alle sue componenti. In questo caso i ricercatori usano solo le
osservazioni pregresse per stimare le osservazioni future. In questo
specifico caso questo è un modello autoregressivo data-driven.
Queste due asserzioni sono esplicite nel paper.
Nel paper, log(lambda) è la somma di omega, alfa(Y) e beta(LAMBDA)
dove Y e LAMBDA sono a loro volta vettori autoregressivi: Y sono
osservazioni, LAMBDA è il vettore nel tempo della media campionaria

 Lambda, cioè la predizione sul futuro con confidenza dell'ordine della
v.c. Poisson, è in funzione di: ciò che era atteso (cioè le predizioni
passate), ciò che si è osservato ed una intercetta.

 Il modello assume implicitamente che il fenomeno si "autosservi" e
auto-reagisca ai suoi stati passati. Per questo è interpretato come un
modello generale di complessità (nello specifico, mutuato dalla finanza).
Auto-reagisca significa nella pratica che attivi misure di sicurezza ecc.
ecc.

Poiché queste dipendenze funzionali sono talvolta espresse in forma
logaritmica, si ha un modello che non cresce esponenzialmente ma ha un
massimo, questo massimo accade in t, t è stimabile, dalla stima di t si
deduce il t-finale in cui il contagio ritorna a 0.

Ciò che io non capisco è perché raggiunto il picco, lambda non si
stabilizzi o fluttui, ed invece scende a 0. Per essere più chiara, esiste,
quindi, un picco (infezione non è scale-free) ed una volta raggiunto
quello, la "memoria" statistica del picco porta a zero il numero di nuovi
contagi.

Non mi è chiaro al 100% come si simuli il picco con gli esponenti tutti
positivi, probabilmente ha a che fare col fatto che i parametri diventano
il logaritmo di un parametro.

La formula matematica, comunque, ha la sua validità interna.



Proposta: io testerei il modello per piccole popolazioni e non su intere
nazioni. Es. su Codogno, dove il contagio si è già azzerato. La proposta
deriva dalle seguenti ragioni:

1. esiste un ampio dibattito sulla veridicità dei dati cinesi. I dati
osservati in Cina overfittano una distribuzione esponenziale e si sospetta
siano dati tarocchi inventati dal regime. Chiederei agli autori di
monitorare i numeri e ritestare il modello sui dati koreani e italiani. I
dati koreani sembrano realistici, però lì il 60% dei tamponi (circa 12.000
su 20.000)  è stato fatto agli appartenenti ad una setta religiosa per
motivi che non conosco e non so neppure se questo sia vero

2.  se l'intercetta è troppo grande, il modello perde di senso anche se i
parametri sono significativi. Questo significa che il modello fitta un
fenomeno diverso da quello osservato, in quanto noi sappiamo per certo che
l'intercetta deve essere 0 o un numero piccolo

3.  le misure dell'auto-reazione iniziano dai protocolli di test che non
sono mai casuali. Anche le cure non sono esattamente le stesse etc. etc.
Ogni paese è un outlier in almeno una statistica (Italia nel numero di
morti relative, corea nel numero di screening, Iran nell'intercetta, e così
via).

4. si capisce meglio se il comportamento dell'epidemia è normale in certi
casi e anormale in altri oppure se c'è un fattore di scala: ad es., città
più grandi, in proporzione a quanto sono grandi ci mettono più o meno t a
chiudere l'epidemia?

E’ possibile  che tra nazioni non abbia senso, perchè in Italia l'infezione
riguarda soprattutto un’area, in Cina soprattutto una regione, e così via ?
forse usare gli aggregati nazionali non ha senso se le infezioni sono
localizzate?



Solo riflessioni.

Saluto anch'io il Prof. Chiandotto con grande piacere.

Buona giornata.

Il giorno gio 12 mar 2020 alle ore 10:11 Monica Pratesi <
monica.pratesi a unipi.it> ha scritto:

> Carissimo Bruno,
>
> non ti immagini il piacere e la soddisfazione nel sentirti su questo
> Forum,
>
> Welcome back Professor Bruno Chiandotto!!!!!!!!
> Il 12/03/20 10:03, Paolo Giudici ha scritto:
>
> Grazie Bruno, fa sempre molto piacere sentirti e sentire il tuo
> incoraggiamento a procedere uniti.
>
> Leggerò con molto piacere la tua nota
>
> A presto
>
> Il giorno gio 12 mar 2020 alle 10:01 Bruno Chiandotto <
> bruno.chiandotto a unifi.it> ha scritto:
>
>> Carissimo Paolo,
>>
>> ad oggi il tuo invito non solo è stato accolto favorevolmente ma le
>> risposte al tuo messaggio segnalano in modo evidente la presenza molto
>> attiva della comunità degli statistici italiani già impegnata, in vario
>> modo, all'esame del problema; impegno, che ritengo produrrà utili strumenti
>> di riflessione e di supporto agli organi di governo.
>>
>> Per quanto mi riguarda, ti segnalo che lunedì u.s. ho iniziato la stesura
>> di una nota dal titolo "*Corona virus e Statistica: alcuni esempi di
>> cattivo (quantomeno discutibile) impiego di un utile strumento di analisi
>> decisionale e qualche interrogativo*". Si tratta di una nota a margine
>> dell'insegnamento di Teoria Statistica delle Decisioni programmato (e
>> rinviato) per il mese di marzo del Corso di Dottorato in Statistica
>> dell'Università degli Studi di Firenze. La nota era destinata ad uso
>> esclusivamente interno al Corso di dottorato, dopo quanto accaduto a
>> seguito del tuo messaggio ho deciso di inviarne, una volta completata,
>> copia a te e al Presidente della SIS Monica Pratesi. Ti segnalo, infine,
>> che dell'analisi del problema si sta occupando anche Silvia Bacci coautrice
>> del volume "*Introduction to Statistical Decision Theory - Utility
>> Theory and Causal Analysis*" pubblicato dalla Chapman & Hall/CRC nel
>> luglio 2019.
>>
>> Con i saluti più cari e l'augurio di buon lavoro.
>>
>> Bruno
>>
>>
>>
>>
>> Il Mercoledì 11/03/2020 11:34 Paolo Giudici ha scritto:
>>
>> Cari colleghi, alcuni di noi si stanno occupando di analizzare i primi
>> dati inerenti la diffusione del COVID-19. Parte di queste attività sono
>> condivise sui social networks, altre no.
>> Personalmente, credo sia molto importante, per la nostra comunità,
>> fornire il nostro contributo anche mediante un dibattito franco e
>> trasparente.
>> In questo spirito vi invio il link ad una nota di ricerca che io ed
>> Arianna Agosto abbiamo recentemente sottomesso in SSRN.
>>
>>
>> https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3551626
>>
>> Mi farebbe molto piacere, con questa nota, attivare una discussione sul
>> tema
>>
>> Cordiali saluti a tutti,
>>
>> Paolo Giudici
>> FinTech Laboratory
>> University of Pavia
>>
>> https://www.linkedin.com/in/paolo-giudici-60028a/
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>> _______________________________________________
>> Sis mailing list
>> Sis a stat.unipg.it
>> http://www.stat.unipg.it/mailman/listinfo/sis
>>
>> --
>
> Paolo Giudici
> Professor of Statistics
> FinTech laboratory,
> University of Pavia
>
> https://www.linkedin.com/in/paolo-giudici-60028a/
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
> _______________________________________________
> Sis mailing listSis a stat.unipg.ithttp://www.stat.unipg.it/mailman/listinfo/sis
>
> --
> *******************************************************************************
> Monica Pratesi
> Full Professor of Statistics
> holder of the Jean Monnet Chair
> Small Area methods for Multidimensional Poverty and living conditions
> SAMPIEU - http://sampieuchair.ec.unipi.ithttps://people.unipi.it/monica_pratesi
>
> Department of Economics and Management
> University of Pisa
> tel: +39 (0)50 2216 252
> fax: +39 (0)50 2216 375
> web-page:http://unimap.unipi.it/cercapersone/dettaglio.php ri=4328&template=dettaglio.tpl
> ********************************************************************************
>
>
> _______________________________________________
> Sis mailing list
> Sis a stat.unipg.it
> http://www.stat.unipg.it/mailman/listinfo/sis
>


-- 
Professor Venera Tomaselli, Ph.D.
Associate Professor in Social Statistics
Department of Political and Social Sciences
University of Catania
8, Vitt. Emanuele II (1st floor), 95131 Catania
Work Tel.: +39 095 70305274 (keep the 0 in the city code!)
Mobile: +39 3478056127
E-m: venera.tomaselli a unict.it (ex: tomavene a unict.it)
         venera.tomaselli a gmail.com
Skype nickname: *tomavene2*
URL: http://www.dsps.unict.it
*Curriculum vitae:*
http://ws1.unict.it/paginadocente/uploads/cit_06faef42d769c91cee1164b07b70ad20.pdf
.
-------------- parte successiva --------------
Un allegato HTML è stato rimosso...
URL: <http://www.stat.unipg.it/pipermail/sis/attachments/20200312/2510aeab/attachment-0001.html>


Maggiori informazioni sulla lista Sis