















































Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
I migliori documenti in vendita da studenti che hanno completato gli studi
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Community
Chiedi aiuto alla community e sciogli i tuoi dubbi legati allo studio
Scopri le migliori università del tuo paese secondo gli utenti Docsity
Guide Gratuite
Scarica gratuitamente le nostre guide sulle tecniche di studio, metodi per gestire l'ansia, dritte per la tesi realizzati da tutor Docsity
Ruolo delle scienze statistiche nella ricerca e nella pratica clinica Frequenza della malattia e dei suoi possibili esiti Alcune tecniche di uso comune La ricerca scientifica tra sperimentazione ed osservazione Studi clinici controllati e randomizzati Studi epidemiologici osservazionali
Tipologia: Dispense
1 / 55
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!
Sono presenti 3 tipi di statistica:
Primo quartile racchiude il 25% di tutti i nostri valori(sotto mentre sopra il 75% dei valori) il Q3 terzo quartile sotto rappresenta Questo avviene solo per una gaussiana per curve non gaussiane divideremo la nostra curva in parti uguali, se dividiamo in 4 parti il campione avremmo 4 quartili ogni quartile quindi rappresenta il 25% del campione Quartile mediano il cioè quel quartile che sottende il 50% del campione Percentile si divide in 100 parti quindi se prenderò il 95esimo percentile sottenderò il 95% della popolazione sotto al grafico Interesse capire qual è l’effetto misurabile di ogni trattamento quindi non ci aspetteremmo la media del campione bensì che la probabilità che i pz che abbiano un effetto positivo sia entro un certo range dalla media con una certa probabilità.
Cosa possiamo dire della popolazione da cui il campione in studio è stato estratto? Distribuzione di campionamento e statistica descrittiva Gap tra media campionaria e media vera (ignota) Se estraiamo dalla popolazione degli stessi campioni otterremo diversi medie campionarie 3 domande da porci: Come si distribuiscono le medie campionarie?
Teorema del limite centrale: distribuzione approssimativamente normale indipendentemente dalla forma della distribuzione di frequenza del carattere nella popolazione bersaglio (se n sufficientemente grande), si lavora con una media Quale valore in media assumono le medie campionarie? La media aritmetica coincide con quella della media aritmetica del carattere nella popolazione dalla quale i campioni sono stati estratti () Quanto sono disperse le medie campionarie? Errore standard è la deviazione standard delle medie campionarie ed è uguale a sigma su radice (deviazione standard di tutte le popolazioni da cioè dalla media vera)/ radice di n (numerosità campionaria) Questo ci dice che più grande il campione più piccola sarà la deviazione standard (s) di tutte le medie dei campioni Tanto più grande è il campione, meno informazioni perdiamo, quanto è più piccolo σ sigma (quindi una minore dispersione nel campione molto utile), σ sigma indica la dispersione della popolazione Per ottenere distribuzione media 0 ci basterà ragionare sui singoli scarti delle medie campionarie Dividere questa differenza per l’errore standard e il risultato sarà una distribuzione che avrà come media = 0 area =1 cioè che in una distribuzione normale che va da + infinito a – infinito sono distribuiti tutti i campioni della popolazione; Distribuzione normale standardizzata. Siamo interessati a valutare un singolo carattere (esempio pressione sistolica, efficacia di un farmaco etc) ignoto all’interno dell’insieme universo
Intervallo di confidenza è dato da Y +/- t (^) (gradi di libertà / 1 - α) s / rad n Dove al pedice di t indichiamo che stiamo lavorando con dei gradi di libertà n-1 e con un livello di probabilità scelto 1 – α Stima intervallare di mu significa che stiamo parlando del range di probabilità (in questo caso 95% scelta dalla tavola di distribuzione) nella quale è maggiore trovare la media del valore della popolazione Per trovare la media del campione di una certa popolazione con una probabilità del 99% cosa bisogna fare? Valore di t anziché z; quindi invece di usare 2.262 useremo 3.250 che corrisponde al 0.99% di probabilità e quindi amplieremo il range di probabilità; se aumentassimo il campione l’intervallo di incertezza diminuirebbe poiché è dato dal rad n che sarà più grande e dai gradi di libertà Se campione diventa più numeroso si dovrà agire sui gradi di libertà e la radice di n Scopo è avere sempre un intervallo di confidenza ristretto per poter dire qualcosa in più Se il carattere della popolazione presa in esame fosse meno disperso nella popolazione in studio? Gli individui sono molto simili tra di loro quindi diminuisce la deviazione standard e quindi diminuisce l’intervallo di confidenza perché si riduce l’incertezza Studi statistici fatti su gruppi omogenei di pz quindi in questo caso ridurremmo la popolazione prendendo in considerazione solo degli individui con certe caratteristiche (senza altre malattie presenti, in base all’età etc..) Questo è un vantaggio perché i risultati dello studio sono indirizzati verso una classe di pz ben precisa più elementi per trattare quell’individuo con quelle caratteristiche; da un punto di vista statistico abbiamo ridotto il margine di incertezza e questo si vede nella formula della slide 77 Gradi di libertà = n – 1 dato un campione di n individui ci basta di conoscere la media aritmetica di quel carattere per ricavare il valore di quel carattere di quell’individuo preso in esame
Quando confrontiamo due campioni le inferenze sono sempre presenti Confrontiamo due campioni sottoposti a due trattamenti diversi, avremo due medie diverse perché le popolazioni che trattiamo sono diverse quindi non possiamo dire dalla media che un trattamento è più efficace dell’altro (differenze tra la medie potrebbero essere dovute al caso) Media pop 1 = 125 mmHg Media pop 2 = 130 mmHg Sono solo medie campionarie due valori estratti casualmente da due popolazioni che fanno parte dello stesso universo Ricavare per ogni coppia di valori la differenza tra essi, immaginare distribuzione delle differenze delle medie aritmetiche: Media pop 1 – media pop 2 = d = - 5 mmHg media delle differenze aritmetiche questo ci serve per trovare la media mu vera della popolazione e questo ci aiuta a capire ad esempio quali dei due farmaci funziona meglio o se uno funziona meglio dell’altro. Si parte da massimo scetticismo per capire se i trattamenti funzionano allo stesso modo quindi la differenza delle medie dei campioni deve essere = 0 cosa che però non accade mai, capire se possiamo attribuire questa differenza al caso oppure no Due possibilità da contemplare: la prima cioè l’ipotesi nulla espressa come H 0 che sostiene che le differenze osservate siano interamente dovute al caso e quindi diremo che H 0 y1 = y2 e quindi differenza tra le due medie è = 0, ipotesi alternativa è che i due farmaci differiscono quindi H 0 ci dice che y1 diverso da y2 e quindi delta diversa da 0 (lettere greche sono per l’intero popolazione, le lettere italiane sono per il campione) Trattiamo la statistica utilizzando il metodo scientifico applicandolo al caso di studio specifico Se t è molto vicina a 0 significa che l’ipotesi nulla è quella più attendibile se invece t è un numero più alto è più probabile l’ipotesi alternativa ma non possiamo scartare interamente l’ipotesi nulla Siccome non esiste nessun valore che è compatibile con l’ipotesi nulla questo si traduce nel fatto che l’errore dobbiamo accettare e questa cosa dobbiamo farla a priori, l’errore di rigettare l’ipotesi nulla quando nella realtà questa è vera, questo errore si chiama errore di primo tipo che si chiama alfa Spesso l’ipotesi che più ci riporti il valore di alfa che più si ripete in letteratura è dello 0,05 (5%) ogniqualvolta che noi facciamo lo studio ci aspettiamo che l’errore del primo tipo sia del 5%
Dunque, la domanda da porsi è: cosa accadrebbe se estraessimo due campioni dalla stessa popolazione e l’ipotesi nulla fosse vera? In questo scenario, l’errore che decidiamo a priori di essere disposti ad accettare viene chiamato α , e comunemente in letteratura viene fissato al 5%. Esistono 3 modi per saggiare l’ipotesi nulla e per verificare se questo alfa accettato o meno, metodi equivalenti e portano allo stesso risultato; tre modi diversi di ragionare
Ricordando cosa facevamo con una sola media campionaria andavamo a calcolarci un intervallo nel quale è inclusa la media vera con un certo grado di probabilità; La stima intervallare di una media campionaria: y +/- tg;1- * es ; es = s/rad n (errore standard); Applichiamo questo alla differenza tra due medie campionarie:
Lo sostituiamo dentro la nostra formula, intervallo di confidenza è - 5 +/- 2,1 + 4,5 ovvero la differenza tra le due medie campionarie (media vera) sarà compresa tra (-14,5) a (+4,5) cioè con una probabilità del 95% Poiché questo intervallo contiene quello atteso sotto l’ipotesi nulla allora l’ipotesi nulla non può essere rifiutata, cioè il nostro gruppo di studio non offre evidenze statistiche che i due gruppi differiscano per pressione sistolica media p > 0.05; Non possiamo escludere che nonostante ciò che abbiamo osservato sebbene i due campioni abbiano media differente quanto osservato è compatibile con l’ipotesi nulla (compatibile con una differenza non dovuta a diverso trattamento) il p non è altro che il corrispondente di alfa a posteriori, mentre alfa lo era a priori, p value è il grado di plausibilità dell’ipotesi nulla. Siccome il grado di plausibilità dell’ipotesi nulla è maggiore di quello che abbiamo accetto all’inizio allora accettiamo l’ipotesi nulla, solo e perché in questo intervallo è presente l’intervallo di probabilità nella quale è presente l’ipotesi nulla e quindi non possiamo non accettarla, è vera Se i due campioni sono uguali il rapporto tra i due numeri sarà 1, se p > 0,05 allora lo studio non offre evidenze (statistiche) che i due gruppi differiscano per pressione sistolica media, Lo studio offre evidenze statistiche che i due gruppi differiscono per pressione sistolica media (p < 0,05) Se i campioni possedessero una numerosità campionaria maggiore in che modo si dovrebbe agire? In questo caso sarà meno probabile che l’ipotesi nulla venga accettata, l’intervallo di confidenza si restringe perché si riduce l’incertezza di discostarsi dalla media. Nostro problema è che la popolazione universo non è mai osservabile, tanto più piccolo è il campione tanto più è grande l’incertezza, numerosità maggiori nei campioni implicano una minore incertezza e quindi diminuisce l’intervallo di confidenza; Questo si nota anche nei calcoli che abbiamo appena fatto utilizzando la formula generale d ± tg;1- * es(d) Errore standard nella stima intervallare della differenza tra due medie campionarie (d) si riduce perché la numerosità campionaria è al denominatore e anche perché cambiano i gradi di libertà; lo 0 zero è escluso intervallo non contiene il valore atteso sotto l’ipotesi nulla e quindi rifiutiamo l’ipotesi nulla e la p value è < 0,05 (minore del 5%) Se l’intervallo di confidenza calcolato ad intervallo di confidenza 1 - dobbiamo concludere che p> alfa e che quindi le due medie non differiscono
(È fondamentale ricordare: accettare H₀ non significa affermare che sia vera , ma semplicemente che non abbiamo prove sufficienti per rifiutarla .) Parliamo quindi di due aree: area di accettazione di H₀ area di rigetto di H₀ Il test statistico che stiamo eseguendo consiste nel calcolare un rapporto tra ciò che abbiamo empiricamente osservato e la dispersione (variabilità) dei dati. Più alta è la variabilità casuale , più è probabile che ciò che abbiamo osservato sia compatibile con H₀. Abbiamo a disposizione la differenza osservata ( d ), ovvero la differenza tra le due medie campionarie. Possediamo anche l’ errore standard (ES) , calcolato a partire dalle deviazioni standard delle due numerosità campionarie. Da questi dati, abbiamo ricavato il valore empirico di t = 1,1 , che da solo non ci dice nulla. Per interpretarlo, dobbiamo confrontarlo con il valore teorico che ci aspettiamo sotto l’ipotesi nulla. Questo valore viene ricavato dalla distribuzione teorica di t , e per 18 gradi di libertà al 95% di confidenza, troviamo un intervallo compreso tra ±2,. Se il valore di t empirico cade all’interno dell’intervallo [–2,101 ; +2,101] , significa che è più probabile che i valori osservati siano compatibili con H₀ → accettiamo H₀. Se invece il valore di t empirico cade fuori da questo intervallo , allora possiamo rifiutare l’ipotesi nulla. Ciò che cambia, in questo contesto, è che aumentando i gradi di libertà , il valore teorico di t diminuisce, e quindi l’intervallo di confidenza si restringe. Allo stesso tempo, l’ errore standard della differenza ( ES(d) ) diminuisce , per cui il rapporto: tg = d / ES(d) aumenterà. Di conseguenza, sarà più probabile che il valore di t cada al di fuori dell’area di accettazione dell’ipotesi nulla ( H₁ ), e quindi potremo rifiutare H₀ con maggiore sicurezza. È fondamentale il ragionamento alla base di tutto questo : stiamo confrontando due campioni per capire se differiscono tra loro. Questi campioni potrebbero rappresentare, ad esempio, due gruppi di pazienti affetti dalla stessa malattia , con uguale severità e caratteristiche sovrapponibili , fatta eccezione per il trattamento: uno riceve il farmaco A , l’altro il farmaco B.
Ma potrebbero anche essere due campioni con caratteristiche differenti. Un altro esempio: vogliamo capire se due popolazioni di etnie diverse presentano valori medi differenti di pressione sistolica. Dal punto di vista statistico , il problema non cambia. In ogni caso, non avremo mai accesso a tutti i dati delle popolazioni trattate con A o B, o appartenenti all’etnia A o B. La mancanza di dati completi introduce il caso , e quindi perdiamo informazione. Dobbiamo quindi trovare un metodo per discriminare l’effetto del caso da quello sistematico , ovvero quello che ci interessa mettere in evidenza. Per approfondire, abbiamo preso come esempio un carattere quantitativo , come la pressione sistolica (ma il ragionamento vale anche per caratteri qualitativi ). Vogliamo sapere se gli individui trattati con il farmaco A sviluppano un certo esito in modo diverso rispetto a quelli trattati con il farmaco B. Confrontando i due gruppi, troveremo due medie differenti. A questo punto, la domanda fondamentale è: Queste due medie differiscono perché i gruppi sono stati trattati con due farmaci A e B diversi? Oppure la differenza sarebbe comunque emersa , anche se entrambi fossero stati trattati con lo stesso farmaco o se i due farmaci fossero terapeuticamente equivalenti? (A=B) Questa riflessione ha implicazioni pratiche importanti , come la scelta del farmaco da usare e la valutazione dell’ efficacia di un nuovo trattamento. Per rispondere, bisogna condurre esperimenti , e trarre conclusioni sulla base delle evidenze statistiche : l’esperimento fornisce sufficienti indicazioni di efficacia oppure no? Il ragionamento statistico rimane lo stesso. Per verificare l’ipotesi nulla ( H₁ ), possiamo utilizzare l’ intervallo di confidenza delle medie campionarie. Se estraessimo infinite coppie di campioni , troveremmo infinite differenze : alcune pari a 0 altre molto prossime a 0 altre ancora molto lontane da 0 Se la differenza tra medie è molto piccola , potremmo concludere che il farmaco funziona , ovvero che non vi è reale differenza. Al contrario, se la differenza è molto grande , ciò può indicare che il farmaco non funziona , o comunque che i gruppi non sono equivalenti. Se il valore di t empirico è più basso del valore di t teorico , significa che ci troviamo nell’area di accettazione dell’ipotesi nulla → non possiamo rifiutare H₀ (ricordando sempre: non significa che H₀ sia vera ). Al contrario, se t empirico è maggiore di t teorico → ci troviamo nell’area di rigetto di H₀ → possiamo rifiutare l’ipotesi nulla. In conclusione, una ricerca scientifica non fornisce mai una verità assoluta : ci orienta in una certa direzione , ma i risultati devono essere confermati da altri esperimenti , con lo stesso rigore metodologico.
Questo metodo convince di più il professore Modo ragionamento è quello di lavorare sulla variabilità del nostro fenomeno (variabilità), è possibile grazie al fatto che ognuno degli individui nei due campioni possiede una pressione sistolica diversa
Per iniziare, si calcolano le medie dei due gruppi: ȳ₁ = 125 ȳ₂ = 130 (media generale: ȳ = 127.5) Per estrarre solo la variabilità tra gruppi, si immagina che tutti i soggetti del gruppo 1 abbiano il valore 125, e quelli del gruppo 2 130. A questo punto si calcolano gli scarti delle medie di gruppo dalla media generale e si moltiplica per il numero di individui di ogni gruppo: d_A = 10(125 - 127.5)² + 10(130 - 127.5)² = 125 Questa è la devianza tra gruppi (d_A), ed è attribuibile solamente all’appartenenza a gruppi diversi. Devianza tra gruppi: d_A = 125 Devianza totale: d_T = 1929 E tutto il resto? Cosa determina la differenza tra 1929 e 125? Questa differenza: slide 209 d_C = d_T - d_A = 1929 - 125 = 1804 Devianza entro gruppi o residua d_C quella che descrive la variabilità biologica, ovvero alla variabilità interna ai gruppi, data dal fatto che anche a parità di trattamento, i soggetti reagiscono in modo diverso. d_C = 1804 Riassumendo, la variabilità totale della pressione sistolica è scomponibile in due componenti:
Confronto con valore teorico: F teorico = F1,18;0.95 = 4.41 (questo F teorico è quello che avremmo sotto l’ipotesi nulla) Poiché F empirico = 1.25 < F teorico = 4.41, non possiamo rifiutare l’ipotesi nulla (H₀): μ₁ = μ₂; non ci sono prove sufficienti per concludere che l’ipotesi nulla sia falsa, non possiamo dire che i due farmaci A e B hanno un diverso effetto sul pz; Interpretazione del p-value:
più è alta la differenza più significa che il farmaco è efficace, più è bassa e meno è efficace, se la differenza è negativa significa che ha alzato la colesterolemia e potrebbe essere perfino dannoso Ipotesi nulla il farmaco che sembra funzionare meglio devi escludere che sia stato il caso Rifiutare l’ipotesi nulla non posso dire che sia stato il caso, accettare ipotesi nulla posso dire che c’è presente il caso Evidenze statistiche possono dire di poterla escludere o di non poterla escludere*** Se la variabilità del fenomeno fosse solo ed esclusivamente dovuta al fatto che un campione è stato trattato con A ed uno con B tutti dovrebbero avere una differenza uguale alla loro media. || Descrivere le stesse cose che abbiamo descritto con i caratteri quantitativi ma con caratteri qualitativi prima dal punto di vista descrittivo, poi dal punto di vista inferenziale (osservando il campione cosa possiamo dire della popolazione?) Caratteri qualitativi: maschio o femmina, malato non malato, morto o non morto (decesso)
Prima misura descrittiva è il Tasso
Come la coorte romana si muove la seguiamo nel corso del tempo e osserviamo gli individui che transitano dallo stato vivo allo stato morto o da non recidiva a recidiva quindi così possiamo misurare la mortalità o il tasso di sopravvivenza o il tasso di recidiva del tumore. Come misurare il tasso? Facendo la sommatoria del contributo in termini di unità temporale, che noi consideriamo come l’anno, di ogni individuo preso in esame. Il contributo offerto da ognuna delle donne è diverso. La prima donna da un contributo di 5 anni la seconda di 4,5 anni e così via, quindi faremo la sommatoria di tutte queste differenze (delta ti) che chiameremo PT = Persone-tempo (delta ti perché è 5 anni intervallo di tempo preso in esame – numero di anni quando è accaduto l’evento) Nel momento in cui si verifica quell’evento è impossibile che l’evento stesso si verifichi una seconda volta per individuo, esempio è la morte dell’individuo ; Tutto ciò ci permette di calcolare per ogni individuo della coorte il contributo temporale offerto allo studio e la somma di questo contributo la chiamiamo persone-tempo = PT = sommatoria dipende dal numero di persone ma anche dal tempo offerto dal numero di persone Criticità del tasso è che 100 anni-persona significa: 100 persone osservate in 1 anno oppure 1 persona osservata ogni 100 anni, questo rende difficile l’interpretazione del tasso.
Incidenza perché stiamo parlando di nuovi casi che si verificano durante il periodo di osservazione, tasso di incidenza non è altro che il rapporto tra il numero di eventi e le persone tempo (PT) cioè la numerosità campionaria della coorte In questo caso il tasso è di 4/40 cioè 10 ogni 100 anni persona (vedi foto sopra) Significa che ogni 100 anni persona in media 10 muoiono o si ammalano ogni anno, esattamente come descrivere una velocità: 100 km in 1 ora o 100 km/h non è detto che ho mantenuto la stessa velocità possono iniziare veloce e finire piano o al contrario iniziare lento e finire veloce quindi il tasso non è stabile è variabile la cosa importante è la media del tasso Quindi per avere una misura quantitativa utile ai fini statistici non si fa altro che misurare il tasso medio cioè la velocità media con il quale la coorte presa in esame transita da uno stato all’altro