Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Il corso si propone di fornire gli strumenti concettuali per capire le peculiarità del met, Dispense di Statistica Medica

Ruolo delle scienze statistiche nella ricerca e nella pratica clinica Frequenza della malattia e dei suoi possibili esiti Alcune tecniche di uso comune La ricerca scientifica tra sperimentazione ed osservazione Studi clinici controllati e randomizzati Studi epidemiologici osservazionali

Tipologia: Dispense

2023/2024

Caricato il 02/07/2025

tiffani.trimarco1
tiffani.trimarco1 🇮🇹

2 documenti

1 / 55

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Sono presenti 3 tipi di statistica:
- Statistica per programmare
- Statistica per descrivere
- Statistica per inferire
Approccio scientifico ha un suo razionale
Biostatistica peculiare perché c’è una grande variabilità di fenomeni
La giustificazione dell’uso del metodo statistico deriva da una semplice considerazione: il nostro
problema è quello di elaborare leggi generali che consentano di orientarci rispetto all’effetto di un
trattamento o di un insieme di trattamenti su determinati esiti di tipo clinico. Siccome l’universo (chi
ne ha tratto vantaggio) non è interamente osservabile ricorriamo a delle osservazioni campionare
che rappresentano l’insieme finito di quello che noi consideriamo universo.
Questo trattamento ha effetto sui pazienti? consente di migliorare la prognosi dei pz con determinate
caratteristiche? Per rispondere a ciò non riusciremo mai ad osservare tutti gli individui che possono
trarre e che potranno trarre un eventuale beneficio dal trattamento, possiamo osservare una parte
di pz oggi osservati e oggi presi in considerazione e poi generalizzare i risultati della nostra
osservazione all’intero universo (cioè tutti i pz che potranno trarre beneficio dal trattamento)
Per fare questo dobbiamo definire il campione e quali sono i suoi caratteri, scomporre in due parti di
interesse ciò che facciamo:
- descriviamo il campione, che è un carattere di interesse, nella statistica descrittiva;
- generalizzare ciò che osserviamo nel campione e applicarlo all’intero universo, trattamento
ha avuto effetto non solo su quel campione ma ha un effetto riscontrabile in tutti i pz affetti
dalla malattia in questione?
Per fare questo utilizziamo i caratteri della statistica inferenziale e per prima cosa abbiamo descritto
un carattere quantitativo e come si distribuisce in modo continuo (distribuzione di frequenza),
carattere quantitativo può essere l’età, la pressione arteriosa o la colesterolemia;
Partiamo sempre da statistica descrittiva per descrivere i dati successivamente applicheremo la
statistica inferenziale
Per “descriveredobbiamo porci 3 quesiti rispetto al campione:
1. Come si distribuiscono i nostri caratteri nel campione di esame? Istogrammi cioè grafico
distribuzione di sequenza
2. Quale valore in media assumono i singoli valori della distribuzione? Capire la misura di
posizione più adatta indicatori misura di posizione sono:
- media aritmetica cioè la misura di posizione più comune condizionata però dai valori
estremi;
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37

Anteprima parziale del testo

Scarica Il corso si propone di fornire gli strumenti concettuali per capire le peculiarità del met e più Dispense in PDF di Statistica Medica solo su Docsity!

Sono presenti 3 tipi di statistica:

  • Statistica per programmare
  • Statistica per descrivere
  • Statistica per inferire Approccio scientifico ha un suo razionale Biostatistica peculiare perché c’è una grande variabilità di fenomeni La giustificazione dell’uso del metodo statistico deriva da una semplice considerazione: il nostro problema è quello di elaborare leggi generali che consentano di orientarci rispetto all’effetto di un trattamento o di un insieme di trattamenti su determinati esiti di tipo clinico. Siccome l’universo (chi ne ha tratto vantaggio) non è interamente osservabile ricorriamo a delle osservazioni campionare che rappresentano l’insieme finito di quello che noi consideriamo universo. Questo trattamento ha effetto sui pazienti? consente di migliorare la prognosi dei pz con determinate caratteristiche? Per rispondere a ciò non riusciremo mai ad osservare tutti gli individui che possono trarre e che potranno trarre un eventuale beneficio dal trattamento, possiamo osservare una parte di pz oggi osservati e oggi presi in considerazione e poi generalizzare i risultati della nostra osservazione all’intero universo (cioè tutti i pz che potranno trarre beneficio dal trattamento) Per fare questo dobbiamo definire il campione e quali sono i suoi caratteri, scomporre in due parti di interesse ciò che facciamo:
  • descriviamo il campione, che è un carattere di interesse, nella statistica descrittiva;
  • generalizzare ciò che osserviamo nel campione e applicarlo all’intero universo, trattamento ha avuto effetto non solo su quel campione ma ha un effetto riscontrabile in tutti i pz affetti dalla malattia in questione? Per fare questo utilizziamo i caratteri della statistica inferenziale e per prima cosa abbiamo descritto un carattere quantitativo e come si distribuisce in modo continuo (distribuzione di frequenza), carattere quantitativo può essere l’età, la pressione arteriosa o la colesterolemia; Partiamo sempre da statistica descrittiva per descrivere i dati successivamente applicheremo la statistica inferenziale Per “descrivere” dobbiamo porci 3 quesiti rispetto al campione:
  1. Come si distribuiscono i nostri caratteri nel campione di esame? Istogrammi cioè grafico distribuzione di sequenza
  2. Quale valore in media assumono i singoli valori della distribuzione? Capire la misura di posizione più adatta  indicatori misura di posizione sono:
  • media aritmetica cioè la misura di posizione più comune condizionata però dai valori estremi;
  • moda cioè il valore più comune;
  • mediana cioè il valore centrale, dove cade il 50% della nostra distribuzione, che non è influenzato dagli estremi. Capire se la distribuzione è simmetrica o asimmetrica, se funzione è simmetrica misura di posizione come media o mediana non importa quale scegliamo, se distribuzione è asimmetrica meglio usare la mediana.
  1. Quanto sono dispersi i valori del nostro campione (caratteri) intorno alla media? Variabilità nei caratteri all’interno del campione e se il carattere è omogeneo o eterogeneo;
  • CAMPO DI VARIAZIONE (o range o escursione) è la differenza assoluta tra i valori estremi delle osservazioni
  • DEVIANZA è la somma degli scarti quadratici dei singoli valori dalla media (serve per vedere la variazione dalla media e per misurare la dispersione) la devianza tende ad aumentare con la numerosità campionaria (dobbiamo fare al quadrato le somme degli scarti perché altrimenti avremmo come somma di tutti questi valori 0)
  • VARIANZA è la devianza media fratto la numerosità campionaria del campione si farà quindi n - 1 cioè i gradi di libertà non n perché n indica la TOTALITÀ della popolazione (non la numerosità campionaria)
  • DEVIAZIONE STANDARD è la radice quadrata della varianza Gradi di libertà (Gdl) Test statistico ha alla base la rimozione del caso, tanto più il rapporto è = a 1 tanto meno possiamo escludere che la differenza sia dovuta al caso, tanto meno è vicino a 1 possiamo rigettare l’ipotesi nulla

Primo quartile racchiude il 25% di tutti i nostri valori(sotto mentre sopra il 75% dei valori) il Q3 terzo quartile sotto rappresenta Questo avviene solo per una gaussiana per curve non gaussiane divideremo la nostra curva in parti uguali, se dividiamo in 4 parti il campione avremmo 4 quartili ogni quartile quindi rappresenta il 25% del campione Quartile mediano il cioè quel quartile che sottende il 50% del campione Percentile si divide in 100 parti quindi se prenderò il 95esimo percentile sottenderò il 95% della popolazione sotto al grafico Interesse capire qual è l’effetto misurabile di ogni trattamento quindi non ci aspetteremmo la media del campione bensì che la probabilità che i pz che abbiano un effetto positivo sia entro un certo range dalla media con una certa probabilità.

Statistica per Inferire

Cosa possiamo dire della popolazione da cui il campione in studio è stato estratto? Distribuzione di campionamento e statistica descrittiva Gap tra media campionaria e media vera (ignota) Se estraiamo dalla popolazione degli stessi campioni otterremo diversi medie campionarie 3 domande da porci: Come si distribuiscono le medie campionarie?

Teorema del limite centrale: distribuzione approssimativamente normale indipendentemente dalla forma della distribuzione di frequenza del carattere nella popolazione bersaglio (se n sufficientemente grande), si lavora con una media Quale valore in media assumono le medie campionarie? La media aritmetica coincide con quella della media aritmetica del carattere nella popolazione dalla quale i campioni sono stati estratti () Quanto sono disperse le medie campionarie? Errore standard è la deviazione standard delle medie campionarie ed è uguale a sigma su radice (deviazione standard di tutte le popolazioni da  cioè dalla media vera)/ radice di n (numerosità campionaria) Questo ci dice che più grande il campione più piccola sarà la deviazione standard (s) di tutte le medie dei campioni Tanto più grande è il campione, meno informazioni perdiamo, quanto è più piccolo σ sigma (quindi una minore dispersione nel campione molto utile), σ sigma indica la dispersione della popolazione Per ottenere distribuzione media 0 ci basterà ragionare sui singoli scarti delle medie campionarie Dividere questa differenza per l’errore standard e il risultato sarà una distribuzione che avrà come media = 0 area =1 cioè che in una distribuzione normale che va da + infinito a – infinito sono distribuiti tutti i campioni della popolazione; Distribuzione normale standardizzata. Siamo interessati a valutare un singolo carattere (esempio pressione sistolica, efficacia di un farmaco etc) ignoto all’interno dell’insieme universo

Intervallo di confidenza è dato da Y +/- t (^) (gradi di libertà / 1 - α) s / rad n Dove al pedice di t indichiamo che stiamo lavorando con dei gradi di libertà n-1 e con un livello di probabilità scelto 1 – α Stima intervallare di mu significa che stiamo parlando del range di probabilità (in questo caso 95% scelta dalla tavola di distribuzione) nella quale è maggiore trovare la media del valore della popolazione Per trovare la media del campione di una certa popolazione con una probabilità del 99% cosa bisogna fare? Valore di t anziché z; quindi invece di usare 2.262 useremo 3.250 che corrisponde al 0.99% di probabilità e quindi amplieremo il range di probabilità; se aumentassimo il campione l’intervallo di incertezza diminuirebbe poiché è dato dal rad n che sarà più grande e dai gradi di libertà Se campione diventa più numeroso si dovrà agire sui gradi di libertà e la radice di n Scopo è avere sempre un intervallo di confidenza ristretto per poter dire qualcosa in più Se il carattere della popolazione presa in esame fosse meno disperso nella popolazione in studio? Gli individui sono molto simili tra di loro quindi diminuisce la deviazione standard e quindi diminuisce l’intervallo di confidenza perché si riduce l’incertezza Studi statistici fatti su gruppi omogenei di pz quindi in questo caso ridurremmo la popolazione prendendo in considerazione solo degli individui con certe caratteristiche (senza altre malattie presenti, in base all’età etc..) Questo è un vantaggio perché i risultati dello studio sono indirizzati verso una classe di pz ben precisa più elementi per trattare quell’individuo con quelle caratteristiche; da un punto di vista statistico abbiamo ridotto il margine di incertezza e questo si vede nella formula della slide 77 Gradi di libertà = n – 1 dato un campione di n individui ci basta di conoscere la media aritmetica di quel carattere per ricavare il valore di quel carattere di quell’individuo preso in esame

Confronto tra due campioni

Quando confrontiamo due campioni le inferenze sono sempre presenti Confrontiamo due campioni sottoposti a due trattamenti diversi, avremo due medie diverse perché le popolazioni che trattiamo sono diverse quindi non possiamo dire dalla media che un trattamento è più efficace dell’altro (differenze tra la medie potrebbero essere dovute al caso) Media pop 1 = 125 mmHg Media pop 2 = 130 mmHg Sono solo medie campionarie due valori estratti casualmente da due popolazioni che fanno parte dello stesso universo Ricavare per ogni coppia di valori la differenza tra essi, immaginare distribuzione delle differenze delle medie aritmetiche: Media pop 1 – media pop 2 = d = - 5 mmHg media delle differenze aritmetiche questo ci serve per trovare la media mu vera della popolazione e questo ci aiuta a capire ad esempio quali dei due farmaci funziona meglio o se uno funziona meglio dell’altro. Si parte da massimo scetticismo per capire se i trattamenti funzionano allo stesso modo quindi la differenza delle medie dei campioni deve essere = 0 cosa che però non accade mai, capire se possiamo attribuire questa differenza al caso oppure no Due possibilità da contemplare: la prima cioè l’ipotesi nulla espressa come H 0 che sostiene che le differenze osservate siano interamente dovute al caso e quindi diremo che H 0 y1 = y2 e quindi differenza tra le due medie è = 0, ipotesi alternativa è che i due farmaci differiscono quindi H 0 ci dice che y1 diverso da y2 e quindi delta diversa da 0 (lettere greche sono per l’intero popolazione, le lettere italiane sono per il campione) Trattiamo la statistica utilizzando il metodo scientifico applicandolo al caso di studio specifico Se t è molto vicina a 0 significa che l’ipotesi nulla è quella più attendibile se invece t è un numero più alto è più probabile l’ipotesi alternativa ma non possiamo scartare interamente l’ipotesi nulla Siccome non esiste nessun valore che è compatibile con l’ipotesi nulla questo si traduce nel fatto che l’errore dobbiamo accettare e questa cosa dobbiamo farla a priori, l’errore di rigettare l’ipotesi nulla quando nella realtà questa è vera, questo errore si chiama errore di primo tipo che si chiama alfa Spesso l’ipotesi che più ci riporti il valore di alfa che più si ripete in letteratura è dello 0,05 (5%) ogniqualvolta che noi facciamo lo studio ci aspettiamo che l’errore del primo tipo sia del 5%

Dunque, la domanda da porsi è: cosa accadrebbe se estraessimo due campioni dalla stessa popolazione e l’ipotesi nulla fosse vera? In questo scenario, l’errore che decidiamo a priori di essere disposti ad accettare viene chiamato α , e comunemente in letteratura viene fissato al 5%. Esistono 3 modi per saggiare l’ipotesi nulla e per verificare se questo alfa accettato o meno, metodi equivalenti e portano allo stesso risultato; tre modi diversi di ragionare

  1. Metodo della stima intervallare
  2. Test del T Student
  3. Analisi della varianza e test F

Stima intervallare

Ricordando cosa facevamo con una sola media campionaria andavamo a calcolarci un intervallo nel quale è inclusa la media vera con un certo grado di probabilità; La stima intervallare di una media campionaria: y +/- tg;1-  * es ; es = s/rad n (errore standard); Applichiamo questo alla differenza tra due medie campionarie:

  • y sopra segnato diventa la media tra la differenze delle due medie cioè (d);
  • abbiamo due deviazioni standard e due numerosità campionarie da s/rad n a rad(s1/s 1 n2/s2);
  • t è l’equivalente a tradurre la seguente formula in termini numerici  cosa accadrebbe sotto l’ipotesi nulla, accade una cosa che fa riferimento alla distribuzione t che noi possiamo calcolare o trovare in forma tabellare, t è il valore di d con quei gradi di libertà e quell’errore di primo tipo che stiamo accettando  al posto di g che indica i gradi libertà (n-1) metteremmo [(n1-1)+(n2-2)] perché stiamo ;  al posto di alfa inseriamo l’errore di primo tipo alfa Fatto questo dobbiamo stabilire a priori il grado di errore che siamo disposti ad accettare, allora avremmo 18 gradi di libertà con due campioni con una numerosità di 10 ciascuno e vogliamo ammettere un errore alfa del 5% (possibilità di rifiutare a l’ipotesi nulla quando questa è vera che noi siamo disposti ad accettare) I valori di t possiamo trovarli in forma tabellare, sulle colonne i gradi di libertà (18) e sulle righe il valore di ammettere il valore di ammissione dell’ipotesi nulla 1 -  = 0,95 95% ed il valore di t teorico dalla tabella sarà 2,201(slide 97) Valore di t teorico se fosse vera l’ipotesi nulla quindi nel 95% dei casi

Lo sostituiamo dentro la nostra formula, intervallo di confidenza è - 5 +/- 2,1 + 4,5 ovvero la differenza tra le due medie campionarie (media vera) sarà compresa tra (-14,5) a (+4,5) cioè con una probabilità del 95% Poiché questo intervallo contiene quello atteso sotto l’ipotesi nulla allora l’ipotesi nulla non può essere rifiutata, cioè il nostro gruppo di studio non offre evidenze statistiche che i due gruppi differiscano per pressione sistolica media p > 0.05; Non possiamo escludere che nonostante ciò che abbiamo osservato sebbene i due campioni abbiano media differente quanto osservato è compatibile con l’ipotesi nulla (compatibile con una differenza non dovuta a diverso trattamento) il p non è altro che il corrispondente di alfa a posteriori, mentre alfa lo era a priori, p value è il grado di plausibilità dell’ipotesi nulla. Siccome il grado di plausibilità dell’ipotesi nulla è maggiore di quello che abbiamo accetto all’inizio allora accettiamo l’ipotesi nulla, solo e perché in questo intervallo è presente l’intervallo di probabilità nella quale è presente l’ipotesi nulla e quindi non possiamo non accettarla, è vera Se i due campioni sono uguali il rapporto tra i due numeri sarà 1, se p > 0,05 allora lo studio non offre evidenze (statistiche) che i due gruppi differiscano per pressione sistolica media, Lo studio offre evidenze statistiche che i due gruppi differiscono per pressione sistolica media (p < 0,05) Se i campioni possedessero una numerosità campionaria maggiore in che modo si dovrebbe agire? In questo caso sarà meno probabile che l’ipotesi nulla venga accettata, l’intervallo di confidenza si restringe perché si riduce l’incertezza di discostarsi dalla media. Nostro problema è che la popolazione universo non è mai osservabile, tanto più piccolo è il campione tanto più è grande l’incertezza, numerosità maggiori nei campioni implicano una minore incertezza e quindi diminuisce l’intervallo di confidenza; Questo si nota anche nei calcoli che abbiamo appena fatto utilizzando la formula generale d ± tg;1-  * es(d) Errore standard nella stima intervallare della differenza tra due medie campionarie (d) si riduce perché la numerosità campionaria è al denominatore e anche perché cambiano i gradi di libertà; lo 0 zero è escluso intervallo non contiene il valore atteso sotto l’ipotesi nulla e quindi rifiutiamo l’ipotesi nulla e la p value è < 0,05 (minore del 5%) Se l’intervallo di confidenza calcolato ad intervallo di confidenza 1 -  dobbiamo concludere che p> alfa e che quindi le due medie non differiscono

(È fondamentale ricordare: accettare H₀ non significa affermare che sia vera , ma semplicemente che non abbiamo prove sufficienti per rifiutarla .) Parliamo quindi di due aree:  area di accettazione di H₀area di rigetto di H₀ Il test statistico che stiamo eseguendo consiste nel calcolare un rapporto tra ciò che abbiamo empiricamente osservato e la dispersione (variabilità) dei dati. Più alta è la variabilità casuale , più è probabile che ciò che abbiamo osservato sia compatibile con H₀. Abbiamo a disposizione la differenza osservata ( d ), ovvero la differenza tra le due medie campionarie. Possediamo anche l’ errore standard (ES) , calcolato a partire dalle deviazioni standard delle due numerosità campionarie. Da questi dati, abbiamo ricavato il valore empirico di t = 1,1 , che da solo non ci dice nulla. Per interpretarlo, dobbiamo confrontarlo con il valore teorico che ci aspettiamo sotto l’ipotesi nulla. Questo valore viene ricavato dalla distribuzione teorica di t , e per 18 gradi di libertà al 95% di confidenza, troviamo un intervallo compreso tra ±2,. Se il valore di t empirico cade all’interno dell’intervallo [–2,101 ; +2,101] , significa che è più probabile che i valori osservati siano compatibili con H₀accettiamo H₀. Se invece il valore di t empirico cade fuori da questo intervallo , allora possiamo rifiutare l’ipotesi nulla. Ciò che cambia, in questo contesto, è che aumentando i gradi di libertà , il valore teorico di t diminuisce, e quindi l’intervallo di confidenza si restringe. Allo stesso tempo, l’ errore standard della differenza ( ES(d) ) diminuisce , per cui il rapporto: tg = d / ES(d) aumenterà. Di conseguenza, sarà più probabile che il valore di t cada al di fuori dell’area di accettazione dell’ipotesi nulla ( H₁ ), e quindi potremo rifiutare H₀ con maggiore sicurezza. È fondamentale il ragionamento alla base di tutto questo : stiamo confrontando due campioni per capire se differiscono tra loro. Questi campioni potrebbero rappresentare, ad esempio, due gruppi di pazienti affetti dalla stessa malattia , con uguale severità e caratteristiche sovrapponibili , fatta eccezione per il trattamento: uno riceve il farmaco A , l’altro il farmaco B.

Ma potrebbero anche essere due campioni con caratteristiche differenti. Un altro esempio: vogliamo capire se due popolazioni di etnie diverse presentano valori medi differenti di pressione sistolica. Dal punto di vista statistico , il problema non cambia. In ogni caso, non avremo mai accesso a tutti i dati delle popolazioni trattate con A o B, o appartenenti all’etnia A o B. La mancanza di dati completi introduce il caso , e quindi perdiamo informazione. Dobbiamo quindi trovare un metodo per discriminare l’effetto del caso da quello sistematico , ovvero quello che ci interessa mettere in evidenza. Per approfondire, abbiamo preso come esempio un carattere quantitativo , come la pressione sistolica (ma il ragionamento vale anche per caratteri qualitativi ). Vogliamo sapere se gli individui trattati con il farmaco A sviluppano un certo esito in modo diverso rispetto a quelli trattati con il farmaco B. Confrontando i due gruppi, troveremo due medie differenti. A questo punto, la domanda fondamentale è: Queste due medie differiscono perché i gruppi sono stati trattati con due farmaci A e B diversi? Oppure la differenza sarebbe comunque emersa , anche se entrambi fossero stati trattati con lo stesso farmaco o se i due farmaci fossero terapeuticamente equivalenti? (A=B) Questa riflessione ha implicazioni pratiche importanti , come la scelta del farmaco da usare e la valutazione dell’ efficacia di un nuovo trattamento. Per rispondere, bisogna condurre esperimenti , e trarre conclusioni sulla base delle evidenze statistiche : l’esperimento fornisce sufficienti indicazioni di efficacia oppure no? Il ragionamento statistico rimane lo stesso. Per verificare l’ipotesi nulla ( H₁ ), possiamo utilizzare l’ intervallo di confidenza delle medie campionarie. Se estraessimo infinite coppie di campioni , troveremmo infinite differenze :  alcune pari a 0  altre molto prossime a 0  altre ancora molto lontane da 0 Se la differenza tra medie è molto piccola , potremmo concludere che il farmaco funziona , ovvero che non vi è reale differenza. Al contrario, se la differenza è molto grande , ciò può indicare che il farmaco non funziona , o comunque che i gruppi non sono equivalenti. Se il valore di t empirico è più basso del valore di t teorico , significa che ci troviamo nell’area di accettazione dell’ipotesi nullanon possiamo rifiutare H₀ (ricordando sempre: non significa che H₀ sia vera ). Al contrario, se t empirico è maggiore di t teorico → ci troviamo nell’area di rigetto di H₀ → possiamo rifiutare l’ipotesi nulla. In conclusione, una ricerca scientifica non fornisce mai una verità assoluta : ci orienta in una certa direzione , ma i risultati devono essere confermati da altri esperimenti , con lo stesso rigore metodologico.

Analisi della varianza e test F

Questo metodo convince di più il professore Modo ragionamento è quello di lavorare sulla variabilità del nostro fenomeno (variabilità), è possibile grazie al fatto che ognuno degli individui nei due campioni possiede una pressione sistolica diversa

Per iniziare, si calcolano le medie dei due gruppi: ȳ₁ = 125 ȳ₂ = 130 (media generale: ȳ = 127.5) Per estrarre solo la variabilità tra gruppi, si immagina che tutti i soggetti del gruppo 1 abbiano il valore 125, e quelli del gruppo 2 130. A questo punto si calcolano gli scarti delle medie di gruppo dalla media generale e si moltiplica per il numero di individui di ogni gruppo: d_A = 10(125 - 127.5)² + 10(130 - 127.5)² = 125 Questa è la devianza tra gruppi (d_A), ed è attribuibile solamente all’appartenenza a gruppi diversi. Devianza tra gruppi: d_A = 125 Devianza totale: d_T = 1929 E tutto il resto? Cosa determina la differenza tra 1929 e 125? Questa differenza: slide 209 d_C = d_T - d_A = 1929 - 125 = 1804 Devianza entro gruppi o residua d_C quella che descrive la variabilità biologica, ovvero alla variabilità interna ai gruppi, data dal fatto che anche a parità di trattamento, i soggetti reagiscono in modo diverso. d_C = 1804 Riassumendo, la variabilità totale della pressione sistolica è scomponibile in due componenti:

  1. Variabilità tra gruppi → dovuta ai trattamenti differenti (farmaci diversi A e B): d_A = 125
  2. Variabilità entro gruppi (residua) → dovuta alla risposta individuale dei soggetti allo stesso trattamento: d_C = 1804 Gradi di libertà (Gdl):
  • Devianza totale: Gdl tot gruppi = n (numero degli scarti totali 36) - 1 (1 perché si usa una sola media quella generale) = 20 - 1 = 19 (oppure la somma dei gradi di libertà tra i gruppi + entro i gruppi)
  • Devianza tra gruppi: Gdl tra gruppi= k (numero degli scarti tra media del gruppo scarti legati ad 1 grado di libertà) - 1 (un'unica media quella generale)= 2 - 1 = 1
  • Devianza entro gruppi o residua: n (scarti quadratici tra il singolo valore del gruppo – la media del gruppo) - k (numero delle medie dalle quali dipendono questi scarti, 2 perché sono le 2 medie dei due gruppi) = 20 - 2 = 18 Varianze:
  • Varianza tra gruppi = d_A / Gdl tra gruppi = 125 / 1 = 125.0 (varianza dovuta al fattore sperimentale, ogni pz trattato con il farmaco A differisce in media con un altro individuo trattato con lo stesso farmaco)
  • Varianza entro gruppi = d_C / Gdl entro gruppi = 1804 / 18 = 100. Varianza totale (F) = rapporto tra le due varianze: varianza tra gruppi / varianza entro gruppi (residua) Tanto più il rapporto è superiore a 1 tanto più ci stiamo discostando dall’ipotesi nulla Test F: confronto tra varianze F1,18 = Varianza tra gruppi / Varianza entro gruppi = 125.0 / 100.2 = 1.

Confronto con valore teorico: F teorico = F1,18;0.95 = 4.41 (questo F teorico è quello che avremmo sotto l’ipotesi nulla) Poiché F empirico = 1.25 < F teorico = 4.41, non possiamo rifiutare l’ipotesi nulla (H₀): μ₁ = μ₂; non ci sono prove sufficienti per concludere che l’ipotesi nulla sia falsa, non possiamo dire che i due farmaci A e B hanno un diverso effetto sul pz; Interpretazione del p-value:

  • Se p > α (0,05) → si accetta H₀ (μ₁ = μ₂), non ci sono evidenze statistiche per dire che i due farmaci differiscano, con una probabilità che siano uguali maggiore del 5% o la probabilità che siano diversi minore del 95% (nessuna differenza significativa tra i gruppi, i due farmaci saranno equivalenti a livello terapeutico)
  • Se p < α (0,05) → si rifiuta H₀ (μ₁ ≠ μ₂), ci sono evidenze statistiche per dire che i due farmaci differiscono, con una probabilità che siano uguali minore del 5% o la probabilità che siano diversi maggiore del 95% (differenza significativa, farmaco non sarà equivalente a livello terapeutico) α (errore di primo tipo) l’errore che ammettiamo se fosse vera l’ipotesi nulla, lo scegliamo sempre noi e sarà sempre 5% o 0,05, ed è la probabilità che sbagliamo sulla conclusione che traiamo dall’ipotesi che prendiamo in considerazione, si trova sempre mediante una tabella formata dai Gdl:
  • sulla x i Gdl della devianza entro gruppi
  • sulla y i Gdl della devianza tra gruppi p value è il grado di plausibilità dell’ipotesi nulla tanto sarà maggiore tanto più l’ipotesi nulla sarà plausibile tanto sarà minore tanto l’ipotesi nulla sarà meno plausibile Due approcci equivalenti:
  • t di Student: t₁₈ = 1.
  • partendo dalla Varianza: F₁,₁₈ = 1.25 → t²₁₈ = F₁,₁₈

più è alta la differenza più significa che il farmaco è efficace, più è bassa e meno è efficace, se la differenza è negativa significa che ha alzato la colesterolemia e potrebbe essere perfino dannoso Ipotesi nulla il farmaco che sembra funzionare meglio devi escludere che sia stato il caso Rifiutare l’ipotesi nulla non posso dire che sia stato il caso, accettare ipotesi nulla posso dire che c’è presente il caso Evidenze statistiche possono dire di poterla escludere o di non poterla escludere*** Se la variabilità del fenomeno fosse solo ed esclusivamente dovuta al fatto che un campione è stato trattato con A ed uno con B tutti dovrebbero avere una differenza uguale alla loro media. || Descrivere le stesse cose che abbiamo descritto con i caratteri quantitativi ma con caratteri qualitativi prima dal punto di vista descrittivo, poi dal punto di vista inferenziale (osservando il campione cosa possiamo dire della popolazione?) Caratteri qualitativi: maschio o femmina, malato non malato, morto o non morto (decesso)

Descrizione

Prima misura descrittiva è il Tasso

TASSO:

  • misura il cambiamento istantaneo di una quantità (passaggio da sano a malato o da vivo a deceduto) rispetto alla variazione unitaria di un’altra quantità (tempo);
  • Nell’uso comune ci si riferisce al tasso medio osservato in un determinato periodo di tempo;
  • L’esempio in questo caso è la definizione di Velocità che è ciò che stiamo andando a misurare, transizione da uno stato ad un altro in unità di tempo. Reclutiamo un certo numero di individui con una certa caratteristica di cui vogliamo misurare un certo evento, 10 donne operate per tumore mammella. Coorte termine che si riferisce ai legionari romani quando marciano tutti insieme lungo un griglia. Sull’asse delle y ci sono gli individui oggetto dello studio e sull’asse delle x metteremo il periodo di osservazione cioè il tempo.

Come la coorte romana si muove la seguiamo nel corso del tempo e osserviamo gli individui che transitano dallo stato vivo allo stato morto o da non recidiva a recidiva quindi così possiamo misurare la mortalità o il tasso di sopravvivenza o il tasso di recidiva del tumore. Come misurare il tasso? Facendo la sommatoria del contributo in termini di unità temporale, che noi consideriamo come l’anno, di ogni individuo preso in esame. Il contributo offerto da ognuna delle donne è diverso. La prima donna da un contributo di 5 anni la seconda di 4,5 anni e così via, quindi faremo la sommatoria di tutte queste differenze (delta ti) che chiameremo PT = Persone-tempo (delta ti perché è 5 anni intervallo di tempo preso in esame – numero di anni quando è accaduto l’evento) Nel momento in cui si verifica quell’evento è impossibile che l’evento stesso si verifichi una seconda volta per individuo, esempio è la morte dell’individuo ; Tutto ciò ci permette di calcolare per ogni individuo della coorte il contributo temporale offerto allo studio e la somma di questo contributo la chiamiamo persone-tempo = PT = sommatoria dipende dal numero di persone ma anche dal tempo offerto dal numero di persone Criticità del tasso è che 100 anni-persona significa: 100 persone osservate in 1 anno oppure 1 persona osservata ogni 100 anni, questo rende difficile l’interpretazione del tasso.

Tasso di incidenza

Incidenza perché stiamo parlando di nuovi casi che si verificano durante il periodo di osservazione, tasso di incidenza non è altro che il rapporto tra il numero di eventi e le persone tempo (PT) cioè la numerosità campionaria della coorte In questo caso il tasso è di 4/40 cioè 10 ogni 100 anni persona (vedi foto sopra) Significa che ogni 100 anni persona in media 10 muoiono o si ammalano ogni anno, esattamente come descrivere una velocità: 100 km in 1 ora o 100 km/h non è detto che ho mantenuto la stessa velocità possono iniziare veloce e finire piano o al contrario iniziare lento e finire veloce quindi il tasso non è stabile è variabile la cosa importante è la media del tasso Quindi per avere una misura quantitativa utile ai fini statistici non si fa altro che misurare il tasso medio cioè la velocità media con il quale la coorte presa in esame transita da uno stato all’altro