EPI INFO - Cross-tabulation şi testul 2 - Au drept scop verificarea unor ipoteze obţinute în urma centralizării datelor unei cercetări statistice şi stabilirea posibilelor legături între variabile. Acest tip de test se bazează pe un tabel numit "tabel de incidenţă". În acest tabel se introduc cele două variabile, dintre care una este independentă iar a doua dependentă (este influenţată de cea independentă). Testul se utilizează pentru variabile cu valori binare (da-nu, bărbat-femeie, sănătosbolnav etc.). Acest tip de test se utilizează în general atunci când se analizează posibilitatea legăturii cauzale între expunerea la un factor de risc - Exposure (alcool, fumat, un anumit aliment etc.) şi apariţia unei afecţiuni - Outcome (ciroză, cancer pulmonar, toxi-infecţie alimentară etc.). Pentru efectuarea acestui test în Epi Info, se activează modului Visual Dashboard şi se regăseşte comanda corespunzătoare în meniul contextual (fig.1a) şi activează o fereastră (fig.1b) a) b) Fig.1 Comanda Crosstabulation (a) şi fereastra corespunzătoare (b) Fereastra comenzii Crosstabulation conţine două câmpuri: Exposure - pentru variabila independentă, va fi afişată pe liniile tabelului Outcome - pentru variabila dependentă, va fi afişată pe coloanele tabelului Rezultatul testului afirmă sau infirmă o legatură cauzală între variabila independentă (Exposure) şi cea dependentă (Outcome) cu ajutorul a câtorva parametri specifici fiecărui tip de studiu - pe eşantion (case studies) sau pe întreaga populaţie (cohort studies). Deşi pentru fiecare tip de analiză sunt semnificativi doar anumiţi parametri, Epi Info afişează toate valorile, selecţia urmând a fi efectuată de utilizator. Odds ratio - este raportul dintre cota de îmbolnăviri la cei expuşi şi cota de îmbolnăviri la cei ne-expuşi (cota reprezentând raportul pe linie - expuşi --> bolnavi/sănătoşi, respectiv ne-expuşi --> bolnavi/sănătoşi). Acest parametru se utilizează cu precăderea atunci când se analizează un eşantion şi nu întreaga populaţie (studii de caz - case control studies) Risk ratio - este raportul dintre riscul ca indivizii care au fost expuşi la factorul de risc să dezvolte afecţiunea şi riscul ca indivizii care nu au fost expuşi la factorul de risc să dezvolte afecţiunea. 1
Acest parametru se utilizează cu precăderea atunci când se analizează întreaga populaţie (studii complete - cohort studies). Interpretarea valorilor: Odds ratio sau Risk ratio = 1 expunerea la factorul de risc nu are efect asupra îmbolnăvirii Odds ratio sau Risk ratio > 1 expunerea la factorul de risc are efect pozitiv asupra îmbolnăvirii Odds ratio sau Risk ratio < 1 expunerea la factorul de risc are efect negativ asupra îmbolnăvirii 2 - reprezintă rezultatul testului chi 2 (valabil dacă există cel puţin 30 valori pentru variabile), calculat în mai multe variante: uncorrected - pentru 2 se utilizează formula Pearson, rezultatul fiind valabil dacă sunt cel puţin 100 de valori pentru variabile. Mantel-Haenszel - pentru pentru 2 se utilizează formula Mantel-Haenszel, rezultatul fiind valabil dacă sunt cel puţin 30 de valori pentru variabile acestea fiind de tip ordinal. corrected - pentru 2 se utilizează formula Yates, rezultatul fiind valabil dacă sunt cel puţin 30 de valori pentru variabile sau dacă toate valorile din tabel sunt mai mari decât 5 Fisher's exact - pentru 2 se utilizează formula Fisher, rezultatul fiind valabil dacă sunt cel mult 30 de valori pentru variabile sau dacă în tabel există valori mai mici decât 5 Interpretarea valorilor: rezultatele se interpretează luând în consideraţie parametrul p: p - probabilitatea ca ipoteza H 0 să fie adevărată ("Între cele două variabile nu există nicio legătură"). Dacă p are valori > 0.005 => H 0 este adevărată, dacă p are valori < 0.005 => H 0 este falsă Exemplu Utilizând fişierul RiscCardiovascular.xls să se determine dacă există o legătură cauzală între fumat şi hipertensiune Rezolvare - Se deschide modulul Visual Dashboard şi se importă fişierul RiscCardiovascular.xls - Se lansează comanda MxN / 2x2 table, din meniul Add Analysis Gadget - Se alege variabila Fumat în câmpul Exposure şi variabila Hipertensiune în câmpul Outcome - Se apasă butonul Run Rezultat Ca urmare a aplicării comenzii se obţine fereastra din figura 2. Fig.2 Tabelul de incidenţă pentru Fumat şi Hipertensiune Având în vedere că studiul a fost efectuat pe un eşantion (Case Study) şi nu pe întreaga populaţie, se va observa valoarea Odds ratio = 0.7075 <1 deci expunerea la fumat nu generează hipertensiune. Deoarece sunt mai mult de 100 de înregistrări şi în nicio celulă din tabelul de incidenţă nu există valori <5 se urmăreşte valoarea testului 2 necorectat (Pearson) care conduce la probabilitatea p = 2
0.029 <0.05 deci între cele două variabile nu există nicio legatură, adică fumatul nu generează hipertensiune. Exerciţii 1. Să se verifice legătura dintre variabilele Alcool şi Diabet şi să se interpreteze rezultatele. 2. Să se verifice legătura dintre variabilele Sex şi Fumat şi să se interpreteze rezultatele. MedCalc - Program pentru calcul statistic în domeniul medical - MedCalc este un program comercial, specializat pentru calcule statistice în domeniul medical, produs de firma MedCalc Software din Belgia (www.medcalc.org). Pe site-ul firmei există posibilitatea descărcării unei variante trial, total funcţională pentru o perioadă de 15 zile de la instalare. Pe acelaşi site (medcalc.com) sunt disponibile şi o serie de calculatoare statistice online specializate. Spre deosebire de EpiInfo, Medcalc-ul oferă o interfaţă tip Excel, fiind dedicat mai ales calculelor statistice generale şi mai puţin creării şi manipulării unor baze de date. 1. Interfaţa utilizator Iniţial, la lansarea programului, fereastra nu conţine nicio foaie de lucru (figura 3a). Prin acţionarea corespunzătoare a butoanelor sau a comenzilor din meniul File (figura 3b), se deschide o foaie de lucru existentă sau una nouă, figura 3c. a) b) c) Fig.3 Interfaţa MedCalc MedCalc permite importul-exportul unei largi varietăţi de fişiere printre care cele tip *.xls, *.xlsx, *.txt etc. Comenzile disponibile sunt organizate în meniuri cu denumiri sugestive: File - import-export şi gestionarea fişierelor; Edit - manipularea celulelor din foia de lucru; Format - formatarea celulelor din foia de lucru şi a graficelor; Tools - manipularea variabilelor; Statistics - calcule statistice; Graphs - crearea graficelor; Tests - efectuarea de teste statistice; Sampling - calcularea numărului de înregistrări statistice necesare efectuării unei operaţii statistice specifice; Window - manipularea ferestrelor de lucru; Help - accesarea meniului de ajutor Pentru toate comenzile este afişată acţiunea acestora în bara de stare, figura 4a. De asemenea, pe toate ferestrele rezultate în urma activării unei comenzi este disponibilă o legătură către secţiunea corespunzătoare din meniul Help, figura 4b 3
a) b) Fig.4 Descrierea acţiunii comenzilor în MedCalc (a) şi accesarea meniului Help (b) 2. Calcule statistice MedCalc oferă o largă gamă de calcule statistice, disponibile în meniul Statistics, organizate pe secţiuni. În prima secţiune sunt disponibile: Summary statistics - calculul mediei, medianei, intervalului de încredere, normalităţii etc. Outlier detection - detectarea valorilor aberante (testul Grubs) Distribution plot - crearea graficelor de distribuţie Rezultatele sunt livrate în ferestre separate, grupate semnificativ, figura 5 Fig.5 Rezultatele aplicării comenzii Summary statistics 4
Exemplu de lucru Pentru exemplificarea celor arătate anterior să se efectueze următorul exerciţiu: Pentru variabila Greutate, din fişierul RiscCardioVascular.xls, să se stabilească media aritmetică, intervalul de încredere (intervalul în care se situează media calculată pe eşantion la nivelul populaţiei analizate) şi să se stabilească dacă distribuţia este normală. Să se afişeze histograma corespunzătoare. Să se analizeze cauzele anormalităţii distribuţiei. Pentru rezolvarea exercitiului se parcurg următorii paşi: 1. se deschide MedCalc şi se deschide fişierul risccardiovascular.xls 2. Se lansează comanda Summary statistics din meniul Statistics. În fereastra apărută se selectează variabila Greutate, fără filtrare. Pentru testul de normalitate se păstrează algoritmul de testare implicit - D'Agostino-Pearson. 3. Se obţine rezultatul într-o nouă fereastră: Summary statistics Variable GREUTATE Semnificaţii Sample size 798 numar de inregistrari Lowest value 43.0000 val. minima Highest value 142.0000 val. maxima Arithmetic mean 77.7030 media aritmetica 95% CI for the mean 76.7013 to 78.7047 intervalul de încredere pentru medie Median 77.5000 mediana 95% CI for the median 76.0000 to 78.0000 intervalul de încredere pentru mediana Variance 207.8251 dispersia Standard deviation 14.4161 abaterea standard Relative standard deviation 0.1855 (18.55%) abaterea standard relativă Standard error of the mean 0.5103 eroarea standard pentru medie Coefficient of Skewness 0.4900 (P<0.0001) coeficientul de înclinare Coefficient of Kurtosis 0.6250 (P=0.0036) coeficientul de boltire D'Agostino-Pearson test for Normal distribution reject Normality (P<0.0001) Percentiles 95% Confidence interval quartilele 25 67.0000 65.0000 to 68.0000 testul de normalitate a distribuţiei Rezultatul poate fi exportat într-un document word prin efectuarea de click-dreapta pe bara de titlu a ferestrei de rezultate. Răspunsurile la întrebările din exerciţiu: 1- media aritmetică = 77.7030 2- interval de încredere pentru medie = 76.7013...78.7047 3- normalitatea distribuţiei = distribuţie anormală, deformată Pentru afişarea histogramei se utilizează comanda Statistics - Distribution plot - Histogram. În fereastra de dialog deschisă de comandă se selectează variabila Greutate şi se activează opţiunea de plotare şi a distribuţiei normale. Se obţine rezultatul din figura 6, observându-se abaterea de la distribuţia normală. 5
4- în vederea evidenţierii cauzelor anormalităţii se testează variabila pentru valori aberante folosind comanda Statistics - Outlier detection. Rezultatul se obţine într-o nouă fereastră, în prima jumătate fiind reluate valorile mediei, medianei şi a caracteristicilor distribuţiei iar în cea de-a doua jumătate valorile aberante, figura 6a. Distribuţia grafică a variabilei se obţine prin apăsarea scurtăturii Box-and-Whisker plot din fereastra de rezultate, Se observă valorile aberante, care conduc la anormalitatea distribuţiei, figura 6b Fig.4 Histograma variabilei Greutate a) b) Fig.6 Testul pentru valori aberante pentru variabila Greutate a - valori numerice; b - reprezentarea grafică S ă se rezolve următoarele probleme: 1. Să se determine dacă variabila Glicemie are o distribuţie normală şi dacă nu să se determine valorile aberante, numeric şi grafic. Să se afişeze grafic distribuţia sub formă de histogramă. 2. Să se aprecieze corelaţia dintre variabilele Colesterol şi Greutate. Obs. se va utiliza comanda Statistics - Correlation şi opţiunea Scatter Diagram 3. Să se compare grafic variabilele Glicemie şi Greutate Obs. se va utiliza comanda Graphs - Data comparison graphs, cu opţiunile implicite. 4. Să se compare valorile variabilei Glicemie pentru femei şi bărbaţi Obs. se va utiliza comanda Graphs - Multiple comparison graphs, cu opţiunile: Data = Glicemie; Factor codes = Sex 5. Să se afişeze histograma corespunzătoare variabilei Înălţime şi să se identifice intervalul de valori cu frecvenţă maximă. 6. Să se reprezinte corelaţia dintre variabilele Vârsta şi Colesterol (tabelar şi grafic). Să se aprecieze nivelul de corelaţie. 6