Asocierea variabilelor discrete

Similar documents
GRAFURI NEORIENTATE. 1. Notiunea de graf neorientat

Consideraţii statistice Software statistic

10 Estimarea parametrilor: intervale de încredere

GREUTATE INALTIME IMC TAS TAD GLICEMIE

VISUAL FOX PRO VIDEOFORMATE ŞI RAPOARTE. Se deschide proiectul Documents->Forms->Form Wizard->One-to-many Form Wizard

4 Caracteristici numerice ale variabilelor aleatoare: media şi dispersia

EPI INFO. - Cross-tabulation şi testul 2 -

Parcurgerea arborilor binari şi aplicaţii

Anexa 2. Instrumente informatice pentru statistică

Platformă de e-learning și curriculă e-content pentru învățământul superior tehnic

PREZENTARE INTERFAŢĂ MICROSOFT EXCEL 2007

6. MPEG2. Prezentare. Cerinţe principale:

Modalităţi de redare a conţinutului 3D prin intermediul unui proiector BenQ:

Biostatistică Medicină Generală. Lucrarea de laborator Nr Intervale de încredere. Scop: la sfârşitul laboratorului veţi şti:

Pasul 2. Desaturaţi imaginea. image>adjustments>desaturate sau Ctrl+Shift+I

SUBIECTE CONCURS ADMITERE TEST GRILĂ DE VERIFICARE A CUNOŞTINŢELOR FILIERA DIRECTĂ VARIANTA 1

Paradoxuri matematice 1

Reprezentări grafice

2. PORŢI LOGICE ( )

Teoreme de Analiză Matematică - II (teorema Borel - Lebesgue) 1

PROBLEME DE TEORIA NUMERELOR LA CONCURSURI ŞI OLIMPIADE

riptografie şi Securitate

Aplicatii ale programarii grafice in experimentele de FIZICĂ

ARHITECTURA SISTEMELOR DE CALCUL ŞI SISTEME DE OPERARE. LUCRĂRILE DE LABORATOR Nr. 12, 13 şi 14

Capitolul 5. Elemente de teoria probabilităţilor

Split Screen Specifications

Exerciţii Capitolul 4

OPTIMIZAREA GRADULUI DE ÎNCĂRCARE AL UTILAJELOR DE FABRICAŢIE OPTIMIZING THE MANUFACTURING EQUIPMENTS LOAD FACTOR

Ghid de instalare pentru program NPD RO

22METS. 2. In the pattern below, which number belongs in the box? 0,5,4,9,8,13,12,17,16, A 15 B 19 C 20 D 21

Capitolul V MODELAREA SISTEMELOR CU VENSIM

Biraportul în geometria triunghiului 1

Departamentul de Cercetări Socio-Umane

Click pe More options sub simbolul telefon (în centru spre stânga) dacă sistemul nu a fost deja configurat.

LESSON FOURTEEN

Circuite Basculante Bistabile

Aspecte geometrice ale unei rozete asociate unui triunghi

1. Funcţii speciale. 1.1 Introducere

TTX260 investiţie cu cost redus, performanţă bună

Clasele de asigurare. Legea 237/2015 Anexa nr. 1

ZOOLOGY AND IDIOMATIC EXPRESSIONS

LUCRAREA NR. 2 STUDIUL AMPLIFICATORULUI DIFERENŢIAL

INTRODUCERE : Ce este econometria? 1. Scurt istoric privind apariţia econometriei. 2. Definiţia econometriei

CAPITOLUL 2. PROIECTAREA MODELULUI RELAŢIONAL AL DATELOR PRIN NORMALIZARE


Cum putem folosi întregii algebrici în matematica elementară

PREZENTARE CONCURSUL CĂLĂRAŞI My joy is my sorrow unmasked. 1

DEMONSTRAREA CONCURENŢEI ŞI COLINIARITĂŢII UTILIZÂND METODA FASCICULELOR CONVERGENTE NECULAI STANCIU 1

Platformă de e-learning și curriculă e-content pentru învățământul superior tehnic

OLIMPIADA DE MATEMATIC ¼A ETAPA JUDEŢEAN ¼A 3 martie 2007

Curs 10: Analiza seriilor de timp. Data mining - Curs 10 1

1. Ecuaţii diferenţiale de ordinul întâi

CAPITOLUL XI METODA DIRECT - COSTING

Algoritmică şi programare Laborator 3

Application form for the 2015/2016 auditions for THE EUROPEAN UNION YOUTH ORCHESTRA (EUYO)

Gabriela PICIU Centrul de Cercetări Financiare şi Monetare Victor Slăvescu

Rigla şi compasul. Gabriel POPA 1

O VARIANTĂ DISCRETĂ A TEOREMEI VALORII INTERMEDIARE

Split Screen Specifications

DIRECTIVA HABITATE Prezentare generală. Directiva 92/43 a CE din 21 Mai 1992

Utilizarea eficientă a factorilor de producţie

AMINELE BIOGENE-IMPLICATII IN PATOLOGIA UMANA

Cuprins. ; 93 B. 13. Problema transporturilor (a distribuirilor) 100

OLIMPIADA INTERNAŢIONALĂ DE MATEMATICĂ FORMULA OF UNITY / THE THIRD MILLENIUM 2014/2015 RUNDA A DOUA

Defuzzificarea într-un sistem cu logică fuzzy. Aplicaţie: maşina de spălat cu reguli fuzzy. A. Obiective. B. Concepte teoretice ilustrate

PURPURA TROMBOCITOPENICĂ IDIOPATICĂ LA COPIL

ASPECTE ETICE ALE ANALIZEI DATELOR EPIDEMIOLOGICE

Programa analitică. Verificare 2.7 Regimul disciplinei OBL

Geometrie euclidian¼a în plan şi în spaţiu. Petru Sorin Botezat

STANDARDUL INTERNAŢIONAL DE AUDIT 120 CADRUL GENERAL AL STANDARDELOR INTERNAŢIONALE DE AUDIT CUPRINS

METODE DE CERCETARE UTILIZATE ÎN EVALUARE

Mail Moldtelecom. Microsoft Outlook Google Android Thunderbird Microsoft Outlook

PREVIZIUNI ÎN ECONOMIE BAZATE PE MODELELE ECONOMETRICE UTILIZÂND EViews 5. ECONOMIC FORECASTS BASED ON ECONOMETRIC MODELS USING EViews 5

Laboratorul 1. MS Word

O VARIANTĂ REDUSĂ A SCALELOR DE DEPRESIE, ANXIETATE ŞI STRES (DASS)

Calcule de regresie privind convergenţa economică şi evidenţierea contribuţiei factorului instituţional

Proiect:ID 1005, Coinele, algebre Hopf şi categorii braided monoidale, Director: C. Năstăsescu SINTEZA LUCRĂRII

ACADEMIA DE STUDII ECONOMICE FACULTATEA DE FINANŢE, ASIGURĂRI, BĂNCI şi BURSE de VALORI

SORIN CERIN STAREA DE CONCEPŢIUNE ÎN COAXIOLOGIA FENOMENOLOGICĂ

Universitatea din Bucureşti. Facultatea de Matematică şi Informatică. Şcoala Doctorală de Matematică. Teză de Doctorat

ARHITECTURA CALCULATOARELOR 2003/2004 CURSUL 10

FIŞA DISCIPLINEI STATISTICĂ APLICATĂ ÎN PSIHOLOGIE ŞI PRELUCRAREA INFORMATIZATĂ A DATELOR 1

STUDIUL FACTORILOR DE RISC CARDIOVASCULAR LA POPULAŢIA SUPRAPONDERALĂ

Press review. Monitorizare presa. Programul de responsabilitate sociala. Lumea ta? Curata! TIMISOARA Page1

Microsoft Excel partea 1

9.1. Structura unităţii de I/E. În Figura 9.1 se prezintă structura unui sistem de calcul împreună cu unitatea

Analele Universităţii Constantin Brâncuşi din Târgu Jiu, Seria Economie, Nr. 1/2010

FINANCIAL DIAGNOSIS THE WAY TO GET FINANCIAL PERFORMANCES BY THE COMPANY

Un tip de data este caracterizat de: o O mulţime de date (valori є domeniului) o O mulţime de operaţii o Un identificator.

PROGRESE ÎN CONSTRUCŢIA REDUCTOARELOR DE TURAŢIE CU AXELE PARALELE

Olimpiada Naţională de Matematică 2015 Testele de Selecţie Juniori IV şi V

Cu ce se confruntă cancerul de stomac? Să citim despre chirurgia minim invazivă da Vinci

Raionul Şoldăneşti la 10 mii locuitori 5,2 4,6 4,4 4,8 4,8 4,6 4,6 Personal medical mediu - abs,

Ghidul administratorului de sistem

Fall Spring. PPVT EVT SSRS - Parents. SSRS - Teachers. Acest studiu a fost realizat de Național Institute on Out-of- School Time (NIOST)

Conferinţa Naţională de Învăţământ Virtual, ediţia a IV-a, Graph Magics. Dumitru Ciubatîi Universitatea din Bucureşti,

COMENTARII OLIMPIADA DE MATEMATICĂ 2013 ULTIMELE DOUĂ TESTE DE SELECŢIE

Maria plays basketball. We live in Australia.

ANALIZA STATICĂ A UNEI STRUCTURI DE TIP PANOU

Egalitatea de şanse şi de tratament între femei şi bărbaţi

Transcription:

Asocierea variabilelor discrete Asocierea variabilelor nominale Tipuri de teste χ Pearson este cel mai utilizat tip de test de semnificaţie χ (de multe ori lipseşte numele "Pearson") şi priveşte asocierea coloanelor şi liniilor unui tabel cu două intrări, frecvenţe încrucişate ce privesc variabile discrete sau discretizate. Semnificaţia asocierii apare totuşi dacă relaţia este puternică şi eşantionul suficient de mare. Corecţia Yates (cunoscută şi drept corecţia de continuitate, continuity corrected chisquare) este aplicată la tabele atunci când există celule cu mai puţin de 5 elemente (anumiţi autori o recomandă la toate tabelele ). Prin corecţia Yates se obţine o mai bună aproximare a distribuţiei binomiale, rezultatul este conservator în sensul că se obţine mai greu semnificaţia decât la aplicarea directă a testului χ. Testul de concordanţă χ (Chi-square goodness-of-fit test). Este doar o utilizare diferită a unui test χ Pearson, testându-se ipoteza că o distribuţie observată este conformă unei distribuţii teoretice, presupuse. Testul χ al raportului de verosimilitate (Likelihood ratio chi-square) serveşte tot la verificarea asocierii liniilor şi coloanelor unui tablou de frecvenţe nominale. Testul χ Mantel-Haenszel (Mantel-Haenszel chi-square, cunoscut şi ca testul de asociere liniară, Mantel-Haenszel test for linear association sau linear by linear association chisquare), este preferat la studiul asocierii a două variabile ordinale, fiind mai puternic decât testul χ Pearson. Analiza stratificată (Stratified analysis, analiza în blocuri) utilizează coeficientul Mantel-Haenszel în analiza unei variabile de control discrete: pentru fiecare nivel al variabilei de control (variabila de stratificare) se crează un tabel pentru variabilele independentă, dependentă. Coeficientul Mantel-Haenszel testează efectul variabilei de stratificare. SPSS. Analyze - Descriptive Statistics - Crosstabs şi din Statistics se marchează Chi-square. Dacă există o variabilă de control, aceasta se mută în Layer 1 box şi se va obţine câte un tablou de frecvenţe încrucişate pentru fiecare nivel al variabilei de control. Efectul controlului există dacă cel puţin un tabel este semnificativ (există asociere între linii, coloane). Observaţii Se presupune că tabelul de frecvenţe încrucişate este obţinut dintr-un eşantion aleatoriu, nu conţine întreaga populaţie statistică. De asemenea, frecvenţele sunt cele brute, nu procentaje (care implică un volum de 100). Eşantionul este suficient de mare (unii autori recomandă totuşi chiar un minim de 0). O cerinţă uzuală asupra mărimii frecvenţelor este ca în tabele toate frecvenţele să fie mai mari de 5, în timp ce pentru tabele mai mari 80% dintre celule să conţină o frecvenţă de cel puţin 5. Nicio celulă nu trebuie să fie nulă. Se va aplica corecţia Yates în cazul nerespectării acestor cerinţe. Observaţiile trebuie să fie independente (o observaţie poate fi numărată doar într-o celulă, deci nu se poate aplica în cazul datelor perechi, cum ar fi teste before-after).

Nu există restricţii asupra tipului de date (pot fi nominale, ordinale, continue), singura cerinţă distribuţională este a normalităţii abaterilor observat - aşteptat. Phi. Este un coeficient de asociere bazat pe χ χ : ϕ =, împărţirea la volumul eşantionului, n, n fiind făcută pentru a diminua efectul de volum. De remarcat că în calcule nu se utilizează corecţia Yates. Phi poate fi utilizat pentru tabele oarecare, dar se preferă tabelele obţinute din variabile real dihotomice; pentru variabile continue dihotomizate se preferă coeficientul de corelaţie tetrachorică. X- X+ Y- a b e=a+b Y+ c d f=c+d g=a+c h=b+d n=a+b+c+d ad bc Pentru un tabel formula este: ϕ = unde elementele sunt notate precum în efgh tabelul alăturat. Phi, la un tabel, este media geometrică a diferenţelor procentuale după linii şi, respectiv, coloane. Astfel poate fi considerat ca o versiune simetrică a diferenţei procentuale. Phi este între -1 şi 1 pentru tabele (după formula dată) sau între 0 şi 1 după formula de definiţie, dar poate părăsi intervalul pentru tabele oarecare. Pentru date nominale se renunţă la semn, util doar pentru date ordinale. Phi poate fi interpretat ca măsurând procentajul de concentrare a observaţiilor pe diagonală, deci cât de mare este gradul de asociere dintre Y şi X. Semnificaţia poate fi evaluată ca şi la χ, simetria arată că nu depinde de alegerea vreunei variabile ca independentă. În SPSS se calculează prin Analyze > Descriptive Statistics > Crosstabs; selectarea variabilelor pentru linii, coloane; butonul Statistics; selectare phi. Contingency Coefficient, Pearson's C. Coeficientul de contingenţă este o modificare a lui φ în χ încercarea de a-l adapta pentru tabele mai mari decât cele. C este definit ca, χ + n deci ia valori între 0 şi 1 şi este recomandat uneori pentru tabele 5 5 sau mai mari. Pentru tabele mici va subestima gradul de asociere. Ajustarea Sakoda, C*. Prin împărţirea lui C la C max, se obţine coeficientul C*, care ia valori între 0 şi 1. Definiţia este * C C =, unde k = min(număr linii, număr coloane). k 1 k

Interpretare: Pearson a introdus C ca o aproximare nominală a coeficientului de corelaţie. Deşi nu există o interpretare intuitivă, C* poate fi văzut ca procentajul realizat din asocierea maximă posibilă. Semnificaţia. Este aceeaşi ca pentru χ. Simetria. C şi C* sunt măsuri simetrice. SPSS. Analyze > Descriptive Statistics > Crosstabs; selectarea variabilelor linie, coloană; > Statistics; selectare Contingency Coefficient. (Ciuprov) Tshuprow's T. Coeficientul lui Ciuprov, T, este obţinut tot din χ şi atinge valoarea 1 în tabele pătrate în care distribuţiile marginale sunt identice. Deoarece este mai mic decât 1 pentru tabele dreptunghiulare, este relativ puţin utilizat (SPSS nu calculează T). χ T =, unde r, c sunt, respectiv, numărul de linii şi numărul de coloane n ( r 1)( c 1) T este o măsură simetrică, pentru tabele este egal cu φ iar semnificaţia este aceeaşi ca pentru χ. Cramer's V. Pentru asocierea nominală, V este cel mai utilizat coeficient dintre cei bazaţi pe χ. χ V =, unde r, c sunt, respectiv, numărul de linii şi numărul de coloane n min( r 1, c 1) V tinde să fie mai mic decât φ sau C, este o măsură simetrică, pentru tabele este egal cu φ iar semnificaţia este aceeaşi ca pentru χ. V atinge valoarea 1 atunci când cele două variabile au distribuţii marginale egale. SPSS: Analyze > Descriptive Statistics > Crosstabs; stabilirea variabilelor; > Statistics; selectare Cramer's V. Lambda. Cunoscut şi ca Goodman-Kruskal lambda, coeficientul λ este o măsură PRE, deci reflectă procentajul de reducere a erorii de predicţie atunci când este cunoscută variabila independentă. Ca eroare de predicţie se consideră clasarea unei observaţii în altă categorie decât categoria modală (ghicirea uzuală în lipsa unei alte informaţii). În explicarea formulei de calcul, se reaminteşte că tabelul de frecvenţe încrucişate este construit astfel încât liniile corespund la categoriile variabilei dependente, coloanele corespund la categoriile variabilei independente. Formula de calcul este cea expusă la prezentarea atributului PRE: E1 E λ = E1 unde E 1 este eroarea produsă prin utilizarea doar a distribuţiei variabilei dependente, E este eroarea produsă prin utilizarea relaţiei cu variabila independentă. Adică E 1 = n total - n mod unde n total este numărul total de observaţii, n mod este frecvenţa categoriei modale a variabilei dependente. E = Σ coloane (n coloană -n mod coloană ) unde n coloană este numărul de observaţii din coloană, n mod coloană este frecvenţa categoriei modale a coloanei. Se demonstrează că formula poate fi simplificată la (Σ coloane n mod coloană - n mod )/(n total - n mod ), notaţiile fiind cele de mai sus. Deoarece λ are o repartiţie de sondaj normală asimptotic, se poate estima eroarea standard, ca şi semnificaţia. Definită ca mai sus, λ este un coeficient de asociere asimetric (se presupune că variabila dependentă dă liniile tabelului). Inversând tabelul se poate calcula alt coeficient

(inversând rolurile dependent - independent). Media celor doi coeficienţi este uneori raportată ca o valoare λ simetrică. Valoarea nu poate fi calculată dacă toate valorile sunt pe o coloană, în rest este cuprinsă între 0 şi 1 şi se exprimă, de cele mai multe ori, procentual. Este de remarcat însă că depinde foarte mult de distribuţii şi mai ales de cât de mari sunt frecvenţele modale de restul frecvenţelor. SPSS: Analyze > Descriptive Statistics > Crosstabs; selectarea variabile dependente pentru linii şi a celei independente pentru coloane; > Statistics; selectare Lambda. Uncertainty Coefficient, UC sau Theil's U. Coeficientul de incertitudine, numit şi coeficientul de entropie ia valori de la 0 la 1 şi are o interpretare PRE bazată pe teoria informaţiei. UC este reducerea procentuală a erorii de estimare a varianţei variabilei dependente, varianţa fiind definită în termenii entropiei. Spre deosebire de lambda (şi ea are atributul PRE), UC este calculat pe baza întregii distribuţii de valori şi nu numai din valorile modale. Coeficientul U al lui Theil este utilizat şi în alte domenii în care apare probleme legate de predicţii (prognoze). Notând UC(R C) coeficientul de incertitudine pentru predicţia variabilei linii pe baza variabilei coloane, similar UC(C R), formulele de calcul sunt: UC(R C) = [H(X) + H(Y) - H(XY)]/H(Y) UC(C R) = [H(Y) + H(X) - H(XY)]/H(X) UCsimetric = [H(X) + H(Y) - H(XY)]/[H(X) + H(Y)] unde X este variabila coloane - independentă, Y este variabila linii - dependentă, n este volumul eşantionului, r j sunt totalurile liniilor, c k sunt totalurile coloanelor, n jk sunt frecvenţele celulelor, ln este logaritmul natural şi H(X) = - Σ j [(r j /n)*ln(r j /n)] = entropia pentru UC(C R) H(Y) = - Σ k [(c k /n)*ln(c k /n)] = entropia pentru UC(R C) H(XY) = - Σ j Σ k [(n jk /n)*ln(n jk /n)] Coeficientul de incertitudine este reducerea procentuală a incertitudinii în predicţia variabilei dependente pe baza cunoaşterii variabilei independente. Dacă UC este 0, variabila independentă nu este de niciun ajutor în predicţie. Semnificaţia este dedusă din distribuţia asimptotică, coeficientul este asimetric deci se pot calcula trei coeficienţi ca şi la calculul coeficientului λ. Este de notat că, din motive istorice, se calculează uzual UC(C R). Cohen's kappa este utilizat în situaţia în care se estimează gradul de concordanţă a doi evaluatori: doi evaluatori acordă note la aceleaşi obiecte. Prin urmare atât pe linii cât şi pe coloane este aceeaşi variabilă (categorii de clasificare), diagonala principală conţine obiectele clasate identic, restul celulelor fiind clasările diferite. Există trei versiuni de coeficienţi: (1) kappa original (suportat şi de SPSS) care evaluează concordanţa dintre doi evaluatori; () generalizarea la mai mulţi evaluatori efectuată de Fleiss şi Light; (3) Cohen a dezvoltat şi versiunea ponderată, weighted kappa, care acceptă grade de potrivire Formula de calcul este Kappa = concordanţa observată - concordanţa din întâmplare 1- concordanţa din întâmplare

unde: concordanţa observată se calculează ca suma elementelor de pe diagonala principală împărţită la n; concordanţa din întâmplare este calculată similar pentru tabelul cu frecvenţe aşteptate (ca la χ, produsul totalurilor marginale divizat prin n). SPSS: Analyze > Descriptive Statistics > Crosstabs > Statistics > Kappa. Asocierea variabilelor ordinale În cazul variabilelor ordinale, coeficienţii de asociere sunt calculaţi pe o scală -1 (relaţie negativă perfectă) - 0 (lipsa asocierii) - 1 (relaţie pozitivă perfectă), sau doar pe 0-1. Discuţia care urmează introduce unele notaţii utile în prezentarea indicatorilor şi, în plus, prezintă diferitele tipuri de "relaţii perfecte" sau "lipsă de asociere" care pot fi identificate. Se poate reţine, ca o imagine simplificată, că majoritatea coeficienţilor definesc "relaţia perfectă ca o monotonie strictă şi "lipsa de asociere" ca independenţă statistică. Tipuri de relaţie perfectă Există 4 sensuri pentru "relaţie liniară perfectă": monotonie strictă, monotonie ordonată, monotonie predictivă şi monotonie slabă. Există o oarecare ordine de complexitate între aceste concepte: toate relaţiile perfecte ca monotonii stricte sunt perfecte în celelalte accepţiuni; relaţiile monotone ordonate şi cele predictive sunt de asemenea perfecte ca monotonie slabă; monotonia ordonată şi cea predictivă nu sunt simultane. 1. Conceptul de perechi. Tăria unei relaţii liniare este definită potrivit gradului de monotonie, care este evaluat pe baza frecvenţelor diferitelor tipuri de perechi de observaţii, rezumate eventual într-un tabel de frecvenţe. Fiecare observaţie este numărată într-o celulă din tabelul de frecvenţe încrucişate, fie acesta generat, pentru exemplificare, de variabila independentă x cu trei niveluri şi de variabila dependentă y cu două valori. Frecvenţele celulelor sunt notate prin a, b etc. x 1 3 y 1 a b c d e f. Cele patru tipuri de perechi de observaţii, numărarea lor şi notaţiile sunt arătate în tabelul următor: Tip de pereche Număr de perechi Notaţie Concordanţe a(e+f) + b(f) Discordanţe c(d+e) + b(d) Egale după x ad + be +cf Egale după y a(b+c) + bc + d(e+f) + ef P Q X o Y o Toate definiţiile "relaţiei perfecte" măresc coeficientul de asociere spre 1 odată cu mărirea numărului de perechi concordante, diferenţele importante apărând din manevrarea perechilor cu egalitate după x sau y. 3. Monotonie strictă. O monotonie strictă perfectă pozitivă este definită de Q = X o = Y o = 0. O monotonie strictă perfectă negativă este definită de P = X o = Y o = 0. Adică, potrivit sensului comun, o relaţie este perfectă dacă (1) când creşte x, atunci creşte şi y (sau descreşte în cazul relaţiei negative) şi ()

fiecare valoare a lui x corespunde doar la o valoare a lui y. Evident, situaţia poate fi judecată şi în cazul inversării variabilelor x şi y. 4. Monotonie ordonată. O monotonie ordonată perfectă pozitivă este definită de Q = Y o = 0. O monotonie ordonată perfectă negativă este definită de P = Y o = 0. Adică (1) odată cu creşterea lui x, creşte şi y (sau descreşte în cazul relaţiei negative) şi () orice valoare y corespunde la exact o valoare x. 5. Monotonie predictivă. O monotonie predictivă perfectă pozitivă este definită de Q = X o = 0. O monotonie predictivă perfectă negativă este definită de P = X o = 0. Adică (1) odată cu creşterea lui x, creşte şi y (sau descreşte pentru o relaţie negativă) sau rămâne acelaşi şi () orice valoare x corespunde la exact o valoare y (ceea ce permite o predicţie unică, de unde şi denumirea). 6. Monotonie slabă. O monotonie slabă perfectă pozitivă este definită de Q = 0. O monotonie slabă perfectă negativă este definită de P = 0. Adică (1) odată cu creşterea lui x, creşte şi y (sau descreste într-o relaţie negativă) sau rămâne acelaşi. În tabelele revine la existenţa unei celule cu frecvenţa zero. 7. Asociere curbilinie. Asocierea curbilinie este perfectă atunci când orice valoare a lui x (variabila independentă) corespunde la o singură valoare y (variabila dependentă). De regulă, distribuţiile variabilelor implicate trebuie să fie continue sau, cel mult, ordinale. Tipuri de relaţie nulă (lipsa de asociere) Există patru moduri de definire a lipsei de asociere, explicate în continuare: independenţa, acordul, balansarea, clivajul. Independenţa este un criteriu simetric în timp ce acordul este asimetric. Atât independenţa, cât şi acordul, sunt criterii nominale. Balansarea este un criteriu ordinal, exceptând dihotomiile, şi presupun valori ordonate. Clivajul este o condiţie suficientă pentru independenţă şi balansare, dar invers nu este adevărat. 1. Independenţa. Este bazată pe independenţa statistică P(X=x,Y=y) = P(X=x) P(Y=y) sau se poate aminti că, în cazul independenţei, la un tabel de frecvenţe încrucişate are loc egalitatea fiecărei frecvenţe cu produsul valorilor marginale divizat la volumul eşantionului (adică frecvenţele observate sunt egale cu frecvenţele aşteptate, calculate ca în χ ). Relaţia este simetrică şi statistica χ poate fi privită ca un test de independenţă.. Acord. Potrivit acestui criteriu, două variabile au o relaţie nulă, nu sunt asociate, dacă valorile mod ale coloanelor coincid. Cu alte cuvinte, subgrupurile definite de valorile variabilei independente au ca valoare mod de sondaj aceeaşi categorie a variabilei dependente. Acest criteriu este asimetric. 3. Balansare. Atunci când valorile ambelor variabile sunt considerate în ordinea lor, se spune că nu există asociere dacă numărul de observaţii de pe diagonala principală (sau, în cazul tabelelor dreptunghiulare, de pe diagonalele orientate NV-SE cu cel puţin două elemente) este egal cu numărul de observaţii de pe diagonala secundară (sau, în cazul tabelelor dreptunghiulare, de pe diagonalele orientate SV-NE cu cel puţin două elemente). 4. Clivaj. După acest criteriu, există o relatie nulă (nu există asociere) dacă fiecare coloană a tabelului de frecvenţe încrucişate este constantă, adică fiecare subgrup definit de valorile variabilei independente are o repartiţie uniformă a variabilei dependente.

Coeficienţi de asociere ordinală Gamma, numit şi Goodman and Kruskal's gamma, este o măsură simetrică, cu valori între -1 şi 1, bazată pe concordanţele şi discordanţele de monotonie observate pentru valorile ordinale asociate. Coeficientul γ este o măsură PRE pe o scală direcţională şi se defineşte prin (utilizând notaţiile de mai sus): f γ=(p-q)/(p+q) sau a f γ = i fa + fi unde f a este numărul de agremente (potriviri), f i este numărul de inversiuni, spunând că r 1i r i r 1j r j se potrivesc dacă (a nu se uita ca sunt variabile ordinale) ordinea este aceeaşi în cele două coloane şi că are loc o inversiune dacă ordinea este schimbată. Semnificaţia lui γ poate fi testată prin utilizarea unei formule aproximative (aplicabilă pentru n 10) z = γ f a + f n(1-γ ) care, în ipoteza H 0 : γ = 0, este o variabilă normală redusă şi se poate aplica un test bazat pe repartiţia normală standard. Interpretare: Dacă se cunosc două valori x, atunci se poate prezice ordinea valorilor y. Înţelesul asocierii: Dacă variabilele sunt independente statistic, atunci γ este 0, dar poate fi zero şi altminteri. Simetrie: γ este o măsură simetrică. coeficientul d al lui Somers poate fi privit ca o extensie asimetrică. Alte proprietăţi: Pentru tabele, γ este egal cu coeficientul Q al lui Yule. γ se poate calcula şi dacă unele celule sunt vide sau au frecvenţe mici, nu poate fi calculat dacă toate observaţiile sunt pe o linie sau pe o coloană. Kendall's tau-a este propus pentru tabele simetrice şi compară excesul de perechi concordante cu numărul total de perechi: τ a P Q = n( n 1) Kendall's tau-b este o măsură de asociere utilizată mai ales pentru tabele. Este calculat după formula (se utilizează notaţiile introduse anterior pentru tipurile de perechi de observaţii) τ b = (P - Q)/ SQRT[((P + Q + Y 0 )(P + Q + X 0 ))] adică excesul de perechi concordante (faţă de perechile discordante) împărţit la media geometrică a numărului de perechi neegale după X (P + Q + Y 0 ) şi a numărului de perechi neegale după Y (P + Q + X 0 ). Există şi formule echivalente i

sgn( xi x j )sgn( yi y j ) i< j τ b = unde ( T0 T1 )( T0 T ) T 0 =n(n-1)/, T 1 =Σ i t i (t i -1)/, T =Σ i u i (u i -1)/, t i fiind numărul de observaţii care au aceeaşi a i-a valoare X, u i fiind numărul de observaţii care au aceeaşi a i-a valoare Y. Este evident că T i reprezintă combinări, ajungându-se astfel la formula de mai sus. Interpretare: Nu există o interpretare intuitivă simplă, τ b reprezintă procentajul excesului de perechi concordante (faţă de discordanţe) din totalul perechilor concordante, discordante şi aproximativ o jumătate dintre egalităţi. Motivaţia este doar aceea că nu se cunoaşte direcţia asocierii, atunci se ia la numitor doar numărul perechilor relevante: concordante, discordante, egalităţi după X, egalităţi după Y, dar fără egalităţile şi după X şi după Y. Media geometrică este atunci o estimaţie a numărului acestor perechi relevante. Asocierea: Tau-b defineşte asocierea ca monotonie strictă şi lipsa de asociere ca independenţă statistică. Coeficientul atinge 1 (sau -1) în cazul monotoniei stricte, dar nu penalizează atât de mult egalităţile existente. Simetria: Tau-b este un coeficient simetric, Somers' d este analogul asimetric. Kendall's tau-c, numit şi Stuart's tau-c sau Kendall-Stuart tau-c, este o variantă a lui tau-b definită pentru tabele vaste. Definiţia este: τ c = (P - Q)*[m/(n (m-1))] unde m = min(număr coloane, număr linii ), n este volumul eşantionului. Interpretation: Nu există o interpretare intuitivă simplă, tau-c este însă tau-b/max tau-b unde max tau-b este calculat pentru un tabel de aceeaşi dimensiune. Astfel, interpretarea lui tau-c este derivată din cea a lui tau-b, utilizarea în comparaţii necesită totuşi tabele de dimensiuni similare, chiar dacă se încearcă adimensionalizarea. Asocierea: Asocierea perfectă este stricta monotonie, pentru care atinge valoarea 1. Asocierea nulă este în termenii independenţei statistice. Simetria: Este o măsură simetrică, nu depinde deci de modul de atribuire a rolului de variabilă independentă (coloană). Alte proprietăţi: Tau-c ia valori între -1 şi +1 şi atinge ambele valori. Somers' d este o modificare a coeficientului gamma, γ, modificarea constând în penalizarea perechilor egale în funcţie de variabila considerată independentă. d yx = (P - Q)/(P + Q + Y 0 ) dacă X este variabila independentă, d xy = (P - Q)/(P + Q + X 0 ) dacă Y este variabila independentă. Interpretare: Somers' d este excesul de perechi concordante exprimat ca procentaj din suma perechilor concordante, discordante şi egalităţile relevante. Dacă este îndeplinită condiţia că o pereche aleatorie de observaţii nu sunt egale după variabila independentă, atunci Somers' d este probabilitatea condiţionată ca perechea să fie concordantă minus probabilitatea condiţionată ca perechea să fie discordantă. Asocierea: Somers' d atinge 1 sau -1 pentru asocierea monotonă strictă perfectă sau pentru asocierea monotonă ordonată perfectă. relaţia nulă este independenţa statistică.

Simetria: Somers' d este asimetric, dar se poate obţine un indice simetric ca media între d xy şi d yx. Altye proprietăţi: Pentru tabele, Somers' d este echivalent cu diferenţa procentuală. Somers' d este mai mic sau egal cu gamma sau cu tau-c. Pentru tabele pătratice, tau-b este media geometrică între d xy şi d yx. Asocierea variabilelor dihotomice Coeficienţii discutaţi în această secţiune se referă doar la tabele, cu observaţia că orice alt coeficient introdus pentru date discrete poate fi utilizat potrivit tipului de variabilă (nominală, ordinală). Percent Difference. Diferenţa procentuală, notată %d, este cea mai simplă dintre măsurile de asociere. Exprimând frecvenţele relative ca procentaje faţă de totalurile coloanelor, diferenţa procentuală este calculată scăzând procentajele din prima şi a doua coloană şi luând valoarea absolută (pe fiecare linie se obţine acelaşi rezultat). Y X X1 X Y1 a b Y c d a b %d = (%) a + c b + d Interpretare: Se poate spune că variabila X produce o diferenţă egală cu %d între a se realiza Y1 sau Y. Asociere: Coeficientul defineşte asocierea perfectă ca monotonie strictă şi relaţia nulă ca independenţă statistică. Simetria: Diferenţa procentuală este asimetrică: variabila independentă formează coloanele, cea dependentă formează liniile. Procentajele se calculează pe coloane. Alte proprietăţi: Coeficientul de identic cu Somers' d în situaţia tabelelor. Yule's Q este o măsură simetrică definită prin (cu notaţiile din tabelul precedent) Q = (ad-bc)/(ad+bc), sau, cu notaţiile definite pentru perechile concordante şi cele discordante, Q = (P - Q)/(P + Q). Interpretare: Este evidentă interpretarea "excedentul de perechi concordante reprezintă Q% din toate perechile neegale". Asocierea: Q atinge 1 în condiţia monotoniei slabe iar relaţia nulă este independenţa statistică. Simetria: Q este un coefeicient simetric, fără a diferenţia explicit variabila dependentă de cea independentă. Alte proprietăţi: Q este egal cu γ (pentru tabele ), dar este uzual mai mare decât acesta în cazul dihotomizărilor (care anulează mici diferenţe importante în calculul lui γ). Yule's Y numit şi coeficientul de conectare (Yule's coefficient of colligation) este o variantă a coeficientului Yule's Q care utilizează mediile geometrice ale diagonalelor după formula Y = (SQRT(P) - SQRT(Q))/(SQRT(P) + SQRT(Q)).

Interpretare: Yule's Y nu are o interpretare intuitivă imediată. Asociere: Y atinge 1 în cazul monotoniei slabe (pe care defineşte ca asociere perfectă) şi defineşte asoicerea nulă ca independenţă statistică. Simetria: Y este simetric. Alte proprietăţi: Dacă monotonia slabă nu este îndeplinită, Y va fi mai mic decât Q, adică Y penalizează abateri mici de la monotonia slabă, ca şi coeficientul d al lui Somer. Y este mai puţin sensibil la diferenţele dintre distribuţiile marginale ale variabilelor. The Relative Risk Coefficient, RR, este o măsură uzuală pentru asocierea variabilelor dihotomice, cu predilecţie în medicină pentru studiul factorilor de risc. Se poate aplica în toate situaţiile în care variabila independentă (coloane) este o "cauză" pentru variabila dependentă (linii) privită ca rezultat sau "efect". efect\cauză C1 C (non-c1) E1 a b E (non-e1) c d Probabilitatea de obţine E1 în grupul C1 este a/(a+c), probabilitatea de a obţine E1 în grupul non-c1 este b/(b+d), prin urmare RR, ca raport al probabilităţilor de apariţie a efectului E1 în grupul C1 şi respectiv C este a RR= a + c a( b + d) =. b b( a + c) b + d Observaţie. În SPSS se va considera situaţia inversată: factorul de risc este pe linii, rezultatul este pe coloane. Prin urmare, În SPSS se dă comanda Analyze > Descriptive Statistics > Crosstabs; se fixează variabilele linie/coloană (potrivit observaţiei anterioare variabila independentă este pe linie); în dialogul Cells se solicită frecvenţele observate şi procentajele pe linie; în dialogul Statistics se marchează Risk. Interpretare: RR măsoară cât la sută din riscul grupului non-c1 (grupul de control de regulă) este riscul grupului C1 (grupul tratament) de a obţine evenimentul E1 (de regulă, în medicină, apariţia unei boli). Asocierea: RR este 1 (relaţia nulă) atunci când a/b = c/d, deci independenţă statistică şi balansare. RR este maxim atunci când a se apropie de zero, celelalte celule fiind diferite de zero, ceea ce conduce la monotonie slabă. Simetria: RR este o măsură asimetrică. Relative risk reduction (RRR) este definit ca RRR = 1 - RR reprezentând reducerea riscului faţă de grupul non-c1 (grupul de control). Odds ratio (OR) este utilizat pentru a vedea dacă probabilitatea unui eveniment este aceeaşi în două grupuri. Observând că raportul şanselor (odds) pentru grupul C1 este P(E1 C1)/P(non-E1 C1) = a/c, iar pentru grupul non-c1 este P(E1 non-c1)/p(non-e1 non-c1) = b/d,

se defineşte OR ca raportul celor două cantităţi (de aici denumirea de odds ratio): OR = (a/c)/(b/d) = (ad)/(bc). SPSS: Se poate testa ipoteza nulă OR = 1 (independenţa) prin testul Cochran. In SPSS se alege Analyze > Descriptive Statistics > Crosstabs; alegerea variabilelor; Cells şi selectare frecvenţe şi procentaje pe linie; Statistics şi Risk, Cochran's şi Mantel- Haenszel. Dacă se doreşte şi compararea rapoartelor de şanse OR, se va fixa şi variabila de grupare în Layer 1. În acest caz, ieşirea SPSS conţine şi rezultatele testelor Breslow-Day şi Tarone (acesta este cel preferat). Simetria: OR este o măsură asimetrică.