Modele de aproximare, software şi aplicaţii Mari Vlada, Uiversitatea di Bucureşti, vlada[at]fmi.uibuc.ro Abstract Lucrarea prezită preocupările şi rezultatele privid aaliza datelor experimetale i diverse domeii stiitifice: chimie, fizica, biologie, medicia, etc. Se prezită Modelele matematice (liiare sau eliiare) ce estimează evoluţia proceselor sau feomeelor şi care sut exprimate de Modele teoretice şi Modele empirice (de aproximare): Modele teoretice - acestea se bazează pe diverse legi şi pricipii ale domeiului teoretic; sut modele raţioale ce se determiă pri fucţii şi legi obţiute pri raţioamete teoretice ce exprimă fucţii şi ecuaţii ale uor teorii studiate î domeiul respectiv: chimie, fizică, biologie, etc. Modele empirice (de aproximare) - acestea au la bază u suport teoretic petru a utiliza observaţii (măsurători) empirice ale uor parametri ce defiesc procesele şi feomeele î vederea realizării de calcule şi aproximări (fitare) ale datelor. Se abordeaza modelul liear (liear regressio), metoda celor mai mici pătrate (MCMMP) cu exemplificări. 1. Itroducere: Aproximări, erori si icertidudie Î ses larg cuvatul eroare îseamă greşeală, icertitudie, esiguraţă, etc. Pri greşeală îţelegem u fapt realizat de om î activitatea profesioală, socială, ecoomică, etc. privid u raţioamet greşit, o metodă aplicată greşit, u istrumet utilizat greşit, o atitudie ce cotrazice regulile morale, sociale sau legistative, eîţelegeri ale uor oţiui, termei sau cocepte di limbajul ştiiţific, ecoomic, social, etc. Pri icertitudie se îţelege lipsa de certitudie, îdoială asupra uor raţioamete, calcule, sau experimete, iar î domeiul social poate reprezeta starea uei persoae lipsite de siguraţă, de hotărâre. Î doate domeiile exista icertitudii, de exemplu î domeiul ştiiţific s-au dezvoltat diverse teorii care cotrolează icertitudiile: logica matematică bivaletă (cu valori: true, false; logica propoziţiilor, logica predicatelor, logica relaţiilor) oferă metode şi tehici certe (logica matematică are aplicaţii î electrotehică-studiul schemelor cu relee, al schemelor electroice-, î ciberetică-teoria automatelor, tehica programării-, î eurofiziologie-modelarea sistemelor euroale-, ligvistică - ligvistica matematică, etc.); sistemele de calcul folosesc limbajul biar petru procesarea iformaţiilor; petru rezolvarea diverselor probleme complexe a fost ecesară coceperea uor teorii de logică matematică trivalete şi cu mai multe valori (primele sisteme de logică polivaletă au fost costruite de J. Lukasiewicz (190), E. Post (191) şi de Grigore C. Moisil (1963)); Î limbajul de maipulare a datelor SQL (Structured Query Laguage), o stare de adevăr TRUE petru o expresie (de exemplu îtr-o clauză WHERE) iiţializează o acţiue pe u râd (returează u râd), î timp ce o stare de adevăr UNKNOWN sau FALSE u face acest lucru. Î acest fel, logica trivaletă este implemetată î SQL, şi se comportă ca logică bivaletă petru utilizatorul SQL; limbajul Prolog (programare î logică), limbaj al
100 Uiversitatea di Bucureşti şi Uiversitatea Trasilvaia di Braşov Iteligeţei artificiale este coceput şi elaborat avâd la bază logica de ordiul I (cuatificatorii oricare ( ) şi există ( ) operează doar asupra variabilelor). teoria logicii şi multimilor fuzzy (suport petru studiul icertitudiii şi impreciziei; aplicaţii î aaliza feomeelor şi proceselor, fiabilitatea sistemelor, uzura produselor, gradul de utilizare a produselor sau maşiilor, procesarea imagiilor, etc.). Icompletitudiea uei iformaţii/date se exprimă pe două scări: scara icertitudiii se referă la îcrederea care i se acordă iformaţiei (dacă sursa de iformaţie, istrumetul de măsură sau expertul sut siguri, demi de îcredere, iformaţia este certă), scara impreciziei se referă la coţiutul iformaţioal (iformaţia este precisă dacă mulţimea valorilor specificate î euţul corespuzător este o valoare uică). Există feomee si procese î care gradualitatea şi ambiguitatea joacă u rol importat (imprecizia u este de tip aleator). Problema îseamă de a putea aprecia î ce măsură u obiect dat aparţie uei clase ale cărei margii u pot fi precizate clar. Clasa de obiecte are grade de aparteeţă cotiue. O astfel de mulţime este caracterizată de o fucţie de aparteeţă ce atribuie fiecărui obiect u grad de aparteeţă ître 0 şi 1. Sut cuoscute exemple de oamei de ştiiţă di matematică, fizică, chimie, etc. ce au făcut greşeli î cercetările/teoriile lor (există cazuri câd s-au făcut descoperiri ştiiţifice î mod îtâmplător, de ex. razele X, Peicilia, Viagra, etc.): exemple relevate petru matematică sut prezetate î Alexadru Froda (1894-1973), Eroare şi paradox î matematică, Editura Eciclopedică Româă, 1971. sute de lucrări ştiiţifice sut retrase î fiecare a, di cauza documetărilor superficiale, plagiatului sau aalizelor greşite; de exemplu: Apedicita se tratează cu atibiotice. The Joural of Gastroitestial Surgery a publicat î 009 u studiu al uor cercetători idiei care susțieau că atibioticele sut o metodă mai sigură decât îdepărtarea chirurgicală a apedicelui. Ei au fost cotestați de chirurgi italiei, iar studiul a fost retras di publicație pe motiv de plagiat. (Sursa: LiveSciece); iveţii atribuite greşit - Coceptul de computer desktop-"oficial": Microsoft (pri Widows), real: Xerox PARC; Razele X- Ivetator "oficial": Thomas Ediso, real: Wilhelm Rotge; Becul- Ivetator "oficial": Thomas Ediso, real: Sir Humphry Davy; Radioul- Ivetator "oficial": Guglielmo Marcoi, real: Nikola Tesla (Sursa: http://www.descopera.ro/) Î cercetare şi î aaliza datelor experimetale di diverse domeii ştiiţifice trebuie să se realizeze proceduri de calcul şi modele care să coducă la cocluzii privid iterpretarea măsurătorilor, calculelor şi rezultatelor modelelor teoretice sau empirice (aproximative). Presupuem că trebuie să se studieze variabila Y (depedetă) î fucţie de variabila X (idepedetă), adică depedeţa Y = f(x). De exemplu, dacă X reprezită parametrul temperatură, iar Y parametrul presiue, î acest caz variabila Y se exprimă ca o fucţie de o sigură variabilă. Cosiderăm că s-au determiat perechi de valori (x i,y i ), i=1,, corespuzătoare celor două variabile petru care se doreşte să se studieze asocierea şi relaţia ditre ele. O primă apreciere asupra distribuţiei comue o vom avea dacă realizăm diagrama de împrăştiere a valorilor, de fapt reprezetarea îtr-u sistem de axe XOY petru puctele avâd coordoatele (x, y). Aaliza vizuală a orgaizării şi formei orului de pucte obţiut poate oferi idicii importate asupra relaţiei ditre variabile. Datele vor susţie ipoteza asocierii ître variabile dacă forma orului de pucte se apropie de o curbă dată cu expresie aalitică cuoscută. Astfel, se pot aprecia asocieri liiare, curbiliii, etc. Dacă î orul de pucte u se poate distige o tediţă, se va spue că variabilele u sut corelate. Diversitatea proceselor şi feomeelor studiate determiă obţierea uei mari diversităţi de tediţe: liiare şi eliiare (curbiliii).
Coferiţa Naţioală de Îvăţămât Virtual, ediţia a X-a, 01 101 Petru a sitetiza (estima) modul î care schimbările variabilei Y sut asociate cu schimbările variabilei X, se utilizează metoda matematică "metoda celor mai mici pătrate - MCMMP" (cocepută de Legedre, 1806). Aplicată î cazurile a) si b), asocierea ditre X şi Y este reprezetată pritr-o dreaptă trasată pritre puctele diagramei de împrăştiere. Dreapta estimată (dreapta de regresie) este "cea mai buă" î sesul că exprimă cel mai cetral drum pritre pucte: liia petru care suma pătratelor distaţelor (pe verticală) ditre pucte şi dreaptă este miimă. Distaţele y i f(x i ), i=1,, sut cosiderate ca erori (reziduri) ditre valorile măsurate şi valorile estimate. Dreapta de regresie f(x) = ax + b realizează valoarea miimă a pătratelor erorilor (parametri dreptei a şi b urmează a fi determiaţi pri MCMMP), S i1 [ y f ( i x i î sesul că orice altă dreaptă produce o sumă de pătrate mai mare. Este de amitit că o proprietate a mediei aritmetice este aceea că suma pătratelor difereţelor de la medie are o valoare miimă. Astfel se poate spue că după cum media reprezită puctul de echilibru petru o distribuţie uivariată de scoruri, la fel dreapta de regresie reprezită puctul de echilibru îtr-o distribuţie bivariată. Utilitatea dreptei de regresiei este aceea că serveşte ca bază petru predicţia valorilor lui Y asociate valorilor lui X. Î cazul asocierii eliiare (curbiliie), curba care estimează asocierea ditre varabilele Y şi X va fi exprimată pri itermediul uor parametri ce urmează a fi determiati pri MCMMP. Î practică, î fucţie de atura datelor experimetale şi procesul aalizat trebuie să se determie evoluţia procesului pe baza datelor experimetale. Aceasta este reprezetată şi estimată de modele matematice date de fucţii liiare sau eliiare (curbe). Modelele matematice (liiare sau eliiare) ce estimează evoluţia proceselor sau feomeelor sut exprimate de: Modele teoretice - acestea se bazează pe diverse legi şi pricipii ale domeiului teoretic; sut modele raţioale ce se determiă pri fucţii şi legi obţiute pri raţioamete teoretice ce exprimă fucţii şi ecuaţii ale uor teorii studiate î domeiul respectiv: chimie, fizică, biologie, etc. Modele empirice (de aproximare) - acestea au la bază u suport teoretic petru a utiliza observaţii (măsurători) empirice ale uor parametri ce defiesc procesele şi feomeele î vederea realizării de calcule şi aproximări (fitare) ale datelor.. Modele liiare. Regresia liiară (Liear Regressio) Date fiid valorile observate petru două variabile aleatoare X şi Y, fie acestea (x i,y i ), i=1,,, pri fucţie de regresie se va îţelege acea fucţie Y = f(x) care aproximează cel mai bie setul de date observate. De regulă, criteriul ales este dat de metoda celor mai mici pătrate (MCMMP), adică acea fucţie f petru care se miimizează suma patratelor erorilor ditre valorile măsurate şi cele estimate (procedeu de fitare), adică suma S [ yi f ( x i i1 Dacă f este o fucţie liiară, atuci se obţie regresia liiară, reprezetată grafic pritr-o dreaptă (dreapta de regresie). Dreapta de regresie, împreuă cu abaterile stadard ale variabilelor X şi Y,
10 Uiversitatea di Bucureşti şi Uiversitatea Trasilvaia di Braşov sau cu coeficietul de corelaţie, pot costitui o rezumare rezoabilă a distribuţiei comue a celor două variabile X si Y. Descrierea modelului liiar este mai buă atuci câd diagrama de împrăştiere are formă de elipsă. Metoda celor mai mici pătrate (MCMMP, Legedre 1806) Depedeţa fucţioală a uei variabile aleatoare Y (depedeţă-efect) faţă de altă variabilă X (idepedetă-cauză) poate fi studiată empiric, pe cale experimetală, efectuîdu-se o serie de măsurători asupra variabilei Y petru diferite valori ale variabilei X. Rezultatele se pot prezeta sub formă de tabel sau grafic. Problema care apare î acest caz este de a găsi reprezetarea aalitică a depedeţei fucţioale căutate (procedeu de fitare), adică de a alege o expresie (formulă sau model matematic) care să descrie rezultatele experimetului pritr-u model matematic. Formula se alege ditr-o mulţime de formule determiate, de exemplu: y = ax + b (dreapta), y = ax + bx + c (parabola), y = ae bx + c (expoeţiala), y = a + b si( ωt + φ ) (siusoida). Pi urmare, problema costă î a determia parametrii a, b, c, etc. î timp ce formula (expresia aalitică) este cuoscută diaite, ca urmare a uor cosiderete teoretice sau după forma prezetării grafice a datelor, î mod empiric. Trebuie să precizăm că programul Excel oferă pri Tredlie mai multe tipuri de regresii (modele liiare şi eliiare): Liear modelul liiar (regresia simplă), y = a + bx. Polyomial modelul poliomial de ordi, 3, 4, 5, sau 6, k y a0 a1x a x a k x. Logarithmic modelul logaritmic, y = a + b l x. Expoetial modelul expoeţial, y = ae bx Power modelul putere, y = a x b. Movig Average modelul de tip MA (medii glisate), î care se calculează o serie ouă cu valori obţiute ca medie aritmetică a valorilor di seria iiţială: y = (x + x -1 + + x -k+1 )/k, ude k este ordiul modelului. Este modelul pri care se elimiă iflueţele pe terme foarte scurt sau scurt. Petru o alegere corectă se poate utiliza iformaţia cuoscută di cercetări aterioare sau cea furizată vizual de aspectul orului de pucte. Să cosiderăm, cazul geeral câd avem p+1 parametri, şi astfel vom ota depedeţa fucţioală pri y = f(x; a 0, a 1,, a p ) Parametri a 0, a 1,, a p u se pot determia exact pe baza valorilor empirice y 1, y,,y ale fucţiei, deoarece acestea di urmă coţi erori aleatoare. Problema reprezită obţierea uei estimari suficiet de bue. Formularea problemei Dacă toate măsurătorile valorilor varabilei Y sut y 1, y,,y, atuci estimaţiile parametrilor a 0, a 1,, a p se determiă di codiţia ca suma pătratelor abaterilor valorilor măsurate y k de la cele calculate f(x k ; a 0, a 1,, a ) să ia valoarea miimă (Legedre, 1806), adică sa fie miimă expresia
Coferiţa Naţioală de Îvăţămât Virtual, ediţia a X-a, 01 103 S [ yk f ( xk ; a0, a1,..., ap. k1 Cosideraţia formulată se păstrează şi î geeral, petru determiarea parametrilor uei fucţii de mai multe variabile (, 3, etc.), adică o variabilă depedetă (efect) şi mai multe variabile idepedete (cauze). De exemplu, petru variabila Z (efect) ce depide de două variabile idepedete (cauze) X şi Y, adică Z=f(X,Y), estimaţiile parametrilor a 0, a 1,, a p se determiă di codiţia ca expresia S [ z k f ( xk, yk ; a0, a1,..., a p k 1 să fie miimă. Determiarea valorilor parametrilor a 0, a 1,..., a p, se face pri aplicarea codiţiilor de obtiere a valorii miime î derivatele parţiale ale fucţiei S cosiderată î variabilele a 0, a 1,..., a p, adică fucţia cu p+1 variabile S(a 0, a 1,..., a p ). Obţierea acestor valori îseamă rezolvarea sistemului de p+1 ecuaţii cu p+1 ecuoscute: Dreapta de regresie S a 0 S S 0, 0,, 0. a ap 1 Î cazul modelului liiar (cel mai simplu) se studiază umai două variabile X (cauza), Y(efect) şi se doreşte găsirea depedeţei Y = f(x), ude f(x) = ax + b este o depedeţă liiară (fucţie de gradul I) cu parametri a şi b. Î urma celor probe (măsurători, observaţii) se cuosc datele (x i,y i ), i=1,..., şi trebuie să se determie coeficieţii a şi b astfel îcât suma S y (ax b) i1 să fie miimă. Codiţiile de obţiere a parametrilor a şi b sut: S 0 a, ceea ce coduce la sistemul de ecuaţii cu ecuoscute: S 0 b y i (axi b) ( x i) 0 xiyi axi bxi 0 i1 i1 i1 i1 y i (axi b) 0 yi axi b 0 i1 i1 i1 i1 Se otează: ecuaţii devie: xy i i Sxy xi Sxx xi Sx yi Sy i1 i1 i1 i1 i şi sistemul de i
104 Uiversitatea di Bucureşti şi Uiversitatea Trasilvaia di Braşov Sxy asxx bsx 0 Sy asx b 0 Se obţi următoarele expresii petru cei doi parametri a şi b:. a SS S x y xy (S x) Sxx 1 şi b Sy asx Cei doi parametri ai fucţiei model f(x) = ax + b reprezită: a pata dreptei de regresie, adică a=tg(α), ude α este ughiul ditre graficul fucţiei f şi axa OX (axa absciselor); b valoarea pe axa OX ude graficul fucţiei f itersectează axa OY (axa ordoatelor). Trebuie să facem observaţia că idiferet de gradul de împrăştiere al puctelor, îtotdeaua se poate găsi o dreaptă de regresie, dar î cazul uei dispersii mari aceasta devie iutilă. De aceea, u studiu prelimiar al distribuţiei puctelor (orul de pucte) se impue cu ecesitate. Calitatea uei drepte de regresie poate fi aalizată după coeficietul de determiare R (R-squared value o chart, pătratul coeficietului de corelaţie multiplă) ce are valori î itervalul [0,1] şi se calculează cu relaţia: R [ yi f ( xi i1 1 1, ude E f ( x)) i1 [ E( f ( x)) f ( xi i1 ( f ( ). O valoare 1 petru acest coeficiet are semificaţia că fucţia model f explică îtreaga variabilitate (depedetă) a lui y, iar valoarea 0 că u există ici o relaţie liiară ître variabila Y şi variabila X. O valoare de 0.5 a lui R poate fi iterpretată î sesul că aproximativ 50% di variaţia variabilei Y poate fi determiata de către variabila idepedetă X. x i Exemplul 1. Petru studierea efectului uei aumite substaţe medicametoase se ijectează aleator cu diferite doze 15 şoareci. Se urmăreşte umărul de zile de supravieţuire la soareci. Aalizâd datele, se poate trage cocluzia că rata de supravieţuire creşte liiar î fucţie de doza ijectată? Să se studieze reprezetarea orului de pucte şi să se compare modelul liiar şi modelul logaritmic. Rezolvare. Î cazul modelului liiar (dreapta de regresie) se obţi: y = 1.0167 x + 6.933, şi R = 0.9754, iar î cazul eliiar (logaritmic) avem y =.4383 L(x) + 7.6387, şi R = 0.9064. Î cocluzie, deoarece cazul liiar (dreapta de regresie) oferă R = 0.9754, coeficietul de determiare mai mare, acesta este mai bu î aproximare.
Coferiţa Naţioală de Îvăţămât Virtual, ediţia a X-a, 01 105 Doza(X) Zile(Y) 1 8 1 7.8 1 8. 8.8 9 9. 3 9.8 3 9.5 3 9.9 4 11 4 10.8 4 11.5 5 1 5 1. 5 11.9 Zile (supravietuire) Rata de supravietuire 14 1 10 8 6 4 0 0 1 3 4 5 6 Doza (mg/l) Series1 Figura 1. Tabelul valorilor şi graficul "orul de pucte" Rata de supravietuire 14 1 y = 1.0167x + 6.933 R = 0.9754 Zile (supravietuire) 10 8 6 4 y =.4383L(x) + 7.6387 R = 0.9064 Series1 Liear (Series1) Log. (Series1) 0 0 4 6 Doza (mg/l) Figura. Rezultatele petru modelul liiar şi modelul logaritmic Exemplul. Presupuem ca petru variabilele X si Y avem următoarele măsurători (observaţii) de mai jos: Se obţi următoarele valori petru modelul liiar: a = - 83.636 şi b = 1317.6, f(x)= - 83.636 x + 1317.6, R = 0.999.
106 Uiversitatea di Bucureşti şi Uiversitatea Trasilvaia di Braşov Petru modelul logaritmic, se obţi următoarele valori: a = 145.508 şi b = -3.9391, f(x)= 145.508-3.9391 l(x), R = 0.9083. Tabelul valorilor X Y 0.1 1310 0. 1300 0.3 193 0.4 183 0.5 176 0.6 167 0.7 160 0.8 151 0.9 143 1 133 1330 130 1310 1300 190 180 170 160 150 140 130 10 0 0. 0.4 0.6 0.8 1 1. y = -3.939L(x) + 145.5 R = 0.9083 Series1 Log. (Series1) Figura 3. Tabelul valorilor şi modelul algoritmic Î cocluzie, deoarece cazul liiar (dreapta de regresie) oferă R determiare mai mare, acesta este mai bu î aproximare. = 0.999, coeficietul de 3. Cocluzii Aaliza datelor experimetale reclamă cuoaşterea clară a metodelor de aproximare şi o iterpretare adecvată a rezultatelor obţiute pri calcule directe sau pri utilizarea diferitelor programe specializate ce prelucrează datele experimetal. Î diverse domeii, complexitatea problemelor coduce atât la modele liiare, cât şi la modele eliiare. Bibliografie 1. Kai Oliver Arras, A Itroductio To Error Propagatio, 1998, http://www.ada.kth.se/~kaia/papers/arrastr-9801-r3.pdf. Lucia Boiculese, Biostatistică teme, Şcoala doctorală, UMF Iaşi 3. David W. A. Boure, Pharmacokietics ad Biopharmaceutics, (Java Applets - O lie Graphs, JavaScript Calculators Olie), http://www.boomer.org/c/p1/ 4. David W. A. Boure, Mathematical modelig of pharmacokietic data, Techomic Publishig Co., ISBN 1-56676-04-9, 1995 5. Lucia Căbulea, Nicoleta Breaz, Iterpretarea statistică a iformaţiilor. Elememte de data miig şi progoză, Modul de istruire r.7, Uiversitatea 1 decembrie 1918 Alba Iulia 6. M. Vlada, pagia pricipală, http://www.uibuc.ro/prof/vlada_m/ 7. M. Vlada, Iformatică aplicată. Modele de aproximare, software şi aplicaţii, Editura Uiversităţii di Bucureşti, 01