Curs 10: Analiza seriilor de timp. Data mining - Curs 10 1

Similar documents
VISUAL FOX PRO VIDEOFORMATE ŞI RAPOARTE. Se deschide proiectul Documents->Forms->Form Wizard->One-to-many Form Wizard

GRAFURI NEORIENTATE. 1. Notiunea de graf neorientat

10 Estimarea parametrilor: intervale de încredere

4 Caracteristici numerice ale variabilelor aleatoare: media şi dispersia

Aplicatii ale programarii grafice in experimentele de FIZICĂ

SUBIECTE CONCURS ADMITERE TEST GRILĂ DE VERIFICARE A CUNOŞTINŢELOR FILIERA DIRECTĂ VARIANTA 1

Parcurgerea arborilor binari şi aplicaţii

Pasul 2. Desaturaţi imaginea. image>adjustments>desaturate sau Ctrl+Shift+I

6. MPEG2. Prezentare. Cerinţe principale:

Consideraţii statistice Software statistic

Modalităţi de redare a conţinutului 3D prin intermediul unui proiector BenQ:

Teoreme de Analiză Matematică - II (teorema Borel - Lebesgue) 1

Platformă de e-learning și curriculă e-content pentru învățământul superior tehnic

EPI INFO. - Cross-tabulation şi testul 2 -

TTX260 investiţie cu cost redus, performanţă bună

Split Screen Specifications

GREUTATE INALTIME IMC TAS TAD GLICEMIE

22METS. 2. In the pattern below, which number belongs in the box? 0,5,4,9,8,13,12,17,16, A 15 B 19 C 20 D 21

Application form for the 2015/2016 auditions for THE EUROPEAN UNION YOUTH ORCHESTRA (EUYO)

riptografie şi Securitate

DIRECTIVA HABITATE Prezentare generală. Directiva 92/43 a CE din 21 Mai 1992

OPTIMIZAREA GRADULUI DE ÎNCĂRCARE AL UTILAJELOR DE FABRICAŢIE OPTIMIZING THE MANUFACTURING EQUIPMENTS LOAD FACTOR

1. Ecuaţii diferenţiale de ordinul întâi

Press review. Monitorizare presa. Programul de responsabilitate sociala. Lumea ta? Curata! TIMISOARA Page1

Capitolul V MODELAREA SISTEMELOR CU VENSIM

INTRODUCERE : Ce este econometria? 1. Scurt istoric privind apariţia econometriei. 2. Definiţia econometriei

Ghid de instalare pentru program NPD RO

Reprezentări grafice

Algoritmică şi programare Laborator 3

Biostatistică Medicină Generală. Lucrarea de laborator Nr Intervale de încredere. Scop: la sfârşitul laboratorului veţi şti:

Platformă de e-learning și curriculă e-content pentru învățământul superior tehnic


ARHITECTURA SISTEMELOR DE CALCUL ŞI SISTEME DE OPERARE. LUCRĂRILE DE LABORATOR Nr. 12, 13 şi 14

Maria plays basketball. We live in Australia.

Raionul Şoldăneşti la 10 mii locuitori 5,2 4,6 4,4 4,8 4,8 4,6 4,6 Personal medical mediu - abs,

Anexa 2. Instrumente informatice pentru statistică

ACADEMIA DE STUDII ECONOMICE FACULTATEA DE FINANŢE, ASIGURĂRI, BĂNCI şi BURSE de VALORI

2. PORŢI LOGICE ( )

Split Screen Specifications

LESSON FOURTEEN

Capitolul 1. Noţiuni de bază

Clasele de asigurare. Legea 237/2015 Anexa nr. 1

Asocierea variabilelor discrete

CAPITOLUL 2. PROIECTAREA MODELULUI RELAŢIONAL AL DATELOR PRIN NORMALIZARE

Diagnoza sistemelor tehnice

Circuite Basculante Bistabile

Ghidul administratorului de sistem

AMINELE BIOGENE-IMPLICATII IN PATOLOGIA UMANA

LUCRAREA NR. 2 STUDIUL AMPLIFICATORULUI DIFERENŢIAL

Defuzzificarea într-un sistem cu logică fuzzy. Aplicaţie: maşina de spălat cu reguli fuzzy. A. Obiective. B. Concepte teoretice ilustrate

Click pe More options sub simbolul telefon (în centru spre stânga) dacă sistemul nu a fost deja configurat.

1. Funcţii speciale. 1.1 Introducere

O VARIANTĂ DISCRETĂ A TEOREMEI VALORII INTERMEDIARE

Sistemul de operare Windows (95, 98) Componenta My Computer

PROBLEME DE TEORIA NUMERELOR LA CONCURSURI ŞI OLIMPIADE

VERBUL. Are 3 categorii: A. Auxiliare B. Modale C. Restul. A. Verbele auxiliare (to be si to have)

OLIMPIADA DE MATEMATIC ¼A ETAPA JUDEŢEAN ¼A 3 martie 2007

Cuprins. ; 93 B. 13. Problema transporturilor (a distribuirilor) 100

Lichiditatea Bursei de Valori Bucureşti (BVB) în perioada crizei financiare *

Rigla şi compasul. Gabriel POPA 1

Biraportul în geometria triunghiului 1

Anexa nr.1. contul 184 Active financiare depreciate la recunoașterea inițială. 1/81

FIN EST RUS GER HU SLO HR IT BIH SRB

Microsoft Excel partea 1

PREVIZIUNI ÎN ECONOMIE BAZATE PE MODELELE ECONOMETRICE UTILIZÂND EViews 5. ECONOMIC FORECASTS BASED ON ECONOMETRIC MODELS USING EViews 5

9.1. Structura unităţii de I/E. În Figura 9.1 se prezintă structura unui sistem de calcul împreună cu unitatea

ARHITECTURA CALCULATOARELOR 2003/2004 CURSUL 10

Management. Măsurarea activelor generatoare de cunoştinţe

Menţinerea în funcţiune a unui sistem eficient ABC/ABM

declarare var <identif>:array[<tip1>,<tip2>,...] of <tip_e>; var a: array[1..20] of integer; (vector cu 20 elemente)

OLIMPIADA INTERNAŢIONALĂ DE MATEMATICĂ FORMULA OF UNITY / THE THIRD MILLENIUM 2014/2015 RUNDA A DOUA

PREZENTARE INTERFAŢĂ MICROSOFT EXCEL 2007

Paradoxuri matematice 1

CAPITOLUL XI METODA DIRECT - COSTING

Testarea asimetriei şocurilor cu zona euro

Utilizarea eficientă a factorilor de producţie

ENVIRONMENTAL MANAGEMENT SYSTEMS AND ENVIRONMENTAL PERFORMANCE ASSESSMENT SISTEME DE MANAGEMENT AL MEDIULUI ŞI DE EVALUARE A PERFORMANŢEI DE MEDIU

Hama Telecomanda Universala l in l

ABORDĂRI ŞI SOLUŢII SPECIFICE ÎN MANAGEMENTUL, GUVERNANŢA ŞI ANALIZA DATELOR DE MARI DIMENSIUNI (BIG DATA)

BENQ DC E1000 DIGITAL CAMERA PRET E- BOOK

PREZENTARE CONCURSUL CĂLĂRAŞI My joy is my sorrow unmasked. 1

Analele Universităţii Constantin Brâncuşi din Târgu Jiu, Seria Economie, Nr. 1/2010

Exerciţii Capitolul 4

SIMULAREA NUMERICĂ A UNUI SCHIMBĂTOR DE CĂLDURĂ SOL-AER

FINANCIAL DIAGNOSIS THE WAY TO GET FINANCIAL PERFORMANCES BY THE COMPANY

JOURNAL OF ROMANIAN LITERARY STUDIES DO ASSERTIONS, QUESTIONS OR WISHES MAKE A THICK TRANSLATION?

Cuprins. Cuvânt-înainte... 11

Universitatea din Bucureşti. Facultatea de Matematică şi Informatică. Şcoala Doctorală de Matematică. Teză de Doctorat

ANEXA NR. 1. Caracteristicile tehnice ale interfeţelor echipamentelor. Exemplu schema de interconectare TRONSON XX: A A1 A2 A3 - B STM-4 A2 A3 STM-1

Mail Moldtelecom. Microsoft Outlook Google Android Thunderbird Microsoft Outlook

Evoluţii în domeniul protecţiei persoanelor cu handicap, la 30 septembrie 2010

Conferinţa Naţională de Învăţământ Virtual, ediţia a IV-a, Graph Magics. Dumitru Ciubatîi Universitatea din Bucureşti,

Eşantionarea statistică în auditul financiar pentru estimarea denaturărilor contabile

C O A C H I N G H O G A N L E A D PLAN DE DEZVOLTARE PENTRU AUTOCUNOAŞTEREA STRATEGICĂ. Raport pentru: Jane Doe ID: HB290681

STANDARDIZAREA PROCESELOR ŞI A ACTIVITǍŢILOR ÎN ORGANIZAŢIILE INDUSTRIALE PRIN IMPLEMENTAREA SISTEMULUI DE FABRICAŢIE LEAN

Ioana Claudia Horea Department of International Business, Faculty of Economic Sciences, University of Oradea, Oradea, Romania

Înregistratoare de energie electrică trifazate Fluke 1732 şi 1734

THE USE OF MOTHER TONGUE IN FOREIGN LANGUAGE TEACHING. Andreea NĂZNEAN 1. Abstract

FIŞA DISCIPLINEI. 5. Condiţii (acolo unde este cazul) 5.1. de desfăşurare a cursului

4. Porturi de intrare-ieşire

Transcription:

Curs 0: Analiza seriilor de timp Data mining - Curs 0

Structura Motivaţie Pre-procesarea seriilor de timp Predicţie Identificare şabloane Grupare şi clasificare Detecţie anomalii Data mining - Curs 0 2

Motivaţie Problema: Se cunosc date săptămânale privind indexul Dow Jones şi se doreşte identificarea acţiunilor pentru care creşterea de profit va fi cea mai mare în săptămâna care urmează Set date: Dow Jones Index (UCI Machine Learning, provided by (Brown, Pelosi & Dirska, 203) - 750 înregistrări, 6 atribute Exemple de companii cotate şi pt care sunt înregistrate informaţii: 3M American Express Alcoa AT&T Bank of America Boeing Caterpillar Chevron MMM AXP AA T BAC BA CAT CVX Cisco Systems Coca-Cola DuPont ExxonMobil General Electric Hewlett-Packard The Home Depot Intel CSCO KO DD XOM GE HPQ HD INTC IBM Data mining - Curs 0 3

Motivaţie Problema: care acţiune va înregistra cea mai mare creştere în săptămâna care urmează? Exemplu [Dow Jones Index from http://archive.ics.uci.edu/ml/datasets.html] 6 atribute quarter: the yearly quarter ( = Jan-Mar; 2 = Apr-Jun). stock: the stock symbol (lista de pe slide-ul anterior) date: the last business day of the work (de obicei e Vineri) open: the price of the stock at the beginning of the week high: the highest price of the stock during the week low: the lowest price of the stock during the week close: the price of the stock at the end of the week volume: the number of shares of stock that traded hands in the week percent_change_price: the percentage change in price throughout the week percent_change_volume_over_last_wek: the percentage change in the number of shares of stock that traded hands for this week compared to the previous week previous_weeks_volume: the number of shares of stock that traded hands in the previous week Data mining - Curs 0 4

Motivaţie Problema: care acţiune va înregistra cea mai mare creştere în săptămâna care urmează? Exemplu [Dow Jones Index from 6 atribute http://archive.ics.uci.edu/ml/datasets.html] next_weeks_open: the opening price of the stock in the following week next_weeks_close: the closing price of the stock in the following week percent_change_next_weeks_price: the percentage change in price of the stock in the following week days_to_next_dividend: the number of days until the next dividend percent_return_next_dividend: the percentage of return on the next dividend Data mining - Curs 0 5

Motivaţie Problema: care acţiune va înregistra cea mai mare creştere în săptămâna care urmează? Exemplu [Dow Jones Index de la http://archive.ics.uci.edu/ml/datasets.html] 6 atribute percent_change_next_weeks_price: the percentage change in price of the stock in the following week IBM HP Data mining - Curs 0 6

Motivaţie Problema: care acţiune va înregistra cea mai mare creştere în săptămâna care urmează? Exemplu [Dow Jones Index de la http://archive.ics.uci.edu/ml/datasets.html] 6 atribute percent_return_next_dividend: the percentage of return on the next dividend IBM HP Data mining - Curs 0 7

Motivaţie Pe lângă datele financiare există o mulţime de alte surse de serii de timp: Senzori: Date de mediu colectate prin intermediul diferitelor tipuri de senzori (temperatura, presiune, umiditate) Date medicale Electrocardiograma (ECG) Electroencefalograma (EEG) Date de monitorizare în timp reali a pacienţilor de la terapie intensivă Date de tip web log (clickstream data) Secvenţe indicând vizite ale unor pagini web Data mining - Curs 0 8

Motivaţie Pe lângă datele financiare există o mulţime de alte surse de serii de timp: Senzori: Date de mediu colectate prin intermediul diferitelor tipuri de senzori (temperatura, presiune, umiditate) Task: predicţie valori viitoare Date medicale Electrocardiograma (ECG) Electroencefalograma (EEG) Date de monitorizare în timp reali a pacienţilor de la terapie intensivă Task: identificare comportament anormal Date de tip web log (clickstream data) Secvenţe indicând vizite ale unor pagini web Task: identificare tipare de utilizare, profile de utilizatori Data mining - Curs 0 9

Serii de timp Exemplu (percentage of return on the next dividend for first 0 weeks included in Dow Jones Index dataset) 0.77, 0.72,0.69, 0.75, 0.68, 0.64, 0.64, 0.87, 0.87, 0.9 Momentul de timp nu apare ca variabilă explicită. Totuşi valorile specificate trebuie interpretate în contextul unor momente de timp. Timpul este atribut contextual Valoarea înregistrată este atribut comportamental Exemplu 2 (temperatura la prânz înregistrată în 7 zile consecutive) 2, 24, 23, 25, 22, 9, 20 Atributul contextual este timpul, cel comportamental este temperatura Data mining - Curs 0 0

Serii de timp Există diferite tipuri de serii de timp (temporale) In raport cu domeniul de timp: Continue (e.g. EEG) Discrete (denumite secvenţe) In raport cu atributele comportamentale Univariate (un atribut) Multivariate (mai multe atribute) Data mining - Curs 0

Pre-procesarea seriilor de timp Valori absente Problema: Lipsesc valori corespunzătoare unor momente de timp (de exemplu din cauza unor defecte ale senzorilor) In special când sunt mai multe atribute comportamentale )colectate de senzori independenţi) ar trebui asigurată sincronizarea între serii, în special prin completarea valorilor absente Soluţie: Valoarea absentă este estimată folosind interpolare Caz simplu: interpolare liniară Data mining - Curs 0 2

Pre-procesarea seriilor de timp Imputarea valorilor absente prin interpolare liniară Fie (y,y 2,.,y n ) o serie de timp corespunzătoare momentelor (t,t 2,.,t n ) Presupunem ca lipseşte valoarea corespunzătoare momentului t cuprins între t i şi t i+. Preupunând că atributul comportamental y variază liniar cu t pe intervalul [t i, t i+ ] se poate estima valoarea lui y y t t i = yi + ( yi+ ti+ ti y i ) Data mining - Curs 0 3

Pre-procesarea seriilor de timp Eliminarea zgomotului Problema: dispozitivele utilizate pt colectarea datelor (senzorii) pot fi afectaţi de bruiaje, a.î. Seria poate conţine valori generate în procesul de colectare a datelor şi care nu reflectă comportamentul real al atributului înregistrat Modalităţi de tratare a zgomotului Impachetare (Binning) Netezire (Moving-Average Smoothing) Data mining - Curs 0 4

Pre-procesarea seriilor de timp Binning Idee: Intervalul de timp global [t, t n ] corespunzător seriei (y,y 2,.,y n ) este divizat în m subintervale conţinând fiecare câte elemente (m=n/k) Fiecare subinterval va fi asociat unei valori calculate ca medie a valorilor din seria de timp ce corespunde momentelor incluse în subinterval Observaţii: Se presupune că momentele de timp corespunzătoare seriei iniţiale sunt egal distanţate Se reduce număarul de valori disponibile de k ori (este un tip de compresie cu pierdere de informaţie) ( t, t z i ( y, = 2,..., t y 2 k k j= n,..., ) y y (( t,..., t n ) ( i ) k+ j k ( z, z 2 ),( t,..., z, i =, m k+ m,..., t ) 2k ),...,( t ( m ) k+,..., t Data mining - Curs 0 5 mk )

Pre-procesarea seriilor de timp Moving average smoothing Idee: se reduce pierderea de informaţie cauzată de binning folosind ferestre de mediere care se suprapun, adică media se calculează pentru elementele ce aparţin unei ferestre mobile (se deplasează de-a lungul seriei) ( t, t ( y, z i = 2,..., t y k n,..., ) y ) 2 n ( m ) k + yi+ j j= (( t,..., t k ( z, z 2 ),( t, i =, m 2,..., z,..., t m ) k+ ),...,( t ( m ) k+,..., t Obs: Numărul de elemente din serie este redus de la n la n-k+ Variaţiile pe termen scurt pot fi pierdute prin mediere mk ) Data mining - Curs 0 6

Pre-procesarea seriilor de timp Exemplu (Moving average smoothing) k=4 k=8 Serii netezite (negru) Data mining - Curs 0 7

Pre-procesarea seriilor de timp Netezire exponenţială Idee: valoarea netezită se defineşte ca o combinaţie liniară a valorii curente şi a valorii netezite anterioare z z z i 0 i = α = y y = ( α) i + ( α) z i z 0 i =, m i + α y ( α) j= i j, i j, i =, m Obs: Dacă α= atunci nu se aplică netezire; dacă α= toată seria este netezită (va avea valoarea primului element) Netezirea exponenţială se bazează pe ideea că valorile mai recente sunt mai importanta; influenţa valorilor anterioare este controlată prin α Data mining - Curs 0 8

Pre-procesarea seriilor de timp Exemplu (exponential smoothing) α=0.75 α=0.5 Serii netezite (negru) Data mining - Curs 0 9

Pre-procesarea seriilor de timp Exemplu (exponential smoothing) α=0.5 α=0.25 Serii netezite (negru) Data mining - Curs 0 20

Pre-procesarea seriilor de timp Normalizare este utilă în special când se prelucrează mai multe serii de timp) Variante: Normalizare bazata pe domeniu z i yi min( y) =, i =, m max( y) min( y) Standardizare yi mean( y) zi =, stdev( y) i =, m Obs: min(y) şi max(y) reprezintă valoarea minimă respectiv cea maximă din serie mean(y) şi stdev(y) sunt valoarea medie respectiv abaterea standard Data mining - Curs 0 2

Pre-procesarea seriilor de timp Exemplu normalizare standardizare Obs: Normalizarea şi standardizarea conservă forma seriei dar schimbă domeniul de valori Data mining - Curs 0 22

Predicţie Scop: Estimarea preţului viitor al unei acţiunii, predicţia vremii, estimarea evoluţiei unor indicatori economici etc Predicţie: Intrare: una sau mai multe serii de timo Ieşire: valori viitoare ale seriei Cum poate fi abordată problema: Ca o problemă de regresie se estimează explicit dependenţa dintre atributele comportamentale şi timp Utilizând modele care exprimă relaţia dintre valori curente şi valori anterioare ale seriei (modele autoregresive) Data mining - Curs 0 23

Predicţie Obs: modelele de predicţie funcţionează bine pentru seriile staţionare Intuitiv, o serie staţionară se caracterizează prin faptul că proprietăţile sale statistice (medie, varianţă, autocorelaţie) sunt constante în timp Staţionaritate strictă: ditribuţia de probabilitate a valorilor din orice interval de timp [a,b] este identică cu distribuţia de probabilitate a valorilor din intervalul shiftat [a+h, b+h] (pentru un h>0 arbitrar) Obs: Proprietăţile statistice bazate pe ferestre de timp pot fi estimate (se obţin valori similare pt ferestre diferite) În cazul seriilor nestaţionare acest lucru nu mai este adevărat, deci înainte de a aplica o tehnică de predicţie autoregresivă ar fi util ca o serie nestaţionară să fie transformată într+una staţionară. Data mining - Curs 0 24

Predicţie Exemplu: serie artificial construită: y i =i+zgomot (zgomotul este generat folosind o distribuţie normală de medie 0 şi abatere standard 2) Data mining - Curs 0 25

Predicţie Exemplu: serie artificial construită: y i =i+zgomot (zgomotul este generat folosind o distribuţie normală de medie 0 şi abatere standard 2) Obs: Aceasta este o serie nestaţionară întrucât mediile valorilor corespunzând unor ferestre de timp diferite sunt diferite Medie 2 (a doua fereastră) Medie (prima fereastră) Data mining - Curs 0 26

Predicţie Exemplu: serie artificial construită: y i =i+zgomot (zgomotul este generat folosind o distribuţie normală de medie 0 şi abatere standard 2) Obs. Sunt 2 componente: tendinţa (trend) şi zgomot (noise) trend Seria (roşu) noise Cum pot fie extrase cele două componente din seria iniţială? Data mining - Curs 0 27

Predicţie Extragerea tendinţei = eliminarea zgomotului Cum: prin netezire Netezire exponenţială (α=0.25) Tendinţa reală Data mining - Curs 0 28

Predicţie Extragerea zgomotului = eliminarea tendinţei Cum: prin calcul diferenţă între elementele succesive din serie Diferenţa zgomot real Data mining - Curs 0 Zgomot real Zgomot estimat (diferenţa) 29

Predicţie Extragerea zgomotului = eliminarea tendinţei Cum: prin calcul diferenţă între elementele succesive din serie Transformare prin calcul diferenţă: z i = yi yi Obs: Seria obţinută prin diferenţire este staţionară Întrebare: Poate fi reconstruită seria iniţială pornind de la estimările tendinţei şi zgomotului? Diferenţa Data mining - Curs 0 30

Predicţie Extragerea zgomotului = eliminarea tendinţei Cum: prin calcul diferenţă între elementele succesive din serie Alte variante: Eliminarea efectului sezonier z i = y i y i P La seriile cu creştere geometrică (de exemplu serii de preţuri în care factorul de inflaţie e constant) poate fi utilă logaritmarea înainte de calculul diferenţelor Întrebare: Poate fi reconstruită seria iniţială pornind de la estimările tendinţei şi zgomotului? Data mining - Curs 0 3

Tendinţa şi zgomot Reconstruire: suma dintre estimarea tendinţei şi estimarea zgomotului original reconstruit original reconstruit Data mining - Curs 0 32

Predicţie Cum poate fi estimată (prezisă) o nouă valoare din serie? estimarea unei noi valori cf modelului de tendinţă (trend) Generarea unei noi valori cf modelului de zgomot Adunarea valorilor Problema principală: Este necesară construirea unui model de trend (e.g. prin regresie) Este necesară identificarea unui model pt zgomot; dacă este zgomot alb (valorile asociate unor momente diferite de timp sunt generate de variabile aleatoare independente cu distribuţie normală şi medie nulă) atunci valorile parametrilor (media şi abaterea standard pot fi uşor estimată) Altă abordare: se utilizează autocorelaţia = corelaţia dintre valorile corespunzătoare unor momente de timp învecinate Data mining - Curs 0 33

Modele autoregresive Ideea de bază: dacă valoarea autocorelaţiei este mare (în valoare absolută) atunci valoarea corespunzătoare unui moment poate fi estimată pe baza valorilor din vecinătate Calcul autocorelaţie pt o serie staţionară, (y,y 2,.,y n ), ca fiind corelaţia dintre valori separate prin întârzierea L L=3 n L n L i= Autocorrelation( L) = y y2 y3 y4 y5 y6 y7 ( y i avg( Y ))( y i+ L avg( Y )) var( Y ) y8 y9 y0 y y2 y3 y4 y5 y6 y y2 y3 y4 y5 y6 y7 y8 y9 y0 y y2 y3 y4 y5 y6 Data mining - Curs 0 34

Modele autoregresive Forma generală a unui model autoregresiv de ordin p: AR(p) y t = p i= a i y t i + c + ε t Obs: p este ordinul modelului şi poate fi ales analizând diferite valori posibile ale întârzierii L: p se alege ca fiind prima valoare L (pornind cu L=) pt care valoarea absolută a auto-corelaţiei este suficient de mică a, a 2,., a p şi c sunt parametri ai modelului şi se estimează folosind date de antrenare şi metoda celor mai mici pătrate Ɛ t reprezintă zgomotul Data mining - Curs 0 35

Modele autoregresive Modele de tip medie mobilă (Moving Average): MA(q) Motivaţie: Modelele autoregresive simple nu pot explica toate variaţiile (în mod particular schimbările bruşte, de tipul şocurilor) Idee: Modelele de tip MA prezic valorile următoare pe baza deviaţiilor anterioare ale valorilor reale faţă de cele prezise y t = q i= bε i t i + c + Obs: Presupunând că seria este staţionară şi zgomotul are medie 0 valoarea lui c este media valorilor din serie Parametrii b, b 2,., b q se estimează din date (problemă de fitare neliniară) ε t Data mining - Curs 0 36

Modele autoregresive Modele autoregresive combinate: ARMA(p,q) Motivaţie: Se combină capacitatea de predicţie a modelelor autoregresive şi a celor bazate pe medie mobilă: y t = p i= a i y q t i + biε t i + c + i= Obs: Un aspect important este alegerea valorilor p şi q: ar trebui alese cele mai mici valori care asigură o bună aproximare a datelor nu este uşor de identificat ε t Data mining - Curs 0 37

Descoperirea şabloanelor Şablon (motiv) = structură ce apare frecvent în serie Procesul de descoperire Intrare: Cel puţin o serie Lungimea L a şablonului Măsură de similaritate/ disimilaritate Prag pentru similaritate/ disimilaritate Ieşire: subsecvenţă de lungime L ce apare â frecvent în serie C. Aggarwal, Data Mining the Textbook, 205 Data mining - Curs 0 38

Descoperirea şabloanelor Şablon (motiv) = structură ce apare frecvent în serie Exemplu: Algoritm de tip forţă brută FindMotif (y[..n],l,eps) countmax=0 FOR i=,n-l+ DO candidate=y[i..i+l-] count=0 FOR j=,n-l+ DO D=dist(y[i..i+L-),y[j..j+L-]) IF (i!=j) and (D<=eps) THEN count=count+ ENDFOR IF count[i]>countmax THEN best=i; countmax=count ENDFOR RETURN (y[best..best+l-]) Data mining - Curs 0 39

Excepţii (anomalii) Există două tipuri de excepţii (anomalii) într-o serie de date: Excepţii (anomalii) punctuale: Deviaţie semnificativă de la valoarea prezisă Corespunde unei schimbări bruşte în seria de date Excepţii (anomalii) în privinţa formei: O succesiune de valori poate reprezenta o anomalie chiar dacă valorile individuale nu sunt neobişnuite A consecutive pattern of data points might be an anomaly even is the individual values are not necessary unusual De exemplu, într-o electrocardiogramă o bătaie neregulată a inimii poate fi considerată o anomalie Data mining - Curs 0 40

Excepţii (anomalii) Detecţia anomaliilor punctuale: Step : se determină valorea prezisă (pe baza modelului construit valorile anterioare) (z m,z m+,,z n ) Step 2: se construieşte seria deviaţiilor (d m,d m+,,d n ) cu d i =z i -y i Step 3: se calculează deviaţiile standardizate (s m,s m+,,s n ) cu s i =(d i -avg(d))/stdev(d) Dacă valoarea absolută a lui s i este mai mare decât un prag (e.g. 3) atunci se consideră că este anomalie Data mining - Curs 0 4

Excepţii (anomalii) Detecţia anomaliilor de formă: Step : se extrag toate subseriile corespunzătoare unui ferestre de dimensiune W Step 2: se calculează distanţa dintre fiecare subserie şi toate celelalte corespunzătoare unor ferestre disjuncte Step 3: Subseriile care diferă semnificativ de celelalte sunt considerate excepţii potenţiale Probleme: Alegerea lui W Alegerea pragului Data mining - Curs 0 42