Monday 27 November 2017

Autoregressiv Bevegelig Gjennomsnitt Modell Utmerker Seg


ARMA Unplugged Dette er den første oppføringen i vår serie Unplugged tutorials, hvor vi dykker inn i detaljene til hver av tidsseriemodellene som du allerede er kjent med, understreker de underliggende forutsetningene og kjører hjem intuisjonene bak dem. I dette spørsmålet håndterer vi ARMA-modellen en hjørnestein i tidsseriemodellering. I motsetning til tidligere analyseproblemer begynner vi her med ARMA-prosessdefinisjonen, angi inngangene, utgangene, parametrene, stabilitetsbegrensningene, antagelsene og til slutt trekke noen retningslinjer for modelleringsprosessen. Bakgrunn Per definisjon er det automatisk regressive bevegelige gjennomsnittet (ARMA) en stasjonær stokastisk prosess som består av summene av autoregressive Excel og bevegelige gjennomsnittlige komponenter. Alternativt, i en enkel formulering: Forutsetninger Ser nærmere på formuleringen. ARMA prosessen er rett og slett en vektet sum av fortidens utgående observasjoner og sjokk, med få nøkkelforutsetninger: Hva betyr disse antagelsene En stokastisk prosess er en motsetning til en deterministisk prosess som beskriver utviklingen av en tilfeldig variabel over tid. I vårt tilfelle er den tilfeldige variabelen ARMA-prosessen bare fanger seriell korrelasjon (dvs. automatisk korrelasjon) mellom observasjonene. I enkle ord summerer ARMA prosessen verdiene fra tidligere observasjoner, ikke deres kvadraterte verdier eller deres logaritmer, etc. Høyere rekkefølgeavhengighet mandater en annen prosess (for eksempel ARCHGARCH, ikke-lineære modeller, etc.). Det er mange eksempler på en stokastisk prosess der tidligere verdier påvirker nåværende. For eksempel, i et salgskontor som mottar RFQs på en kontinuerlig basis, blir noen realisert som salgsgevinst, noen som salgstap, og noen spilt ut i neste måned. Som et resultat, i en gitt måned, kommer noen av de salgsgevinne sakene som RFQ-er eller er gjentatt salg fra de foregående månedene. Hva er sjokk, innovasjoner eller feilvilkår Dette er vanskelig spørsmål, og svaret er ikke mindre forvirrende. Likevel, kan vi prøve det: I enkle ord er feilbegrepet i en gitt modell en fange-all bøtte for alle variasjonene som modellen ikke forklarer. Fortsatt tapt Lar oss bruke et eksempel. For en aksjekursprosess er det muligens hundrevis av faktorer som driver prisnivået oppdatering, inkludert: Utbytte og Split-kunngjøringer Kvartalsresultatrapporter Fusjons - og oppkjøpsaktiviteter (MampA) Juridiske hendelser, f. eks. trusselen om klassesaksjonssaker. Andre En modell, ved design, er en forenkling av en kompleks virkelighet, slik at det uansett hva vi forlater, blir modellen automatisk samlet i feilperioden. ARMA-prosessen antar at den kollektive effekten av alle disse faktorene virker mer eller mindre som gaussisk støy. Hvorfor bryr oss oss om tidligere sjokk I motsetning til en regresjonsmodell kan forekomsten av en stimulus (for eksempel sjokk) ha en effekt på dagens nivå og muligens fremtidige nivåer. For eksempel påvirker en bedriftshendelse (for eksempel MampA-aktivitet) underkursens aksjekurs, men endringen kan ta litt tid for å få full effekt, da markedsaktørene absorberer den tilgjengelige informasjonen og reagerer tilsvarende. Dette ber om spørsmålet: ikke tidligere verdier av utgangen har allerede sjokkene forbi informasjonen JA, sjokkshistorien er allerede regnskapsført i tidligere utgangsnivåer. En ARMA-modell kan utelukkende representert som en ren auto-regressiv (AR) modell, men lagringsbehovet for et slikt system i uendelig. Dette er den eneste grunnen til å inkludere MA-komponenten: å lagre lagring og forenkle formuleringen. Igjen, ARMA prosessen må være stasjonær for den marginale (betingelsesløse) variansen å eksistere. Merk: I diskusjonen ovenfor skiller jeg ikke mellom bare fraværet av enhetsrot i den karakteristiske ligningen og stasjonariteten i prosessen. De er relaterte, men fraværet av enhetsrot er ikke en garanti for stasjonar. Enhetsroten må likevel ligge inne i enhetssirkelen for å være nøyaktig. Konklusjon Lets gjenskape hva vi har gjort hittil. Først undersøkte vi en stasjonær ARMA-prosess, sammen med formulering, innganger, forutsetninger og lagringskrav. Deretter viste vi at en ARMA-prosess inkorporerer sine utgangsverdier (automatisk korrelasjon) og støt det opplevde tidligere i dagens utgang. Til slutt viste vi at den stasjonære ARMA-prosessen produserer en tidsserie med et stabilt langsiktig gjennomsnitt og varians. I vår dataanalyse, før vi foreslår en ARMA-modell, bør vi verifisere stasjonarforutsetningen og de endelige minnekravene. I tilfelle dataserien utviser en deterministisk trend, må vi fjerne (de-trend) den først, og deretter bruke residualene for ARMA. I tilfelle datasettet utviser en stokastisk trend (for eksempel tilfeldig gange) eller sesongmessig, må vi underholde ARIMASARIMA. Endelig kan korrelogrammet (dvs. ACFPACF) brukes til å måle minnekravet til modellen vi bør forvente enten ACF eller PACF å forfall raskt etter noen få lags. Hvis ikke, kan dette være et tegn på ikke-stasjonæritet eller et langsiktig mønster (f. eks. ARFIMA).ARIMA Forecasting med Excel og R Hei I dag skal jeg gå gjennom en introduksjon til ARIMA-modellen og dens komponenter, som en kort forklaring på Box-Jenkins metode for hvordan ARIMA-modeller er spesifisert. Til slutt skapte jeg en Excel-implementering ved hjelp av R, som I8217ll viser deg hvordan du konfigurerer og bruker. Autoregressive Moving Average (ARMA) Modeller Den Autoregressive Moving Average-modellen brukes til modellering og prognoser for stasjonære, stokastiske tidsserier. Det er kombinasjonen av to tidligere utviklede statistiske teknikker, de autoregressive (AR) og Moving Average (MA) - modellene og ble opprinnelig beskrevet av Peter Whittle i 1951. George E. P. Box og Gwilym Jenkins populariserte modellen i 1971 ved å spesifisere diskrete trinn til modellidentifikasjon, estimering og verifisering. Denne prosessen vil bli beskrevet senere for referanse. Vi vil begynne med å introdusere ARMA-modellen ved sine ulike komponenter, AR - og MA-modellene, og presenterer deretter en populær generalisering av ARMA-modellen, ARIMA (Autoregressive Integrated Moving Average) og prognose og modellspesifikasjonstrinn. Til slutt vil jeg forklare en Excel-implementering jeg opprettet og hvordan du bruker den til å lage prognoser for tidsserien. Autoregressive Modeller Den autoregressive modellen brukes til å beskrive tilfeldige prosesser og tidsvarierende prosesser og spesifiserer at utgangsvariabelen avhenger lineært på tidligere verdier. Modellen er beskrevet som: Xt c sum varphii, Xt-i varepsilont Hvor varphi1, ldots, varphivarphi er parametrene til modellen, C er konstant, og varepsilont er en hvit støyperiode. I hovedsak er hva modellen beskriver for en gitt verdi X (t). det kan forklares av funksjoner av tidligere verdi. For en modell med en parameter, er varphi 1. X (t) forklart av fortidens verdi X (t-1) og tilfeldig feil varepsilont. For en modell med mer enn en parameter, for eksempel varphi 2. X (t) er gitt av X (t-1). X (t-2) og tilfeldig feil varepsilont. Moving Average Model Den Moving Average (MA) modellen brukes ofte til å modellere univariate tidsserier og er definert som: Xt mu varepsilont theta1, varepsilon ldots thetaq, varepsilon mu er gjennomsnittet av tidsseriene. theta1, ldots, thetaq er parametrene til modellen. varepsilont, varepsilon, ldots er de hvite støyfeilvilkårene. q er rekkefølgen til Moving Average-modellen. Moving Average-modellen er en lineær regresjon av den nåværende verdien av serien sammenlignet med varepsilontter i den foregående perioden, t. varepsilon. For eksempel forklares en MA-modell av q 1. X (t) av den nåværende feiloppdateringsfilen i samme periode og den tidligere feilverdien, varepsilon. For en modell av rekkefølge 2 (q 2) forklares X (t) av de to siste feilverdiene, varepsilon og varepsilon. AR (p) og MA (q) termer brukes i ARMA-modellen, som nå vil bli introdusert. Autoregressive Moving Average Model Autoregressive Moving Gjennomsnittlige modeller bruker to polynomier, AR (p) og MA (q) og beskriver en stasjonær stokastisk prosess. En stasjonær prosess endres ikke når den forskyves i tid eller rom, derfor har en stasjonær prosess konstant gjennomsnitt og varians. ARMA-modellen er ofte referert til når det gjelder polynomene, ARMA (p, q). Merknadene til modellen er skrevet: Xt c varpsilont sum varphi1 X sum thetai varepsilon Valg, estimering og verifisering av modellen er beskrevet av Box-Jenkins prosessen. Box-Jenkins Metode for modellidentifikasjon Nedenfor er mer en oversikt over Box-Jenkins-metoden, da den faktiske prosessen med å finne disse verdiene kan være ganske overveldende uten en statistisk pakke. Excel-arket som er inkludert på denne siden, bestemmer automatisk den best monterte modellen. Det første trinnet i Box-Jenkins-metoden er modellidentifikasjon. Trinnet inkluderer å identifisere sesongmessighet, differensere om nødvendig og bestemme rekkefølgen av p og q ved å plotte autokorrelasjon og delvise autokorrelasjonsfunksjoner. Etter at modellen er identifisert, er det neste trinnet å estimere parametrene. Parameterestimering bruker statistiske pakker og beregningsalgoritmer for å finne de beste passende parametrene. Når parametrene er valgt, er det siste trinnet å sjekke modellen. Modellkontroll er gjort ved testing for å se om modellen er i overensstemmelse med en stasjonær, univariate tidsserie. Man bør også bekrefte at residuene er uavhengige av hverandre og viser konstant middel og varians over tid, noe som kan gjøres ved å utføre en Ljung-Box-test eller igjen plotte autokorrelasjonen og delvis autokorrelasjon av residuene. Legg merke til at det første trinnet innebærer å sjekke årstid. Hvis dataene du arbeider med inneholder sesongmessige trender, er du 8220differanse8221 for å gjøre dataene stasjonære. Dette differensiesteget generaliserer ARMA-modellen til en ARIMA-modell, eller Autoregressive Integrated Moving Average, hvor 8216Integrated8217 tilsvarer differenseringstrinnet. Autoregressive Integrerte Moving Average Models ARIMA-modellen har tre parametere, p, d, q. For å definere ARMA-modellen for å inkludere differensiseringsbegrepet, starter vi ved å omarrangere standard ARMA-modellen for å skille X (t) latex og latex varepsilont fra summeringen. (1 sum sumai Li) Xt (1 sum thetai Li) varepsilont Hvor L er lagoperatøren og alphai. thetai. varepsilont er autoregressive og bevegelige gjennomsnittlige parametere, og feilvilkårene, henholdsvis. Vi gjør nå antagelsen den første polynom av funksjonen, (1 - sum alai Li) har en enhetlig rot av multiplikasjon d. Vi kan deretter omskrive den til følgende: ARIMA-modellen uttrykker polynomialiseringen med pp - d og gir oss: (1 - sum phii Li) (1 - L) d Xt (1 sum thetai Li) varepsilont Til slutt generaliserer vi modell videre ved å legge til en drivperiode som definerer ARIMA-modellen som ARIMA (p, d, q) med drift frac. (1 - sum phii Li) (1 - L) d Xt delta (1 sum thetai Li) varepsilont Med modellen som nå er definert, kan vi se ARIMA modellen som to separate deler, en ikke-stationær og den andre brede sensoren stasjonære (felles sannsynlighetsfordeling endres ikke når det skiftes i tid eller rom). Den ikke-stasjonære modellen: Den brede sansestasjonære modellen: (1 Sum Sum Phii Li) Yt (1 Sum Thetai Li) varepsilont Prognoser kan nå gjøres på Yt ved hjelp av en generalisert autoregressiv prognosemetode. Nå som vi har diskutert ARMA - og ARIMA-modellene, går vi nå til hvordan kan vi bruke dem i praktiske applikasjoner for å gi prognoser. Ive bygget en implementering med Excel ved hjelp av R for å lage ARIMA-prognoser, samt et alternativ til å kjøre Monte Carlo-simulering på modellen for å bestemme sannsynligheten for prognosene. Excel Implementering og Hvordan bruke Før du bruker arket, må du laste ned R og RExcel fra Statconns nettsted. Hvis du allerede har R installert, kan du bare laste ned RExcel. Hvis du ikke har R installert, kan du laste ned RAndFriends som inneholder den nyeste versjonen av R og RExcel. Vær oppmerksom, RExcel fungerer bare på 32bit Excel for sin ikke-kommersielle lisens. Hvis du har 64bit Excel installert, må du få en kommersiell lisens fra Statconn. Det anbefales å laste ned RAndFriends, da det gir den raskeste og enkleste installasjonen, men hvis du allerede har R og vil installere den manuelt, følg disse trinnene. Installere RExcel manuelt For å installere RExcel og de andre pakkene for å få R til å fungere i Excel, må du først åpne R som administrator ved å høyreklikke på. exe. I R-konsollen, installer RExcel ved å skrive følgende setninger: Kommandoene ovenfor installerer RExcel på maskinen din. Det neste trinnet er å installere rcom, som er en annen pakke fra Statconn for RExcel-pakken. For å installere dette, skriv følgende kommandoer, som også automatisk installerer rscproxy som av R versjon 2.8.0. Med disse pakkene installert, kan du bevege deg inn for å angi forbindelsen mellom R og Excel. Selv om det ikke er nødvendig for installasjonen, er en praktisk pakke å laste ned Rcmdr, utviklet av John Fox. Rcmdr lager R menyer som kan bli menyer i Excel. Denne funksjonen kommer som standard med RAndFriends-installasjonen og gjør flere R-kommandoer tilgjengelig i Excel. Skriv inn følgende kommandoer i R for å installere Rcmdr. Vi kan opprette linken til R og Excel. Merk i de siste versjonene av RExcel denne tilkoblingen er laget med et enkelt dobbeltklikk på den medfølgende. bat-filen ActivateRExcel2010, slik at du bare trenger å følge disse trinnene hvis du manuelt installerte R og RExcel, eller hvis forbindelsen ikke er gjort under RAndFriends installasjon. Opprett forbindelsen mellom R og Excel Åpne en ny bok i Excel og naviger til skjermbildet Alternativer. Klikk Valg og deretter Add-ins. Du bør se en liste over alle aktive og inaktive tillegg du har for øyeblikket. Klikk på Gå-knappen nederst. I dialogboksen Add-ins vil du se alle tilleggsreferanser du har laget. Klikk på Bla gjennom. Naviger til RExcel-mappen, vanligvis plassert i C: Program FilesRExcelxls eller noe lignende. Finn RExcel. xla-tillegget og klikk på det. Det neste trinnet er å opprette en referanse for at makroer som bruker R for å fungere skikkelig. Skriv inn alt F11 i Excel-dokumentet ditt. Dette åpner Excels VBA editor. Gå til Tools - gt Referanser, og finn RExcel-referansen, RExcelVBAlib. RExcel skal nå være klar til bruk Bruke Excel-arket Nå som R og RExcel er riktig konfigurert, er det tid til å gjøre noen prognose Åpne prognosearket og klikk Last inn server. Dette er å starte RCom-serveren, og også laste de nødvendige funksjonene for å utføre prognosen. En dialogboks åpnes. Velg detall. R-filen som følger med arket. Denne filen inneholder funksjonene som prognosverktøyet bruker. De fleste funksjonene som ble innlemmet, ble utviklet av professor Stoffer ved University of Pittsburgh. De utvider mulighetene til R og gir oss noen nyttige diagnostiske grafer sammen med vår prognoseutgang. Det er også en funksjon for automatisk å bestemme de beste passende parametrene til ARIMA-modellen. Etter at serveren laster inn, skriv inn dataene i datakolonnen. Velg rekkevidden av dataene, høyreklikk og velg Navn rekkevidde. Gi opp navnet som Data. Sett deretter frekvensen av dataene dine i Cell C6. Frekvens refererer til tidsperiodene for dataene dine. Hvis det er ukentlig, vil frekvensen være 7. Månedlig ville være 12 mens kvartalsvis ville være 4, og så videre. Skriv inn periodene som er forut for å prognose. Legg merke til at ARIMA-modellene blir ganske unøyaktige etter flere påfølgende frekvensforutsigelser. En god tommelfingerregel er ikke å overskride 30 trinn som noe forbi som kunne være ganske upålitelig. Dette avhenger også størrelsen på datasettet ditt. Hvis du har begrenset data tilgjengelig, anbefales det å velge et mindre trinn foran nummer. Etter å ha tastet inn dataene dine, navngi det og angi ønsket frekvens og trinn forut for å prognose, klikk Kjør. Det kan ta litt tid før prognosene skal behandles. Når den er fullført, får du forutsagte verdier ut til nummeret du oppgav, standardfeilen på resultatene og to diagrammer. Til venstre er de anslåtte verdiene plottet med dataene, mens høyre inneholder praktisk diagnostikk med standardiserte residualer, autokorrelasjon av residualene, en gg-plott av residualene og en Ljung-Box statistikkdiagram for å avgjøre om modellen er godt utstyrt. Jeg vil ikke komme inn i for mye detalj på hvordan du ser etter en godt utstyrt modell, men på ACF-grafen vil du ikke ha noen (eller mange) lagspikes som krysser over den stiplede blå linjen. På gg-plottet, jo flere sirkler som går gjennom linjen, jo mer normalisert og bedre montert er modellen. For større datasett kan dette krysse mange sirkler. Til slutt er Ljung-Box-testen en artikkel i seg selv, jo flere sirkler som ligger over den prikkede blå linjen, desto bedre er modellen. Hvis diagnoseresultatet ikke ser bra ut, kan du prøve å legge til flere data eller starte på et annet punkt nærmere rekkevidden du vil prognose. Du kan enkelt rydde de genererte resultatene ved å klikke på knappene for beregnede verdier. Og det er det For øyeblikket gjør datakolonnen ikke noe annet enn for din referanse, men det er ikke nødvendig for verktøyet. Hvis jeg finner tid, går jeg tilbake og legger til det slik at den viste grafen viser riktig tid. Du kan også få en feil når du kjører prognosen. Dette skyldes vanligvis funksjonen som finner de beste parametrene, ikke klarer å bestemme riktig ordre. Du kan følge trinnene ovenfor for å prøve å ordne dataene dine bedre for at funksjonen skal fungere. Jeg håper du får bruk ut av verktøyet. Det sparte meg mye tid på jobben, da nå er alt jeg trenger å gjøre, er å skrive inn dataene, laste inn serveren og kjøre den. Jeg håper også dette viser deg hvor fantastisk R kan være, spesielt når den brukes med en front-end som Excel. Kode, Excel-regneark og. bas-fil er også på GitHub her. Innføring i ARIMA: nonseasonal modeller ARIMA (p, d, q) prognoser likning: ARIMA-modeller er i teorien den mest generelle klassen av modeller for prognoser for en tidsserie som kan gjøres for å være 8220stationary8221 ved differensiering (om nødvendig), kanskje i forbindelse med ikke-lineære transformasjoner som logging eller deflatering (om nødvendig). En tilfeldig variabel som er en tidsserie er stasjonær hvis dens statistiske egenskaper er konstante over tid. En stasjonær serie har ingen trend, dens variasjoner rundt sin gjennomsnitt har en konstant amplitude, og den svinger på en konsistent måte. det vil si at kortsiktige tilfeldige tidsmønstre alltid ser like ut i statistisk forstand. Den sistnevnte tilstanden betyr at dets autokorrelasjoner (korrelasjoner med sine egne tidligere avvik fra gjennomsnittet) forblir konstante over tid, eller tilsvarende, at dets effektspektrum forblir konstant over tid. En tilfeldig variabel av dette skjemaet kan ses som en kombinasjon av signal og støy, og signalet (hvis det er tydelig) kan være et mønster av rask eller saksom gjennomsnittlig reversering eller sinusformet svingning eller rask veksling i skiltet , og det kan også ha en sesongbestemt komponent. En ARIMA-modell kan ses som en 8220filter8221 som forsøker å skille signalet fra støyen, og signalet blir deretter ekstrapolert inn i fremtiden for å oppnå prognoser. ARIMA-prognose-ligningen for en stasjonær tidsserie er en lineær (dvs. regresjonstype) ekvation hvor prediktorene består av lag av de avhengige variable ogor lagene av prognosefeilene. Det er: Forutsigbar verdi for Y en konstant og en vektet sum av en eller flere nylige verdier av Y og eller en vektet sum av en eller flere nylige verdier av feilene. Hvis prediktorene kun består av forsinkede verdier av Y. Det er en ren autoregressiv (8220self-regressed8221) modell, som bare er et spesielt tilfelle av en regresjonsmodell, og som kunne være utstyrt med standard regresjonsprogramvare. For eksempel er en førsteordens autoregressiv (8220AR (1) 8221) modell for Y en enkel regresjonsmodell der den uavhengige variabelen bare er Y forsinket med en periode (LAG (Y, 1) i Statgraphics eller YLAG1 i RegressIt). Hvis noen av prediktorene er lags av feilene, er en ARIMA-modell det IKKE en lineær regresjonsmodell, fordi det ikke er mulig å spesifisere 8220last period8217s error8221 som en uavhengig variabel: feilene må beregnes fra tid til annen når modellen er montert på dataene. Fra et teknisk synspunkt er problemet med å bruke forsinkede feil som prediktorer at modellen8217s spådommer ikke er lineære funksjoner av koeffisientene. selv om de er lineære funksjoner av tidligere data. Så koeffisienter i ARIMA-modeller som inkluderer forsinkede feil må estimeres ved ikke-lineære optimaliseringsmetoder (8220hill-klatring8221) i stedet for bare å løse et system av ligninger. Akronymet ARIMA står for Auto-Regressive Integrated Moving Average. Lags av den stationære serien i prognosekvotasjonen kalles kvotoregressivequot-termer. Lags av prognosefeilene kalles quotmoving averagequot vilkår, og en tidsserie som må differensieres for å bli stillestående, sies å være en quotintegratedquot-versjon av en stasjonær serie. Tilfeldige gange og tilfeldige trendmodeller, autoregressive modeller og eksponentielle utjevningsmodeller er alle spesielle tilfeller av ARIMA-modeller. En nonseasonal ARIMA-modell er klassifisert som en quotARIMA (p, d, q) kvotemodell hvor: p er antall autoregressive termer, d er antall ikke-sekundære forskjeller som trengs for stasjonar, og q er antall forsinkede prognosefeil i prediksjonsligningen. Forutsigelsesligningen er konstruert som følger. Først, la y betegne den d forskjellen på Y. Det betyr: Merk at den andre forskjellen på Y (d2-saken) ikke er forskjellen fra 2 perioder siden. Snarere er det den første forskjellen-av-første forskjellen. som er den diskrete analogen til et andre derivat, det vil si den lokale akselerasjonen av serien i stedet for sin lokale trend. Når det gjelder y. Den generelle prognosekvasjonen er: Her er de bevegelige gjennomsnittsparametrene (9528217s) definert slik at deres tegn er negative i ligningen, etter konvensjonen innført av Box og Jenkins. Noen forfattere og programvare (inkludert R programmeringsspråket) definerer dem slik at de har pluss tegn i stedet. Når faktiske tall er koblet til ligningen, er det ingen tvetydighet, men det er viktig å vite hvilken konvensjon programvaren bruker når du leser utgangen. Ofte er parametrene benevnt der av AR (1), AR (2), 8230 og MA (1), MA (2), 8230 etc. For å identifisere den aktuelle ARIMA modellen for Y. begynner du ved å bestemme differensordren (d) trenger å stasjonærisere serien og fjerne bruttoegenskapene til sesongmessighet, kanskje i forbindelse med en variansstabiliserende transformasjon som logging eller deflating. Hvis du stopper på dette punktet og forutsier at den forskjellige serien er konstant, har du bare montert en tilfeldig tur eller tilfeldig trendmodell. Den stasjonære serien kan imidlertid fortsatt ha autokorrelerte feil, noe som tyder på at noen antall AR-termer (p 8805 1) og eller noen nummer MA-termer (q 8805 1) også er nødvendig i prognosekvasjonen. Prosessen med å bestemme verdiene p, d og q som er best for en gitt tidsserie, vil bli diskutert i senere avsnitt av notatene (hvis koblinger er øverst på denne siden), men en forhåndsvisning av noen av typene av nonseasonal ARIMA-modeller som ofte oppstår, er gitt nedenfor. ARIMA (1,0,0) førstegangs autoregressiv modell: Hvis serien er stasjonær og autokorrelert, kan den kanskje forutsies som et flertall av sin egen tidligere verdi, pluss en konstant. Forutsigelsesligningen i dette tilfellet er 8230 som er Y regressert i seg selv forsinket med en periode. Dette er en 8220ARIMA (1,0,0) constant8221 modell. Hvis gjennomsnittet av Y er null, vil ikke det konstante begrepet bli inkludert. Hvis hellingskoeffisienten 981 1 er positiv og mindre enn 1 i størrelsesorden (den må være mindre enn 1 i størrelsesorden dersom Y er stasjonær), beskriver modellen gjennomsnittsreferanseadferd hvor neste periode8217s verdi skal anslås å være 981 1 ganger som langt unna gjennomsnittet som denne perioden8217s verdi. Hvis 981 1 er negativ, forutser det middelreferanseadferd med skifting av tegn, dvs. det forutsier også at Y vil være under gjennomsnittlig neste periode hvis den er over gjennomsnittet denne perioden. I en andre-ordregivende autoregressiv modell (ARIMA (2,0,0)), ville det være et Y t-2 begrep til høyre også, og så videre. Avhengig av tegnene og størrelsene på koeffisientene, kunne en ARIMA (2,0,0) modell beskrive et system hvis gjennomsnitts reversering foregår i sinusformet oscillerende mote, som bevegelse av en masse på en fjær som er utsatt for tilfeldige støt . ARIMA (0,1,0) tilfeldig tur: Hvis serien Y ikke er stasjonær, er den enkleste modellen for den en tilfeldig turmodell, som kan betraktes som et begrensende tilfelle av en AR (1) modell der autoregressive koeffisienten er lik 1, det vil si en serie med uendelig sakte gjennomsnittlig reversering. Forutsigelsesligningen for denne modellen kan skrives som: hvor den konstante sikt er den gjennomsnittlige perioden til periode-endringen (dvs. den langsiktige driften) i Y. Denne modellen kan monteres som en ikke-avskjæringsregresjonsmodell der Første forskjell på Y er den avhengige variabelen. Siden den inneholder (bare) en ikke-soneforskjell og en konstant periode, er den klassifisert som en quotARIMA (0,1,0) modell med constant. quot. Den tilfeldig-walk-uten-drift-modellen ville være en ARIMA (0,1, 0) modell uten konstant ARIMA (1,1,0) forskjellig førsteordens autoregressiv modell: Hvis feilene i en tilfeldig turmodell er autokorrelert, kan problemet løses ved å legge til et lag av den avhengige variabelen til prediksjonsligningen - - dvs ved å regresse den første forskjellen på Y i seg selv forsinket med en periode. Dette vil gi følgende prediksjonsligning: som kan omarrangeres til Dette er en førsteordens autoregressiv modell med en rekkefølge av ikke-soneforskjeller og en konstant term, dvs. en ARIMA (1,1,0) modell. ARIMA (0,1,1) uten konstant enkel eksponensiell utjevning: En annen strategi for korrigering av autokorrelerte feil i en tilfeldig gangmodell er foreslått av den enkle eksponensielle utjevningsmodellen. Husk at for noen ikke-stationære tidsserier (for eksempel de som viser støyende svingninger rundt et sakte varierende gjennomsnitt), utfører ikke den tilfeldige turmodellen så vel som et glidende gjennomsnittsverdier av tidligere verdier. Med andre ord, i stedet for å ta den nyeste observasjonen som prognosen for neste observasjon, er det bedre å bruke et gjennomsnitt av de siste observasjonene for å filtrere ut støy og mer nøyaktig anslå det lokale gjennomsnittet. Den enkle eksponensielle utjevningsmodellen bruker et eksponentielt vektet glidende gjennomsnitt av tidligere verdier for å oppnå denne effekten. Forutsigelsesligningen for den enkle eksponensielle utjevningsmodellen kan skrives i en rekke matematisk ekvivalente former. hvorav den ene er den såkalte 8220error correction8221 skjemaet, der den forrige prognosen er justert i retning av feilen den gjorde: Fordi e t-1 Y t-1 - 374 t-1 per definisjon kan dette omskrives som : som er en ARIMA (0,1,1) - out-konstant prognosekvasjon med 952 1 1 - 945. Dette betyr at du kan passe en enkel eksponensiell utjevning ved å angi den som en ARIMA (0,1,1) modell uten konstant, og den estimerte MA (1) - koeffisienten tilsvarer 1-minus-alfa i SES-formelen. Husk at i SES-modellen er gjennomsnittsalderen for dataene i 1-periode fremover prognosene 1 945. Det betyr at de vil ha en tendens til å ligge bak trender eller vendepunkter med ca 1 945 perioder. Det følger at gjennomsnittlig alder av dataene i 1-periode fremover prognosene for en ARIMA (0,1,1) uten konstant modell er 1 (1 - 952 1). For eksempel, hvis 952 1 0,8 er gjennomsnittsalderen 5. Når 952 1 nærmer seg 1, blir ARIMA (0,1,1) uten konstant modell et veldig langsiktig glidende gjennomsnitt og som 952 1 nærmer seg 0 blir det en tilfeldig tur uten drivmodell. What8217s den beste måten å korrigere for autokorrelasjon: legge til AR-vilkår eller legge til MA-vilkår I de to foregående modellene ble problemet med autokorrelerte feil i en tilfeldig turmodell løst på to forskjellige måter: ved å legge til en forsinket verdi av differensierte serier til ligningen eller legge til en forsinket verdi av prognosen feil. Hvilken tilnærming er best En tommelfingerregel for denne situasjonen, som vil bli nærmere omtalt senere, er at positiv autokorrelasjon vanligvis behandles best ved å legge til et AR-uttrykk for modellen og negativ autokorrelasjon vanligvis behandles best ved å legge til en MA term. I forretnings - og økonomiske tidsserier oppstår negativ autokorrelasjon ofte som en artefakt av differensiering. (Generelt reduserer differensiering positiv autokorrelasjon og kan til og med føre til en bryter fra positiv til negativ autokorrelasjon.) Så, ARIMA (0,1,1) modellen, der differensiering er ledsaget av en MA-term, brukes hyppigere enn en ARIMA (1,1,0) modell. ARIMA (0,1,1) med konstant enkel eksponensiell utjevning med vekst: Ved å implementere SES-modellen som en ARIMA-modell, får du faktisk en viss fleksibilitet. Først og fremst er estimert MA (1) - koeffisient tillatt å være negativ. Dette tilsvarer en utjevningsfaktor som er større enn 1 i en SES-modell, som vanligvis ikke er tillatt i SES-modellprosedyren. For det andre har du muligheten til å inkludere en konstant periode i ARIMA-modellen hvis du ønsker det, for å estimere en gjennomsnittlig ikke-null trend. ARIMA-modellen (0,1,1) med konstant har prediksjonsligningen: Forventningene for en periode fremover fra denne modellen er kvalitativt lik SES-modellen, bortsett fra at bane av de langsiktige prognosene vanligvis er en skrånende linje (hvis skråning er lik mu) i stedet for en horisontal linje. ARIMA (0,2,1) eller (0,2,2) uten konstant lineær eksponensiell utjevning: Linjære eksponentielle utjevningsmodeller er ARIMA-modeller som bruker to ikke-soneforskjeller i sammenheng med MA-termer. Den andre forskjellen i en serie Y er ikke bare forskjellen mellom Y og seg selv forsinket av to perioder, men det er den første forskjellen i den første forskjellen - dvs. Y-endringen i Y i periode t. Således er den andre forskjellen på Y ved periode t lik (Y t - Y t-1) - (Y t-1 - Y t-2) Y t - 2Y t-1 Y t-2. En annen forskjell på en diskret funksjon er analog med et andre derivat av en kontinuerlig funksjon: den måler kvoteringsberegningsquot eller kvoturvitaquot i funksjonen på et gitt tidspunkt. ARIMA-modellen (0,2,2) uten konstant forutser at den andre forskjellen i serien er lik en lineær funksjon av de to siste prognosefeilene: som kan omarrangeres som: hvor 952 1 og 952 2 er MA (1) og MA (2) koeffisienter. Dette er en generell lineær eksponensiell utjevningsmodell. i hovedsak det samme som Holt8217s modell, og Brown8217s modell er et spesielt tilfelle. Den bruker eksponensielt vektede glidende gjennomsnitt for å anslå både et lokalt nivå og en lokal trend i serien. De langsiktige prognosene fra denne modellen konvergerer til en rett linje hvis skråning avhenger av den gjennomsnittlige trenden observert mot slutten av serien. ARIMA (1,1,2) uten konstant fuktet trend lineær eksponensiell utjevning. Denne modellen er illustrert i de tilhørende lysbildene på ARIMA-modellene. Den ekstrapolerer den lokale trenden i slutten av serien, men flater ut på lengre prognoshorisonter for å introdusere et konservatismedokument, en praksis som har empirisk støtte. Se artikkelen om hvorfor Damped Trend worksquot av Gardner og McKenzie og quotgolden Rulequot-artikkelen av Armstrong et al. for detaljer. Det er generelt tilrådelig å holde fast i modeller der minst en av p og q ikke er større enn 1, dvs. ikke prøv å passe på en modell som ARIMA (2,1,2), da dette sannsynligvis vil føre til overfitting og kvadrat-faktorquot problemer som er omtalt nærmere i notatene om den matematiske strukturen til ARIMA-modellene. Implementering av regneark: ARIMA-modeller som de som er beskrevet ovenfor, er enkle å implementere på et regneark. Forutsigelsesligningen er bare en lineær ligning som refererer til tidligere verdier av originale tidsserier og tidligere verdier av feilene. Dermed kan du sette opp et ARIMA prognose regneark ved å lagre dataene i kolonne A, prognoseformelen i kolonne B, og feilene (data minus prognoser) i kolonne C. Forutsigelsesformelen i en typisk celle i kolonne B ville ganske enkelt være et lineært uttrykk som refererer til verdier i forrige rader av kolonner A og C, multiplisert med de relevante AR - eller MA-koeffisientene lagret i celler andre steder på regnearket.

No comments:

Post a Comment