Monday 23 October 2017

Sentrert Bevegelig Gjennomsnitt Ligning


Når du beregner et løpende bevegelig gjennomsnitt, er gjennomsnittet i midtperioden fornuftig. I forrige eksempel beregner vi gjennomsnittet av de første 3 tidsperiodene og plasserte det ved siden av periode 3. Vi kunne ha plassert gjennomsnittet midt i tidsintervall på tre perioder, det vil si ved siden av periode 2. Dette fungerer bra med ulike tidsperioder, men ikke så bra for jevne tidsperioder. Så hvor skulle vi plassere det første glidende gjennomsnittet når M 4 Teknisk sett ville det bevegelige gjennomsnittet falle på t 2,5, 3,5. For å unngå dette problemet, slipper vi MAs ved hjelp av M 2. Dermed glatter vi de jevne verdiene. Hvis vi gjennomsnittlig et jevnt antall termer, må vi glatte de jevne verdiene. Følgende tabell viser resultatene ved å bruke M 4.David, Yes, MapReduce er ment å operere på en stor mengde data. Og ideen er at generelt, kartet og redusere funksjoner shouldn39t bry deg hvor mange mappers eller hvor mange reduksjonsmaskiner det er, det er bare optimalisering. Hvis du tenker nøye på algoritmen jeg postet, kan du se at det ikke betyr noe hvilken mapper får hvilke deler av dataene. Hver inngangspost vil være tilgjengelig for alle reduksjoner som krever det. ndash Joe K Sep 18 12 kl 22:30 I beste av min forståelse er glidende gjennomsnitt ikke pent kart til MapReduce-paradigmet siden beregningen er i hovedsak skyvevindu over sorterte data, mens MR behandler ikke-kryssede områder av sorterte data. Løsningen ser jeg som følger: a) Å implementere tilpasset partisjoner for å kunne lage to forskjellige partisjoner i to løp. I hvert løp vil reduksjonene dine få forskjellige dataområder og beregne glidende gjennomsnitt hvor passende jeg vil prøve å illustrere: I første omgang skal data for reduksjonsapparater være: R1: Q1, Q2, Q3, Q4 R2: Q5, Q6, Q7, Q8 . her vil du cacluate glidende gjennomsnitt for noen Qs. I neste runde bør reduksjonsapparatene få data som: R1: Q1. Q6 R2: Q6. Q10 R3: Q10..Q14 Og caclulate resten av bevegelige gjennomsnitt. Deretter må du samle resultater. Ideen til tilpasset partisjoner at den vil ha to driftsformer - hver gang å dele inn i like rekkevidde, men med litt skift. I en pseudokode vil det se slik ut. partisjon (keySHIFT) (MAXKEYnumOfPartitions) der: SHIFT vil bli tatt fra konfigurasjonen. MAXKEY maksimum verdi av nøkkelen. Jeg antar for enkelhet at de starter med null. RecordReader, IMHO er ikke en løsning siden den er begrenset til spesifikk splitt og kan ikke glide over splitsgrense. En annen løsning ville være å implementere egendefinert logikk for å dele inndataene (det er en del av InputFormat). Det kan gjøres å gjøre 2 forskjellige lysbilder, ligner på partisjonering. besvart 17. september kl 8: 59Predictive Analytics med Microsoft Excel: Arbeide med sesongbasert tidsserie i dette kapittelet Enkle sesongmessige gjennomsnitt Gjennomsnittlig og sentrert flytende gjennomsnitt Linjær regresjon med kodede vektorer Enkel sesongmessig eksponentiell utjevning Holt-Winters Modeller Materiell blir gradvis mer kompliserte når du ha en tidsserie som8217 er preget av sesongmessighet: tendensen til nivået å stige og falle i samsvar med årstiden. Vi bruker begrepet sesong i en mer generell forstand enn den daglige betydningen av året8217s fire årstider. I sammenheng med prediktiv analyse kan en sesong være en dag hvis mønstre gjentas hver uke, eller et år når det gjelder presidentvalget, eller omtrent alt i mellom. En åtte-timers skift på et sykehus kan representere en sesong. Dette kapittelet tar en titt på hvordan å dekomponere en tidsserier slik at du kan se hvordan sesongens virkelighet virker bortsett fra trenden (hvis noen). Som du kanskje forventer av materialet i kapittel 3 og 4, er det flere tilnærminger tilgjengelig for deg. Enkle sesongmessige gjennomsnitt Bruk av enkle sesongmessige gjennomsnitt for å modellere en tidsserie kan noen ganger gi deg en ganske rå modell for dataene. Men tilnærmingen vektlegger årstidene i datasettet, og det kan lett være mye mer nøyaktig som en prognose teknikk enn enkel eksponensiell utjevning når sesongmessigheten er uttalt. Det er absolutt en nyttig introduksjon til noen av prosedyrene som brukes med tidsserier som er både sesongmessige og trendede, så ta en titt på eksemplet i Figur 5.1. Figur 5.1 Med en horisontal modell resulterer enkle gjennomsnitt i prognoser som ikke er mer enn sesongmessige midler. Dataene og diagrammet som vises i Figur 5.1 representerer gjennomsnittlig antall daglige treff på et nettsted som henvender seg til fans av National Football League. Hver observasjon i kolonne D representerer gjennomsnittlig antall treff per dag i hver av fire kvartaler over en femårsperiode. Identifisere et sesongmønster Du kan fortelle fra gjennomsnittene i området G2: G5 at en tydelig kvartalseffekt finner sted. Det største gjennomsnittlige antall treff skjer i løpet av høst og vinter, når de viktigste 16 spillene og sluttspillene er planlagt. Intervall, målt ved gjennomsnittlige daglige treff, avtar i løpet av våren og sommermånedene. Gjennomsnittene er enkle å beregne om du føler deg komfortabel med matriseformler. For å få gjennomsnittet av alle fem forekomster av kvartal 1, kan du for eksempel bruke denne oppsettformelen i celle G2 i figur 5.1: Array-skriv inn den med CtrlShiftEnter. Eller du kan bruke funksjonen AVERAGEIF (), som du kan skrive inn på vanlig måte, trykk Enter-tasten. Generelt foretrekker jeg array-tilnærmingen fordi det gir meg mulighet for større kontroll over de involverte funksjonene og kriteriene. Den kartlagte dataregruppen inneholder datatiketter som viser hvilket kvartal hvert datapunkt tilhører. Diagrammet ekko meldingen til gjennomsnittene i G2: G5: Kvarter 1 og 4 gjentatte ganger får flest treff. Det er klart sesongmessig i dette datasettet. Beregning av sesongbaserte indekser Etter at you8217ve bestemte at en tidsserie har en sesongkomponent, vil du like å kvantifisere størrelsen på effekten. Gjennomsnittene vist i Figur 5.2 representerer hvordan metoden for gjennomsnittlig gjennomsnitt går til den oppgaven. Figur 5.2 Kombiner det store gjennomsnittet med sesongmessige gjennomsnitt for å få sesongindeksene. I figur 5.2. Du får additiv sesongindekser i rekkevidde G10: G13 ved å subtrahere det store gjennomsnittet i celle G7 fra hvert sesongmessig gjennomsnitt i G2: G5. Resultatet er 8220effect8221 av å være i kvartalet 1, det å være i kvartal 2 og så videre. Hvis en gitt måned er i kvartalet 1, forventer du at den skal ha 99,65 mer gjennomsnittlige daglige treff enn det store gjennomsnittet på 140,35 treff per dag. Denne informasjonen gir deg en følelse av hvor viktig det er å være i en bestemt sesong. Anta at du eier det aktuelle nettstedet og du vil selge annonseringsplass på den. Du kan sikkert spørre en høyere pris på annonsører i løpet av første og fjerde kvartal enn under andre og tredje. Mer til det punktet kan du sannsynligvis belaste dobbelt så mye i første kvartal enn i løpet av den andre eller den tredje. Med sesongindeksene i hånden har du også mulighet til å beregne sesongjusteringer. For eksempel, fremdeles i figur 5.2. De sesongjusterte verdiene for hvert kvartal i 2005 vises i G16: G19. De8217re beregnes ved å trekke indeksen fra den tilhørende kvartalsmåling. Tradisjonelt refererer begrepet sesongindeks til økningen eller nedgangen i nivået av en serie som er forbundet med hver sesong. Den synonyme sesongmessige effekten har dukket opp i litteraturen de siste årene. Fordi you8217ll ser begge vilkårene, brukte I8217ve dem begge i denne boken. Det er en liten sak å huske på at de to begrepene har samme betydning. Legg merke til at i det vanlige løpet av hendelsene fra 2001 til 2005, forventer du at andre kvartal8217s resultatene vil ligge bak første kvartal8217s resultater med 133,6 (det vil si 99,65 minus 821133,95). Men i både 2004 og 2005 overstiger de sesongjusterte resultatene for andre kvartal for første kvartal. Det utfallet vil kanskje be deg om å spørre hva som har endret seg i de siste to årene som reverserer forholdet mellom de sesongjusterte resultatene for de to første kvartalene. (Jeg følger ikke med dette spørsmålet. Jeg tar opp det for å tyde på at du ofte vil se på både de observerte og sesongjusterte tallene.) Prognoser fra enkle sesongmessige gjennomsnitt: Ingen trend Selv om metoden for enkle gjennomsnitt er 8212, sa jeg tidligere, kan det være mye mer nøyaktig enn det mer sofistikerte alternativet for eksponensiell utjevning, spesielt når sesongvirkningen er uttalt og pålitelig. Når tidsseriene er ustrakte, som det er tilfelle med eksemplet som denne delen har diskutert, er de enkle sesongprognosene ikke noe mer enn sesongens gjennomsnitt. Når serien ikke trender enten opp eller ned, er ditt beste estimat av verdien for neste sesong det årstidets historiske gjennomsnitt. Se figur 5.3. Figur 5.3 Kombiner det store gjennomsnittet med sesongmessige gjennomsnitt for å få sesongindeksene. I diagrammet i Figur 5.3. den stiplede linjen representerer prognosene fra enkel utjevning. De to solide linjene representerer de faktiske sesongbaserte observasjonene og sesongmidlene. Legg merke til at sesongmessige gjennomsnitt sporer de faktiske sesongbestemte observasjonene ganske tettere enn de utjevnte prognosene. Du kan se hvor mye nærmere fra de to RMSEene i cellene F23 og H23. RMSE for sesongmessige gjennomsnitt er bare litt mer enn en tredjedel av RMSE for de jevne prognosene. Du kan kritisere det opp til størrelsen på sesongens effekter og deres konsistens: Anta at for eksempel forskjellen mellom gjennomsnittlig første og andre kvartal var 35,0 i stedet for 133,6 (som er forskjellen mellom celler G2 og G3 i figur 5.2). I en utjevningskontekst vil den faktiske verdien for kvartal 1 være en mye bedre prediktor for verdien for kvartal 2 enn det som er tilfelle med denne tidsserien. Og eksponensiell utjevning kan stole tungt på verdien av den nåværende observasjonen for prognosen for neste periode. Hvis utjevningskonstanten er satt til 1,0, løser eksponensiell utjevning til na239ve prognose og prognosen er alltid den samme som tidligere. Det faktum at størrelsen på hver sesongmessig sving er så konsekvent fra kvartal til kvartal, betyr at de enkle sesongmidlene er pålitelige prognoser. Ingen faktisk kvartalsvis observasjon avgår langt fra det samlede sesongmålet. Enkle sesongmessige gjennomsnitt med trend Bruk av enkle sesongmessige gjennomsnitt med en trendserie har noen reelle ulemper, og I8217m fristet til å foreslå at vi ignorerer den og fortsetter til meatier-emner. Men det er mulig at du løper inn i situasjoner der noen har brukt denne metoden, og da har det blitt vondt å vite både hvordan det fungerer og hvorfor det er bedre valg. Enhver metode for å håndtere sesongmessighet i en trendserie må håndtere det grunnleggende problemet med å løsne effekten av trenden fra årstidens. Seasonality har en tendens til å skjule trenden, og omvendt. Se figur 5.4. Figur 5.4 Tilstedeværelsen av trenden kompliserer beregningen av sesongvirkninger. Det faktum at trenden i serien er oppover over tid betyr at bare gjennomsnittlig hver sesong8217s observasjoner, som det var gjort i nei-trend-saken, forveksler den generelle trenden med sesongvariasjonen. Den vanlige ideen er å redegjøre for utviklingen separat fra sesongmessige effekter. Du kan kvantifisere trenden og trekke dens effekt fra de observerte dataene. Resultatet er en untrended serie som beholder sesongvariasjonen. Det kan håndteres på samme måte som jeg illustrert tidligere i dette kapittelet. Beregning av gjennomsnittet for hvert år En måte å forstyrre dataene på (og andre måter vil uansett forekomme for deg) er å beregne trenden basert på årlige gjennomsnitt i stedet for kvartalsdata. Tanken er at det årlige gjennomsnittet er ufølsomt for sesongmessige effekter. Det vil si, dersom du trekker et år8217s ut fra verdien for hvert av sine kvartaler, er summen (og dermed gjennomsnittet) av de fire kvartalseffektene nettopp null. Så en trend beregnet ved hjelp av årlige gjennomsnitt er upåvirket av sesongvarianter. Denne beregningen vises i figur 5.5. Figur 5.5 Denne metoden stiller nå lineær regresjon på enkle gjennomsnitt. Det første trinnet i detrending dataene er å få gjennomsnittlige daglige treff for hvert år. That8217s gjort i området H3: H7 i Figur 5.5. Formelen i celle H3 er for eksempel AVERAGE (D3: D6). Beregning av trenden Basert på årlige midler Med årlige gjennomsnitt i hånd, er du i stand til å beregne deres trend. That8217s klarte å bruke LINEST () i området I3: J7, ved hjelp av denne arrayformelen: Hvis du don8217t leverer x-verdier som det andre argumentet til LINEST (). Excel leverer standard x-verdier for deg. Standardene er rett og slett de påfølgende tallene som begynner med 1 og slutter med antall y-verdier som du ber om i det første argumentet. I dette eksemplet er standard x-verdiene identiske med de som er angitt på regnearket i G3: G7, slik at du kan bruke LINEST (H3: H7. TRUE). Denne formelen bruker to standardverdier, for x-verdiene og konstanten, representert av de tre påfølgende kommaene. Poenget med denne øvelsen er å kvantifisere år-til-år-trenden, og LINEST () gjør det for deg i celle I3. Den cellen inneholder regresjonskoeffisienten for x-verdiene. Multiplanter 106,08 med 1 deretter med 2 deretter med 3, 4 og 5 og legg til hvert resultat intervallet 84,63. Selv om det gir deg årlige prognoser, er det viktige punktet for denne prosedyren verdien av koeffisienten 106.08, som kvantifiserer årlig trend. Trinnet jeg nettopp diskuterte er kilden til mine misgivelser om hele tilnærmingen som denne delen beskriver. Du har vanligvis et lite antall omfatningsperioder8212 i dette eksempelet, som8217s år8212 for å løpe gjennom regresjonen. Resultatene av regresjon8217 er en tendens til å være veldig ustabil når de, som her, er basert på et lite antall observasjoner. Og likevel er denne prosedyren avhengig av disse resultatene tungt for å forstyrre tidsserien. Proraterende trend over årstider Den enkle gjennomsnittsmetoden for å håndtere en trendet sesongbasert serie som denne fortsetter ved å dividere trenden med antall perioder i den overordnede perioden for å få en per-trend. Her er antall perioder per år fire8212we8217re arbeider med kvartalsdata8212 så deler vi 106.08 med 4 for å estimere trenden per kvartal på 26,5. Prosedyren bruker den periodiske trenden ved å trekke den fra det gjennomsnittlige periodiske resultatet. Hensikten er å fjerne effekten av den årlige trenden fra sesongmessige effekter. Først må vi imidlertid beregne gjennomsnittsresultatet over alle fem år for periode 1, for periode 2 og så videre. For å gjøre det, hjelper det å omarrangere listen over faktiske kvartalsresultater, vist i området D3: D22 i Figur 5.5. inn i en matrise på fem år med fire kvartaler, vist i området G11: J15. Legg merke til at verdiene i den matrisen samsvarer med listen i kolonne D. Med dataene ordnet på den måten, er it8217s enkelt å beregne gjennomsnittlig kvartalsverdi over de fem årene i datasettet. That8217s gjort i området G18: J18. Effekten av trenden returnert av LINEST () vises i området G19: J19. Startverdien for hvert år er de observerte gjennomsnittlige daglige treffene for første kvartal, slik at vi ikke foretar justeringer for første kvartal. Én kvart8217s trender, eller 26,5, trekkes fra andre kvartal8217s gjennomsnittlige treff, noe som resulterer i en justert andre kvartalsverdi på 329,9 (se celle H21, figur 5.5). Trenden på to kvartaler8217, 2 215 26,5 eller 53 i celle I19, trekkes fra tredje kvartal8217s gjennomsnitt for å få en justert tredje kvartal verdi på 282,6 i celle I21. Og tilsvarende for fjerde kvartal trekker tre fjerdedeler av trenden fra 454,4 for å få 374,8 i celle J21. Husk at hvis trenden var nede heller enn opp, som i dette eksempelet, ville du legge til den periodiske trendverdien til det observerte periodiske midlet i stedet for å trekke det fra. Konvertere de korrigerte sesongmessige midler til sesongmessige effekter Per logikken med denne metoden er verdiene vist i rad 20821121 i figur 5.5, gjennomsnittlige kvartalsresultater for hver av fire kvartaler, med effekten av den generelle oppadgående trenden i datasettet fjernet. (Rader 20 og 21 er fusjonert i kolonne G til J.) Med sin trend ut av veien, kan vi konvertere disse tallene til estimater av sesongmessige effekter. Resultatet av å være i første kvartal, i andre kvartal, og så videre. For å få disse effektene, start med å beregne det store gjennomsnittet av de korrigerte kvartalsmidler. Det justerte store gjennomsnittet vises i celle I23. Analysen fortsetter i figur 5.6. Figur 5.6 Kvartalseffekter, eller indekser, brukes til å desalasonalisere de observerte kvartalsnivåene. Figur 5.6 gjentar kvartalsjusteringene og den justerte storsekvensen fra bunnen av figur 5.5. De er kombinert for å bestemme kvartalsindeksene (som du også kan tenke på som sesongmessige effekter). For eksempel er formelen i celle D8 som følger: Den returnerer 821133.2. At8217 er effekten av å være i andre kvartal, vis-224-vis det store gjennomsnittet: Med hensyn til det store gjennomsnittet, kan vi forvente et resultat som tilhører andre kvartal, å falle under det store gjennomsnittet med 33,2 enheter. Bruke sesongmessige effekter på de observerte kvartalsnivåene For å omtale: Så langt har we8217ve kvantifisert den årlige trenden i dataene via regresjon og delt den trenden med 4 for å prorere den til en kvartalsverdi. Plukkes opp i figur 5.6. Vi justerte gjennomsnittet for hvert kvartal (i C3: F3) ved å subtrahere de forløpte trendene i C4: F4. Resultatet er et avgrenset estimat av gjennomsnittet for hvert kvartal, uansett år hvor kvartalet foregår, i C5: F5. Vi subtraherte den justerte stormen, i celle G5, fra den korrigerte kvartalsmåten i C5: F5. Det omregner hvert kvartal8217s til et mål på effekten av hvert kvartal i forhold til den justerte grunneverdien. Det er sesongens indekser eller effekter i C8: F8. Deretter fjerner vi sesongmessige effekter fra de observerte kvartalsnivåene. Som vist i figur 5.6. det gjør du ved å trekke kvartalsindeksene i C8: F8 fra de tilsvarende verdiene i C12: F16. Og den enkleste måten å gjøre det på er å skrive inn denne formelen i celle C20: Merk det eneste dollarteegnet før 8 i referansen til C8. That8217 er en blandet referanse: delvis relativ og delvis absolutt. Dollarsignalet forankrer referansen til åttende rad, men kolonnedelen av referansen kan variere. Derfor, etter at sistnevnte formel er angitt i celle C20, kan du klikke på cell8217s utvalgshåndtak (det lille firkanten i det nedre høyre hjørnet av en valgt celle) og dra til høyre i celle F20. Adressene justeres når du drar til høyre og du slutter med verdiene, med de sesongmessige effektene fjernet, for år 2001 i C20: F20. Velg det området på fire celler og bruk det multiple selection8217s håndtaket, nå i F20, for å dra ned i rad 24. Slik fyller du resten av matrisen. Det er viktig å huske på at vi skal justere de opprinnelige kvartalsverdiene for sesongmessige effekter. Uansett hvilken trend som eksisterte i de opprinnelige verdiene, er det fortsatt, og 8282 i teorien, det er minst 8212 der etter at we8217ve har gjort justeringer for sesongmessige effekter. Vi har fjernet en trend, ja, men bare fra sesongens effekter. Således, når vi trekker bort (avgrensede) sesongvirkninger fra de opprinnelige kvartalsvise observasjonene, er resultatet de opprinnelige observasjonene med trenden, men uten sesongmessige effekter. Jeg har kartlagt de sesongjusterte verdiene i Figur 5.6. Sammenligne diagrammet til diagrammet i figur 5.4. Legg merke til i figur 5.6 at selv om desesasonaliserte verdier ikke ligger nøyaktig på en rett linje, har mye av sesongvirkningen blitt fjernet. Regressere de Deseasonalized Quarterlies på tidsperioder. Det neste trinnet er å lage prognoser fra sesongjusterte, trenddataene i Figur 5.6. celler C20: F24, og på dette punktet har du flere alternativer tilgjengelig. Du kan bruke differensieringsmetoden kombinert med enkel eksponensiell utjevning som ble omtalt i kapittel 3, 8220Working med Trended Time Series.8221 Du kan også bruke Holt8217s tilnærming til utjevning av trendserier, diskutert i både kapittel 3 og kapittel 4, 8220Initialisering av prognoser.8221 Begge Metoder gir deg mulighet til å skape en en-trinns prognose, som du vil legge til den tilsvarende sesongbestemte indeksen. En annen tilnærming, som I8217ll bruker her, setter først trenderne gjennom en annen forekomst av lineær regresjon og legger deretter til sesongindeksen. Se figur 5.7. Figur 5.7 Den første sanne prognosen er i rad 25. Figur 5.7 returnerer desesasonalized kvartalsmidler fra tabellarrangementet i C20: F24 i Figur 5.6 til listearrangementet i området C5: C24 på figur 5.7. Vi kunne bruke LINEST () sammen med dataene i B5: C24 i Figur 5.7 for å beregne regresjonsligningen8217s avskjæring og koeffisient, da kunne vi multiplisere koeffisienten med hver verdi i kolonne B og legge til avskjæringen for hvert produkt for å skape prognosene i kolonne D. Men selv om LINEST () returnerer nyttig informasjon annet enn koeffisienten og avskjærer, er TREND () en raskere måte å få prognosene på, og jeg bruker den i figur 5.7. Omfanget D5: D24 inneholder prognosene som følge av å regresse de desasonale kvartalsstallene i C5: C24 på perioden i B5: B24. Matriseformelen som brukes i D5: D24 er dette: Det settet av resultater gjenspeiler effekten av den generelle oppadgående trenden i tidsseriene. Fordi de verdiene TREND () forutsier fra, er desesasonalized, gjenstår det å legge til sesongmessige effekter, også kjent som sesongindekser, tilbake til den trendige prognosen. Legge til sesongindeksene tilbake i sesongindeksene, beregnet i figur 5.6. er gitt i figur 5.7. først i området C2: F2 og deretter gjentatte ganger i området E5: E8, E9: E12, og så videre. De resesasonaliserte prognosene er plassert i F5: F24 ved å legge til sesongmessige effekter i kolonne E til trendprognosene i kolonne D. For å få en-trinns prognosen i celle F25 i figur 5.7. verdien av t for neste periode går inn i celle B25. Følgende formel er oppgitt i celle D25: Den instruerer Excel til å beregne regresjonsligningen som prognoser verdier i området C5: C24 fra de i B5: B24, og bruk den ligningen til den nye x-verdien i celle B25. Den riktige sesongindeksen er plassert i celle E25, og summen av D25 og E25 er plassert i F25 som den første ekte prognosen for trender og sesongmessige tidsserier. You8217ll finner hele settet av desesasonalized quarterlies og prognosene kartlagt i Figur 5.8. Figur 5.8 De sesongmessige effektene returneres til prognosene. Evaluering av enkle gjennomsnitt Tilnærmingen til å håndtere en sesongmessig tidsserie, diskutert i flere tidligere seksjoner, har noen intuitiv appell. Den grunnleggende ideen virker rettferdig: Beregn en årlig trend ved å regresse årlige midler mot et mål på tidsperioder. Del den årlige trenden mellom perioder i løpet av året. Trekk den fordelte trenden fra de periodiske effektene for å få justerte effekter. Trekk de justerte effektene fra de faktiske tiltakene for å deseasonalisere tidsseriene. Lag prognoser fra desesasonalized serien, og legg til de justerte sesongvirkningen tilbake. Min egen oppfatning er at flere problemer svekker tilnærmingen, og jeg ville ikke ha tatt med den i denne boken, bortsett fra at du sannsynligvis vil støte på det, og derfor burde være kjent med det. Og det gir et nyttig springbrett for å diskutere noe konsept og prosedyrer som finnes i andre, sterkere tilnærminger. Først er det spørsmålet (som jeg klaget tidligere i dette kapittelet) om den svært små prøvestørrelsen for regresjon av årlige midler på påfølgende heltal som identifiserer hvert år. Selv med bare en prediktor, så få som 10 observasjoner, skraper virkelig bunnen av fatet. I det minste bør du se på den resulterende R2 som er justert for krymping, og sannsynligvis beregne standardfeilen for estimatet tilsvarende. Det er sant at jo sterkere korrelasjonen i befolkningen, jo mindre er prøven du kan komme unna med. Men arbeider med kvartaler i løpet av årene, er du heldig å finne så mange som 10 år8217 verdt av kvartalsvise observasjoner, hver målt på samme måte over det tidsrommet. I8217m overtalte ikke at svaret på det problematiske opp-og ned-mønsteret du finner innen et år (se diagrammet i figur 5.4) er å gjennomsnittlig ut toppene og dalene og få et trendestimat fra årlige midler. Det er sikkert et svar på det problemet, men som du ser, er det en mye sterkere metode for å adskille de sesongmessige effektene fra en underliggende trend, som regner med dem begge, og prognoser tilsvarende. I8217ll dekker denne metoden senere i dette kapittelet, i delen 8220Lineear Regression with Coded Vectors8221. Videre er det ingen grunnlag i teorien om å distribuere den årlige trenden jevnt mellom perioder som komponerer året. Det er sant at lineær regresjon gjør noe lignende når det plasserer prognosene på en rett linje. Men det er en stor kløft mellom å gjøre en grunnleggende forutsetning fordi den analytiske modellen kan ellers håndtere dataene, og akseptere et feilresultat hvis feilene i disse prognosene8212 kan måles og evalueres. Når det er sagt, går let8217s videre til bruk av bevegelige gjennomsnitt i stedet for enkle gjennomsnitt som en måte å håndtere sesongmessighet på.

No comments:

Post a Comment