Die ARIMA-Modelle sind in der Theorie die allgemeinste Klasse von Modellen für die Prognose einer Zeitreihe, die durch Differenzierung (falls nötig) vielleicht 8220 stationär gemacht werden kann8221. ARIMA (p, d, q) In Verbindung mit nichtlinearen Transformationen, wie zB Protokollierung oder Abscheidung (falls erforderlich). Eine Zufallsvariable, die eine Zeitreihe ist, ist stationär, wenn ihre statistischen Eigenschaften alle über die Zeit konstant sind. Eine stationäre Reihe hat keinen Trend, ihre Variationen um ihren Mittelwert haben eine konstante Amplitude, und sie wackelt in einer konsistenten Weise. D. h. seine kurzzeitigen Zufallszeitmuster sehen immer im statistischen Sinne gleich aus. Die letztgenannte Bedingung bedeutet, daß ihre Autokorrelationen (Korrelationen mit ihren eigenen vorherigen Abweichungen vom Mittelwert) über die Zeit konstant bleiben oder daß ihr Leistungsspektrum über die Zeit konstant bleibt. Eine zufällige Variable dieser Form kann (wie üblich) als eine Kombination von Signal und Rauschen betrachtet werden, und das Signal (wenn eines offensichtlich ist) könnte ein Muster einer schnellen oder langsamen mittleren Reversion oder einer sinusförmigen Oszillation oder eines schnellen Wechsels im Vorzeichen sein , Und es könnte auch eine saisonale Komponente. Ein ARIMA-Modell kann als ein 8220filter8221 betrachtet werden, der versucht, das Signal vom Rauschen zu trennen, und das Signal wird dann in die Zukunft extrapoliert, um Prognosen zu erhalten. Die ARIMA-Vorhersagegleichung für eine stationäre Zeitreihe ist eine lineare Gleichung (d. H. Regressionstyp), bei der die Prädiktoren aus Verzögerungen der abhängigen Variablen und oder Verzögerungen der Prognosefehler bestehen. Das heißt: Vorhergesagter Wert von Y eine Konstante undeine gewichtete Summe aus einem oder mehreren neuen Werten von Y und einer gewichteten Summe aus einem oder mehreren neuen Werten der Fehler. Wenn die Prädiktoren nur aus verzögerten Werten von Y bestehen, handelt es sich um ein reines autoregressives Modell (8220 selbst-regressed8221), das nur ein Spezialfall eines Regressionsmodells ist und mit einer Standard-Regressions-Software ausgestattet werden kann. Beispielsweise ist ein autoregressives Modell erster Ordnung (8220AR (1) 8221) für Y ein einfaches Regressionsmodell, bei dem die unabhängige Variable nur um eine Periode (LAG (Y, 1) in Statgraphics oder YLAG1 in RegressIt) verzögert ist. Wenn einige der Prädiktoren Verzögerungen der Fehler sind, handelt es sich bei einem ARIMA-Modell nicht um ein lineares Regressionsmodell, da es keine Möglichkeit gibt, 8220last period8217s error8221 als eine unabhängige Variable festzulegen: Die Fehler müssen auf einer Periodenperiode berechnet werden Wenn das Modell an die Daten angepasst ist. Aus technischer Sicht ist das Problem der Verwendung von verzögerten Fehlern als Prädiktoren, dass die Vorhersagen von model8217s keine linearen Funktionen der Koeffizienten sind. Obwohl es sich um lineare Funktionen der vergangenen Daten handelt. Daher müssen Koeffizienten in ARIMA-Modellen, die verzögerte Fehler enthalten, durch nichtlineare Optimierungsmethoden (8220hill-climbing8221) abgeschätzt werden, anstatt nur ein Gleichungssystem zu lösen. Das Akronym ARIMA steht für Auto-Regressive Integrated Moving Average. Verzögerungen der stationären Reihe in der Prognose-Gleichung werden als autoregressiveQuot-Terme bezeichnet, die Verzögerungen der Prognosefehler werden als mittlere mittlere quot-Terme bezeichnet, und eine Zeitreihe, die differenziert werden muß, um stationär gemacht zu werden, wird als eine integrierte quotierte Version einer stationären Reihe bezeichnet. Random-walk und random-trend Modelle, autoregressive Modelle und exponentielle Glättungsmodelle sind alle Sonderfälle von ARIMA Modellen. Ein nicht seasonales ARIMA-Modell wird als ein quotarIMA-Modell (p, d, q) klassifiziert, wobei p die Anzahl der autoregressiven Terme ist, d die Anzahl der für die Stationarität benötigten Nicht-Seasonal-Differenzen und q die Anzahl der verzögerten Prognosefehler ist Die Vorhersagegleichung. Die Vorhersagegleichung ist wie folgt aufgebaut. Zuerst bezeichne y die d - te Differenz von Y. Das bedeutet, daß die zweite Differenz von Y (der Fall d2) nicht die Differenz von 2 Perioden ist. Es ist vielmehr die erste Differenz der ersten Differenz. Was das diskrete Analogon einer zweiten Ableitung ist, d. h. die lokale Beschleunigung der Reihe anstatt ihres lokalen Takts. In Bezug auf y. Ist die allgemeine Prognose-Gleichung: Hier sind die gleitenden Durchschnittsparameter (9528217s) so definiert, daß ihre Vorzeichen in der Gleichung negativ sind, und zwar nach der Konvention von Box und Jenkins. Einige Autoren und Software (einschließlich der Programmiersprache R) definieren sie so, dass sie stattdessen Pluszeichen haben. Wenn tatsächliche Zahlen in die Gleichung gesteckt werden, gibt es keine Mehrdeutigkeit, aber es ist wichtig zu wissen, welche Konvention Ihre Software verwendet, wenn Sie die Ausgabe lesen. Oft werden dort die Parameter mit AR (1), AR (2), 8230 und MA (1), MA (2), 8230 usw. bezeichnet. Um das entsprechende ARIMA-Modell für Y zu identifizieren, beginnt man die Reihenfolge der Differenzierung zu bestimmen (D) Notwendigkeit, die Serie zu stationarisieren und die Brutto-Merkmale der Saisonalität zu entfernen, möglicherweise in Verbindung mit einer variationsstabilisierenden Transformation, wie z. B. Protokollierung oder Entleerung. Wenn Sie an diesem Punkt anhalten und voraussagen, dass die differenzierten Serien konstant sind, haben Sie lediglich ein zufälliges oder zufälliges Trendmodell angebracht. Die stationäre Reihe kann jedoch weiterhin autokorrelierte Fehler aufweisen, was nahe legt, daß in der Vorhersagegleichung auch einige Anzahl von AR-Terme (p 8805 1) und einige MA-MA-Terme (q 8805 1) benötigt werden. Der Prozess der Bestimmung der Werte von p, d und q, die für eine gegebene Zeitreihe am besten sind, werden in späteren Abschnitten der Notizen (deren Links oben auf dieser Seite sind), aber eine Vorschau von einigen der Typen erörtert Von nicht-saisonalen ARIMA-Modellen, die üblicherweise angetroffen werden, ist unten angegeben. ARIMA (1,0,0) erstes autoregressives Modell: Wenn die Serie stationär und autokorreliert ist, kann sie vielleicht als ein Vielfaches ihres eigenen vorherigen Wertes plus einer Konstante vorhergesagt werden. Die Prognose-Gleichung ist in diesem Fall 8230, die Y auf sich selbst zurückgeblieben um eine Periode zurückgeblieben ist. Dies ist ein 8220ARIMA (1,0,0) constant8221 Modell. Wenn der Mittelwert von Y Null ist, dann würde der konstante Term nicht eingeschlossen werden. Wenn der Steigungskoeffizient 981 & sub1; positiv und kleiner als 1 in der Grße ist (er muß kleiner als 1 in der Grße sein, wenn Y stationär ist), beschreibt das Modell ein Mittelrücksetzverhalten, bei dem der nächste Periodenblockwert 981 1 mal als vorhergesagt werden sollte Weit weg vom Durchschnitt, wie dieser Zeitraum8217s Wert. Wenn 981 & sub1; negativ ist, prognostiziert es ein Mittelwert-Wiederherstellungsverhalten mit einer Veränderung von Vorzeichen, d. h. es sagt auch voraus, daß Y unterhalb der mittleren nächsten Periode liegt, wenn sie über dem Mittel dieser Periode liegt. In einem autoregressiven Modell zweiter Ordnung (ARIMA (2,0,0)), würde es auch einen Yt-2-Term auf der rechten Seite geben, und so weiter. Abhängig von den Zeichen und Größen der Koeffizienten kann ein ARIMA (2,0,0) - Modell ein System beschreiben, dessen mittlere Reversion sinusförmig oszillierend erfolgt, wie die Bewegung einer Masse auf einer Feder, die zufälligen Schocks ausgesetzt ist . ARIMA (0,1,0) zufälliger Weg: Wenn die Reihe Y nicht stationär ist, ist das einfachste mögliche Modell ein zufälliges Wandermodell, das als Begrenzungsfall eines AR (1) - Modells betrachtet werden kann, in dem die autoregressive Koeffizient ist gleich 1, dh eine Reihe mit unendlich langsamer mittlerer Reversion. Die Vorhersagegleichung für dieses Modell kann folgendermaßen geschrieben werden: wobei der konstante Term die mittlere Periodenperiodenänderung (dh die Langzeitdrift) in Y ist. Dieses Modell könnte als ein No-Intercept-Regressionsmodell angepasst werden, in dem die Die erste Differenz von Y ist die abhängige Variable. Da es nur einen nicht sonderbaren Unterschied und einen konstanten Term enthält, wird er als quotarima (0,1,0) - Modell mit constant. quot klassifiziert. Das random-walk-ohne - driftmodell wäre ein ARIMA (0,1, 0) - Modell ohne konstantes ARIMA (1,1,0) differenziertes autoregressives Modell erster Ordnung: Wenn die Fehler eines Zufallswegmodells autokorreliert werden, kann das Problem möglicherweise durch Hinzufügen einer Verzögerung der abhängigen Variablen zu der Vorhersagegleichung - - ie Durch Rückgang der ersten Differenz von Y auf sich selbst verzögert um eine Periode. Dies würde die folgende Vorhersagegleichung ergeben, die umgeordnet werden kann: Dies ist ein autoregressives Modell erster Ordnung mit einer Ordnung der Nichtsaisonaldifferenzierung und einem konstanten Term - d. e. Ein ARIMA (1,1,0) - Modell. ARIMA (0,1,1) ohne konstante einfache exponentielle Glättung: Eine weitere Strategie zur Korrektur autokorrelierter Fehler in einem Random-Walk-Modell wird durch das einfache exponentielle Glättungsmodell vorgeschlagen. Es sei daran erinnert, dass für einige nichtstationäre Zeitreihen (z. B. diejenigen, die geräuschschwankungen um einen langsam variierenden Mittelwert aufweisen) das Zufallswegmodell nicht ebenso gut funktioniert wie ein gleitender Durchschnitt von vergangenen Werten. Mit anderen Worten, anstatt die letzte Beobachtung als Prognose der nächsten Beobachtung zu nehmen, ist es besser, einen Durchschnitt der letzten Beobachtungen zu verwenden, um das Rauschen herauszufiltern und das lokale Mittel genauer zu schätzen. Das einfache exponentielle Glättungsmodell verwendet einen exponentiell gewichteten gleitenden Durchschnitt vergangener Werte, um diesen Effekt zu erzielen. Die Vorhersagegleichung für das einfache exponentielle Glättungsmodell kann in einer Anzahl mathematisch äquivalenter Formen geschrieben werden. Von denen eine die sogenannte 8220-Fehlerkorrektur8221-Form ist, in der die vorhergehende Prognose in der Richtung ihres Fehlers angepasst wird: Weil e t-1 Y t-1 - 374 t-1 per Definition umgeschrieben werden kann : Es handelt sich um eine ARIMA (0,1,1) - konstante Vorhersagegleichung mit 952 1 1 - 945. Dies bedeutet, dass Sie eine einfache exponentielle Glättung durch Angabe als ARIMA (0,1,1) - Modell ohne passen Konstant und der geschätzte MA (1) - Koeffizient entspricht 1-minus-alpha in der SES-Formel. Denken Sie daran, dass im SES-Modell das Durchschnittsalter der Daten in den 1-Periodenprognosen 1 945 beträgt, was bedeutet, dass sie tendenziell hinter Trends oder Wendepunkten um etwa 1 945 Perioden zurückbleiben werden. Daraus folgt, dass das Durchschnittsalter der Daten in den 1-Periodenprognosen eines ARIMA-Modells (0,1,1) ohne Konstante 1 (1 - 952 1) ist. Wenn beispielsweise 952 1 0,8 beträgt, ist das Durchschnittsalter 5. Da sich 952 1 1 nähert, wird das ARIMA-Modell (0,1,1) ohne Konstante zu einem sehr langfristigen gleitenden Durchschnitt und als 952 1 Ansätze 0 wird es ein random-walk-ohne-Drift-Modell. What8217s der beste Weg, um für Autokorrelation zu korrigieren: Hinzufügen von AR-Begriffe oder Hinzufügen von MA-Begriffen In den vorherigen beiden Modellen, die oben diskutiert wurden, wurde das Problem der autokorrelierten Fehler in einem zufälligen Fußmodell auf zwei verschiedene Arten behoben: durch Hinzufügen eines Verzögerungswertes der differenzierten Reihe Auf die Gleichung oder das Hinzufügen eines verzögerten Wertes des Prognosefehlers. Welcher Ansatz am besten ist Eine Regel für diese Situation, die später noch ausführlicher diskutiert wird, besteht darin, dass die positive Autokorrelation normalerweise am besten durch Hinzufügen eines AR-Terms zum Modell behandelt wird und negative Autokorrelation in der Regel am besten durch Hinzufügen eines MA-Semester. In der Wirtschafts - und Wirtschaftszeitreihe entsteht häufig eine negative Autokorrelation als Artefakt der Differenzierung. (Im allgemeinen differenziert die Differenzierung die positive Autokorrelation und kann sogar einen Wechsel von positiver zu negativer Autokorrelation bewirken.) Daher wird das ARIMA (0,1,1) - Modell, in dem die Differenzierung von einem MA-Begriff begleitet wird, häufiger verwendet als ein ARIMA (1,1,0) - Modell. ARIMA (0,1,1) mit konstanter, einfacher exponentieller Glättung mit Wachstum: Durch die Implementierung des SES-Modells als ARIMA-Modell gewinnen Sie tatsächlich etwas Flexibilität. Zuerst darf der geschätzte MA (1) - Koeffizient negativ sein. Dies entspricht einem Glättungsfaktor von mehr als 1 in einem SES-Modell, das nach dem SES-Modellanpassungsverfahren meist nicht zulässig ist. Zweitens haben Sie die Möglichkeit, einen konstanten Begriff in das ARIMA-Modell aufzunehmen, wenn Sie es wünschen, um einen durchschnittlichen Trend, der nicht Null ist, abzuschätzen. Das Modell ARIMA (0,1,1) mit Konstante hat die Vorhersagegleichung: Die Ein-Perioden-Prognosen aus diesem Modell sind qualitativ denjenigen des SES-Modells ähnlich, mit der Ausnahme, dass die Trajektorie der Langzeitprognosen typischerweise a ist (Deren Neigung gleich mu ist) und nicht eine horizontale Linie. ARIMA (0,2,1) oder (0,2,2) ohne konstante lineare Exponentialglättung: Lineare exponentielle Glättungsmodelle sind ARIMA-Modelle, die zwei nicht-sauren Differenzen in Verbindung mit MA-Begriffen verwenden. Die zweite Differenz einer Folge Y ist nicht einfach die Differenz von Y und selbst von zwei Perioden verzögert, sondern sie ist die erste Differenz der ersten Differenz - i. e. Die Änderung in der Änderung von Y in der Periode t. Somit ist die zweite Differenz von Y in der Periode t gleich (Yt - Yt - 1) - (Yt - 1 - Yt - 2) Yt - 2Yt - 1Yt - 2. Eine zweite Differenz einer diskreten Funktion ist analog zu einer zweiten Ableitung einer stetigen Funktion: sie mißt zu einem gegebenen Zeitpunkt die Quota-Beschleunigung quot oder quotvequot in der Funktion. Das ARIMA (0,2,2) - Modell ohne Konstante sagt voraus, daß die zweite Differenz der Reihe eine lineare Funktion der letzten beiden Prognosefehler ist, die umgeordnet werden können: wobei 952 1 und 952 2 die MA (1) und MA (2) Koeffizienten. Dies ist ein allgemeines lineares exponentielles Glättungsmodell. Im Wesentlichen das gleiche wie Holt8217s Modell, und Brown8217s Modell ist ein spezieller Fall. Es verwendet exponentiell gewichtete gleitende Mittelwerte, um sowohl eine lokale Ebene als auch einen lokalen Trend in der Reihe abzuschätzen. Die Langzeitprognosen von diesem Modell konvergieren zu einer Geraden, deren Steigung von dem durchschnittlichen Trend abhängt, der gegen Ende der Reihe beobachtet wird. ARIMA (1,1,2) ohne konstante gedämpfte lineare Exponentialglättung. Dieses Modell ist in den begleitenden Dias auf ARIMA-Modellen dargestellt. Es extrapoliert die lokale Tendenz am Ende der Serie, sondern flacht es auf längere Prognose Horizonte, um eine Notiz von Konservatismus, eine Praxis, die empirische Unterstützung hat einzuführen. Siehe den Artikel auf quotWarum die Damped Trend Werke von Gardner und McKenzie und die quotGolden Rulequot Artikel von Armstrong et al. für Details. Es ist grundsätzlich ratsam, bei Modellen zu bleiben, bei denen mindestens einer von p und q nicht größer als 1 ist, dh nicht versuchen, ein Modell wie ARIMA (2,1,2) anzubringen, da dies zu Überbeanspruchungen führen kann Die in den Anmerkungen zur mathematischen Struktur von ARIMA-Modellen näher erläutert werden. Spreadsheet-Implementierung: ARIMA-Modelle wie die oben beschriebenen lassen sich einfach in einer Tabellenkalkulation implementieren. Die Vorhersagegleichung ist einfach eine lineare Gleichung, die sich auf vergangene Werte von ursprünglichen Zeitreihen und vergangenen Werten der Fehler bezieht. Auf diese Weise können Sie eine ARIMA-Prognosekalkulation einrichten, indem Sie die Daten in Spalte A, die Prognoseformel in Spalte B und die Fehler (Daten minus Prognosen) in Spalte C speichern. Die Prognoseformel in einer typischen Zelle in Spalte B wäre einfach Ein linearer Ausdruck, der sich auf Werte in vorangehenden Zeilen der Spalten A und C bezieht, multipliziert mit den entsprechenden AR - oder MA-Koeffizienten, die in Zellen an anderer Stelle auf dem Spreadsheet gespeichert sind. ARMA und ARIMA (Box-Jenkins) Modelle ARMA und ARIMA (Box-Jenkins) Die vorangegangenen Abschnitte haben wir gesehen, wie der Wert einer univariaten Zeitreihe zum Zeitpunkt t. X t. Kann mit einer Vielzahl von gleitenden Durchschnittsausdrücken modelliert werden. Wir haben auch gezeigt, dass Komponenten wie Trends und Periodizität in der Zeitreihe explizit modelliert und / oder getrennt werden können, wobei die Daten in Trend-, Saison - und Restkomponenten zerlegt werden. Wir haben auch gezeigt, in den früheren Diskussionen über Autokorrelation. Dass die vollständigen und partiellen Autokorrelationskoeffizienten äußerst nützlich sind, um Muster in Zeitreihen zu identifizieren und zu modellieren. Diese beiden Aspekte der Zeitreihenanalyse und Modellierung können in einem allgemeineren und oftmals sehr effektiven Gesamtmodellierungsrahmen kombiniert werden. In seiner Grundform wird dieser Ansatz als ARMA-Modellierung bezeichnet (autoregressiver gleitender Durchschnitt) oder wenn die Differenzierung in die Prozedur, die ARIMA - oder die Box-Jenkins-Modellierung, nach den beiden Autoren, die für ihre Entwicklung von zentraler Bedeutung waren, enthalten ist (siehe Box amp Jenkins, 1968) BOX1 und Box, Jenkins amp Reinsel, 1994 BOX2). Es gibt keine feste Regel bezüglich der Anzahl von Zeitperioden, die für eine erfolgreiche Modellierungsübung erforderlich sind, aber für komplexere Modelle und für ein größeres Vertrauen in Pass - und Validierungsverfahren werden häufig Reihen mit 50 Zeitschritten empfohlen. ARMA-Modelle kombinieren Autokorrelationsverfahren (AR) und gleitende Mittelwerte (MA) zu einem zusammengesetzten Modell der Zeitreihe. Bevor wir untersuchen, wie diese Modelle kombiniert werden können, untersuchen wir jeweils einzeln. Wir haben bereits gesehen, dass gleitende Durchschnittsmodelle (MA) verwendet werden können, um eine gute Anpassung an einige Datensätze bereitzustellen, und Variationen dieser Modelle, die eine doppelte oder dreifache exponentielle Glättung beinhalten, können Trend und periodische Komponenten in den Daten behandeln. Darüber hinaus können solche Modelle verwendet werden, um Prognosen zu erstellen, die das Verhalten früherer Perioden nachahmen. Eine einfache Form solcher Modelle, die auf früheren Daten basiert, kann folgendermaßen geschrieben werden: Wo die Betai-Terme die auf vorherige Werte in der Zeitreihe angewendeten Gewichte sind, ist es üblich, Betai & sub1; ohne Verlust der Allgemeinheit zu definieren. Somit gilt für ein Verfahren erster Ordnung q 1 und wir haben das Modell: d. h. der gleitende Mittelwert wird als ein gewichteter Mittelwert der aktuellen und unmittelbaren Vergangenheitswerte geschätzt. Dieser Mittelungsprozess ist in gewissem Sinne ein pragmatischer Glättungsmechanismus ohne direkte Verbindung zu einem statistischen Modell. Jedoch können wir ein statistisches (oder stochastisches) Modell angeben, das die Prozeduren der gleitenden Mittelwerte in Verbindung mit zufälligen Prozessen umfasst. Wenn wir eine Menge von unabhängigen und identisch verteilten Zufallsvariablen (ein Zufallsprozeß) mit Nullmittelwert und bekannter fester Varianz zulassen, dann können wir den Prozeß als gleitenden Mittelwert der Ordnung q in folgender Form schreiben: Deutlich ist der Erwartungswert von xt unter Dieses Modell ist 0, also ist das Modell nur gültig, wenn das xt bereits auf einen Nullmittelwert eingestellt wurde oder wenn eine feste Konstante (der Mittelwert der xt) zur Summe addiert wird. Es ist auch offensichtlich, dass die Varianz von xt einfach ist: Die obige Analyse kann erweitert werden, um die Kovarianz cov (x t xtk) auszuwerten, die Ausbeuten ergibt: Beachten Sie, dass weder der Mittelwert noch die Kovarianz (oder Autokovarianz) Bei der Verzögerung k ist eine Funktion der Zeit t. So dass der Prozess ist zweiter Ordnung stationär. Der obige Ausdruck ermöglicht es, einen Ausdruck für die Autokorrelationsfunktion (acf) zu erhalten: Wenn k 0 rho k 1 und für k gt q rho k 0. Ferner ist die acf symmetrisch und rho k rho - k. Die ACF kann für ein MA-Verfahren erster Ordnung berechnet werden: Die autoregressive oder AR-Komponente eines ARMA-Modells kann in der Form geschrieben werden: wobei die Terme in Autokorrelationskoeffizienten an den Lags 1,2 sind. P und zt ein Restfehlerterm ist. Es sei angemerkt, dass dieser Fehlerausdruck speziell die aktuelle Zeitperiode t betrifft. Also gilt für ein Verfahren erster Ordnung p 1 und wir haben das Modell: Diese Ausdrücke geben an, dass der geschätzte Wert von x zum Zeitpunkt t durch den unmittelbar vorhergehenden Wert von x (dh zum Zeitpunkt t -1) multipliziert mit einem Maß, alpha, bestimmt wird . Des Ausmaßes, in dem die Werte für alle Wertepaare zu Zeitperioden voneinander abweichen, korreliert (d. h. ihre Autokorrelation) plus einem Restfehlerterm, z. Zum Zeitpunkt t. Aber das ist genau die Definition eines Markov-Prozesses. So ist ein Markov-Prozess ein autoregressiver Prozess erster Ordnung. Wenn alpha & sub1; das Modell besagt, daß der nächste Wert von x einfach der vorhergehende Wert plus ein zufälliger Fehlerterm ist und daher ein einfacher 1D-Zufallsweg ist. Wenn mehr Ausdrücke enthalten sind, schätzt das Modell den Wert von x zum Zeitpunkt t durch eine gewichtete Summe dieser Ausdrücke zuzüglich einer Zufallsfehlerkomponente. Wenn wir den zweiten Ausdruck oben in den ersten Satz setzen, haben wir: und wiederholte Anwendung dieser Substitution ergibt sich: Wenn nun alpha lt1 und k groß sind, kann dieser Ausdruck in umgekehrter Reihenfolge mit abnehmenden Ausdrücken und mit Beitrag aus dem Ausdruck geschrieben werden In x auf der rechten Seite des Ausdrucks verschwindend klein, so haben wir: Da die rechte Seite dieses Ausdrucks xt als Summe eines gewichteten Satzes von vorherigen Werten, hier zufälligen Fehlertermen, klar ist, Dieses AR-Modell ist in der Tat eine Form des MA-Modells. Und wenn wir annehmen, daß die Fehlerterme null mittlere und konstante Varianz haben, so haben wir, wie im MA-Modell, den Erwartungswert des Modells auch als 0, wobei angenommen wird, daß die xt so eingestellt sind, daß sie einen Nullmittelwert mit Varianz liefern Wenn diese Summe endlich ist und einfach 1 (1 - alpha) ist, so haben wir: Wie bei dem obengenannten MA-Modell kann diese Analyse erweitert werden, um die Kovarianz cov (xt · xk) einer ersten zu bewerten (A-1), so haben wir: Dies zeigt, dass bei einem autoregressiven Modell erster Ordnung die Autokorrelationsfunktion (acf) einfach definiert ist Durch sukzessive Befugnisse der Autokorrelation erster Ordnung, mit der Bedingung alpha lt1. Für alpha gt0 ist dies einfach eine rasch abnehmende oder exponentialartige Kurve, die gegen Null strebt oder für lt0 eine dämpfende Oszillationskurve, die wiederum gegen Null geht. Wenn angenommen wird, dass die Zeitreihe stationär ist, kann die obige Analyse auf Autokorrelationen zweiter und höherer Ordnung erweitert werden. Um ein AR-Modell einem beobachteten Datensatz anzupassen, versuchen wir, die Summe der quadratischen Fehler (eine kleinste Quadrate-Anpassung) unter Verwendung der kleinsten Anzahl von Ausdrücken zu minimieren, die eine zufriedenstellende Anpassung an die Daten liefern. Modelle dieser Art werden als autoregressiv beschrieben. Und können sowohl auf Zeitreihen als auch auf räumliche Datensätze angewendet werden (siehe weiter, räumliche Autoregressionsmodelle). Obwohl in der Theorie ein autoregressives Modell eine gute Anpassung an einen beobachteten Datensatz bereitstellen könnte, würde es im allgemeinen eine vorherige Entfernung von Trend - und periodischen Komponenten erfordern und selbst dann eine große Anzahl von Ausdrücken benötigen, um eine gute Anpassung an die Daten zu gewährleisten. Durch die Kombination der AR-Modelle mit MA-Modellen können wir jedoch eine Familie von gemischten Modellen herstellen, die in einer Vielzahl von Situationen eingesetzt werden können. Diese Modelle sind als ARMA - und ARIMA-Modelle bekannt und werden in den folgenden Unterabschnitten beschrieben. In den beiden vorangegangenen Abschnitten haben wir den MA-Modus q: und das AR-Modell der Ordnung p eingeführt: Wir können diese beiden Modelle kombinieren, indem wir sie einfach als Modell der Ordnung (p. Q) zusammenfassen, wobei wir p AR-Terme haben Und q MA-Ausdrücke: Im Allgemeinen kann diese Form des kombinierten ARMA-Modells verwendet werden, um eine Zeitreihe mit weniger Ausdrücken insgesamt als ein MA - oder ein AR-Modell selbst zu modellieren. Sie drückt den Schätzwert zum Zeitpunkt t als Summe von q Gliedern aus, die die mittlere Veränderung der Zufallsvariation über q Vorperioden (die MA-Komponente) plus die Summe von p AR-Terme darstellen, die den aktuellen Wert von x als die gewichtete Summe berechnen Der p letzten Werte. Diese Form des Modells geht jedoch davon aus, dass die Zeitreihe stationär ist, was selten der Fall ist. In der Praxis gibt es Trends und Periodizität in vielen Datensätzen, so dass es notwendig ist, diese Effekte zu entfernen, bevor solche Modelle. Die Entfernung wird typischerweise durchgeführt, indem in das Modell eine anfängliche Differenzierungsstufe, typischerweise einmal, zweimal oder dreimal, aufgenommen wird, bis die Reihe zumindest annähernd stationär ist und keine offensichtlichen Trends oder Periodizitäten aufweist. Wie bei den MA - und AR-Prozessen wird der Differenzierungsprozeß durch die Reihenfolge der Differenzierung, z. B. 1, 2, 3, beschrieben. Zusammengenommen bilden diese drei Elemente ein Tripel: (S. d. Q), das die Art des angewandten Modells definiert. In dieser Form wird das Modell als ARIMA-Modell beschrieben. Der Buchstabe I in ARIMA bezieht sich auf die Tatsache, dass der Datensatz anfangs differenziert wurde (siehe Differenzierung), und wenn die Modellierung abgeschlossen ist, müssen die Ergebnisse dann summiert oder integriert werden, um die endgültigen Schätzungen und Prognosen zu erstellen. Die ARIMA-Modellierung wird nachfolgend diskutiert. Wie im vorigen Unterabschnitt erwähnt, bietet das Kombinieren der Differenzierung einer nichtstationären Zeitreihe mit dem ARMA-Modell eine starke Modellfamilie, die in einer Vielzahl von Situationen angewendet werden kann. Die Entwicklung dieser erweiterten Modellform ist vor allem auf die G E P Box und G M Jenkins zurückzuführen, so dass ARIMA-Modelle auch als Box-Jenkins-Modelle bekannt sind. Der erste Schritt des Box-Jenkins-Verfahrens besteht darin, die Zeitreihe bis zum Stillstand zu differenzieren, so dass Trend - und Saisonkomponenten entfernt werden. In vielen Fällen reicht eine ein - oder zweistufige Differenzierung aus. Die differenzierten Reihen sind kürzer als die Quellenreihe durch c Zeitschritte, wobei c der Bereich der Differenzierung ist. Anschließend wird ein ARMA-Modell an die resultierende Zeitreihe angepasst. Da ARIMA Modelle drei Parameter haben, gibt es viele Varianten zu den möglichen Modellen, die montiert werden könnten. Allerdings kann die Entscheidung darüber, was diese Parameter sein sollen, durch eine Reihe von Grundprinzipien geleitet werden: (i) Das Modell sollte so einfach wie möglich sein, dh möglichst wenige Begriffe enthalten, was wiederum die Werte von p und q bedeutet Sollte klein sein (ii) die Anpassung an historische Daten sollte so gut wie möglich sein, dh die Größe der quadrierten Differenzen zwischen dem geschätzten Wert in einem vergangenen Zeitraum und dem tatsächlichen Wert sollte minimiert werden (Prinzip der kleinsten Quadrate) - die Residuen Aus dem gewählten Modell kann dann untersucht werden, um festzustellen, ob die verbleibenden Residuen signifikant von 0 verschieden sind (siehe weiter unten) (iii) die gemessene partielle Autokorrelation bei den Verzögerungen 1,2,3. Sollte eine Angabe der Reihenfolge der AR-Komponente geben, dh der für q (iv) gewählte Wert der Form der Autokorrelationsfunktion (acf) kann den Typ des erforderlichen ARIMA-Modells vorschlagen Interpretation der Form der acf in Bezug auf die Modellauswahl. ARIMA Modelltyp Auswahl mit acf Form Serie ist nicht stationär. Standard-ARIMA-Modelle werden oft durch das Dreifache beschrieben: (S. d. Q) wie oben erwähnt. Diese definieren die Struktur des Modells in der Reihenfolge der AR, Differenzierung und MA-Modelle verwendet werden. Es ist auch möglich, ähnliche Parameter für die Saisonalität in die Daten aufzunehmen, obwohl solche Modelle komplexer zu passen und zu interpretieren sind. Der Kuttel (P. D. Q) wird im allgemeinen verwendet, um solche Modellkomponenten zu identifizieren. In dem unten dargestellten Screenshot von SPSS wird der Dialog zur manuellen Auswahl von nicht saisonalen und saisonalen Strukturelementen angezeigt (ähnliche Einrichtungen sind in anderen integrierten Paketen wie SASETS verfügbar). Wie zu sehen ist, ermöglicht es der Dialog auch, die Daten zu transformieren (typischerweise zur Unterstützung der Varianzstabilisierung) und um den Benutzern zu ermöglichen, eine Konstante in dem Modell (die Voreinstellung) aufzunehmen. Dieses spezielle Software-Tool ermöglicht es, daß Ausreißer bei Bedarf detektiert werden können, gemß einer Reihe von Erfassungsverfahren, aber in vielen Fällen werden Ausreißer untersucht und eingestellt oder entfernt und ersetzte Werte, die geschätzt werden, vor einer solchen Analyse. SPSS Time Series Modellierer: ARIMA-Modellierung, Expertenmodus Eine Anzahl von ARIMA-Modellen kann manuell oder über einen automatisierten Prozess (zB ein schrittweises Verfahren) an die Daten angepasst werden Fit und sparsam. Der Modellvergleich verwendet typischerweise eine oder mehrere der oben in diesem Handbuch beschriebenen informationstheoretischen Maßnahmen - AIC, BIC andor MDL (die R-Funktion, arima (), liefert die AIC-Messung, während SPSS eine Reihe von Anpassungsmaßnahmen bereitstellt Version der BIC-Statistik andere Werkzeuge variieren in den Maßnahmen - Minitab, die eine Reihe von TSA-Methoden, nicht enthalten AICBIC-Statistiken). In der Praxis kann eine breite Palette von Maßnahmen (außer den kleinsten quadratischen Maßnahmen) zur Bewertung der Modellqualität verwendet werden. Beispielsweise können der mittlere absolute Fehler und der maximale absolute Fehler sinnvoll sein, Eine Reihe von Softwarepaketen kann auch eine Gesamtmessung der Autokorrelation vorsehen, die in den Resten nach der Anpassung des Modells verbleiben kann. Eine häufig angewandte Statistik ist auf Ljung und Box (1978 LJU1) zurückzuführen Von der Form ist: wobei n die Anzahl der Abtastwerte (Datenwerte), ri die Stichprobenautokorrelation bei der Verzögerung i und k die Gesamtzahl der Verzögerungen ist, über die die Berechnung durchgeführt wird, Q k annähernd als ein Chi verteilt ist - Quadratverteilung mit k - m Freiheitsgraden, wobei m die Anzahl der Parameter ist, die beim Anpassen des Modells verwendet werden, mit Ausnahme aller konstanten Term - oder Prädiktorvariablen (dh einschließlich der pd q - Tripel) Die Residuen nach dem Anbringen des Modells noch signifikante Autokorrelation aufweisen, was darauf hindeutet, dass ein verbessertes Modell gesucht werden sollte. Beispiel: Modellierung des Wachstums von Fluggastzahlen Im Folgenden sehen Sie ein Beispiel für eine automatisierte Anpassung, wobei SPSS auf die in diesem Handbuch vorgestellten Box-Jenkins-Reinsel-Testdaten der Fluggastzahlen REI1 verwendet wird. Anfangs war keine Spezifikation der Termine, die Monate innerhalb von Jahren angegeben wurden. Das Modell, das durch den automatisierten Prozess ausgewählt wurde, war ein ARIMA Modell (0,1,12), dh der Prozess identifizierte korrekt, dass die Serie eine Ebene der Differenzierung benötigte und ein gleitendes Durchschnittsmodell mit einer Periodizität von 12 und keine Autokorrelationskomponente anpaßte Daten. Das Modell passte einen R 2 - Wert von 0,966, der sehr hoch ist, und einen maximalen absoluten Fehler (MAE) von 75. Die visuelle Anpassung des Modells an die Daten sieht hervorragend aus, aber die graphische Darstellung der restlichen Autokorrelation nach der Montage und Ljung - Box-Test zeigt, dass signifikante Autokorrelation bleibt, was darauf hinweist, dass ein verbessertes Modell möglich ist. Automatisierte ARIMA - Anpassung an International Airline Passagiere: Monatliche Gesamtsumme, 1949-1960 Um dies zu untersuchen, wurde ein überarbeitetes Modell auf Basis der Diskussion dieses Datensatzes von Box und Jenkins (1968) und der aktualisierten Ausgabe von Chatfields (1975 CHA1) Die er Minitab verwendet, um seine Analyse zu illustrieren (6. Auflage, 2003). Die Zeitreihe wurde mit einer Periodizität von 12 Monaten und einem ARIMA-Modell mit Komponenten (0,1,1), (0,1,1) definiert. Graphisch sind die Ergebnisse sehr ähnlich dem obigen Diagramm, aber bei diesem Modell ist das R-Quadrat 0,991, die MAE41 und die Ljung-Box-Statistik ist nicht mehr signifikant (12,6, mit 16 Freiheitsgraden). Das Modell ist somit eine Verbesserung gegenüber der ursprünglichen (automatisch generierten) Version, die aus einer nicht saisonalen MA und einer saisonalen MA-Komponente, einer autoregressiven Komponente und einer Differenzierungsstufe für saisonale und nicht saisonale Strukturen besteht. Ob Armatur manuell oder automatisiert, ein ARIMA Modell kann ein gutes Rahmenwerk für die Modellierung einer Zeitreihe liefern, oder es kann sein, dass alternative Modelle oder Ansätze ein zufriedenstellenderes Ergebnis liefern. Oft ist es schwierig, im Voraus zu wissen, wie gut jedes gegebene Prognosemodell sein wird, da es nur im Licht seiner Fähigkeit ist, zukünftige Werte der Datenreihe vorherzusagen, dass es wirklich beurteilt werden kann. Oft wird dieser Prozeß durch Anpassen des Modells an vergangene Daten mit Ausnahme der letzten Zeitperioden (auch als Holdout-Abtastwerte bezeichnet) angenähert, und dann unter Verwendung des Modells, um diese bekannten zukünftigen Ereignisse vorherzusagen, aber auch dies bietet nur ein begrenztes Vertrauen in seine zukünftige Gültigkeit. Längerfristige Prognosen können mit solchen Methoden äußerst unzuverlässig sein. Das oben beschriebene internationale Luftverkehrsstatistikmodell ist nicht in der Lage, die Passagierzahlen bis in die Neunzigerjahre und darüber hinaus korrekt vorherzusagen, noch den 5-Jahres-Rückgang der US-amerikanischen Passagierzahlen nach 9112001. Ebenso kann ein ARIMA-Modell an historische Werte angepasst werden Der Börsenkurse oder Indexwerte (zB die NYSE - oder FTSE-Indizes) und wird typischerweise eine hervorragende Anpassung an die Daten liefern (was einen R-Quadrat-Wert von besser als 0,99 ergibt), sind aber oft nur wenig von Nutzen für die Prognose zukünftiger Werte dieser Preise Oder Indizes. Typischerweise werden ARIMA-Modelle zur Prognose eingesetzt, insbesondere im Bereich der makro - und mikroökonomischen Modellierung. Sie können jedoch in einem breiten Spektrum von Disziplinen angewendet werden, entweder in der hier beschriebenen Form oder mit zusätzlichen Vorhersagevariablen, von denen angenommen wird, dass sie die Zuverlässigkeit der Prognosen verbessern. Letztere sind wichtig, weil die gesamte Struktur der oben diskutierten ARMA-Modelle von vorherigen Werten und unabhängigen Zufallsereignissen über die Zeit abhängt, nicht von erklärenden oder ursächlichen Faktoren. Daher werden ARIMA-Modelle nur die bisherigen Muster reflektieren und erweitern, die in Prognosen durch Faktoren wie das makroökonomische Umfeld, Technologieverschiebungen oder längerfristige Ressourcen - und Umweltveränderungen modifiziert werden müssen. BOX1 Kasten G E P, Jenkins G M (1968). Einige jüngste Fortschritte in der Prognose und Kontrolle. (1994) Zeitreihenanalyse, - prognose und - steuerung. Zeitschrift für anorganische und allgemeine Chemie. 3. Aufl. Prentice Hall, Englewood Cliffs, NJ CHA1 Chatfield C (1975) Die Analyse der Zeitreihen: Theorie und Praxis. Chapman und Hall, London (siehe auch, 6. Aufl. 2003) LJU1 Ljung G M, Box G E P (1978) Über einen Maßstab für einen Mangel an Fit in Time Series Models. Biometrika, 65, 297303 NISTSEMATECH e-Handbuch der statistischen Methoden, itl. nist. govdiv898handbook Abschnitt 6.4: Einführung in die Zeitreihen. REI1 Reinsel GC-Datensätze für Box-Jenkins-Modelle: stat. wisc. eduDocumentation ist das unbedingte Mittel des Prozesses, und x03C8 (L) ist ein rationales, unendlich langsames LAG-Operator-Polynom , (1 x03C8 1L x03C82L2 x2026). Anmerkung: Die Constant-Eigenschaft eines arima-Modellobjekts entspricht c. Und nicht das unbedingte Mittel 956. Durch Wolds-Zerlegung 1. Gleichung 5-12 entspricht einem stationären stochastischen Prozeß, vorausgesetzt, daß die Koeffizienten x03C8i absolut summierbar sind. Dies ist der Fall, wenn das AR-Polynom, x03D5 (L). Stabil ist. Dh alle Wurzeln liegen außerhalb des Einheitskreises. Zusätzlich ist das Verfahren kausal, vorausgesetzt das MA-Polynom ist invertierbar. Dh alle Wurzeln liegen außerhalb des Einheitskreises. Econometrics Toolbox forciert Stabilität und Invertierbarkeit von ARMA Prozessen. Wenn Sie ein ARMA-Modell mit Arima angeben. Erhalten Sie einen Fehler, wenn Sie Koeffizienten eingeben, die nicht einem stabilen AR-Polynom oder einem invertierbaren MA-Polynom entsprechen. Ähnlich erfordert die Schätzung während der Schätzung Stationaritäts - und Invertibilitätsbeschränkungen. Literatur 1 Wold, H. Eine Studie in der Analyse stationärer Zeitreihen. Uppsala, Schweden: Almqvist amp Wiksell, 1938. Wählen Sie Ihr Land
No comments:
Post a Comment