Mindmap-Galerie Menge CFA Level 2
Menge CFA Level 25 %–10 % Mind Map, einschließlich Einführung in lineare Regression, multiple lineare Regression, Zeitreihenanalyse, maschinelles Lernen und Big Data.
Bearbeitet um 2023-09-13 19:57:14Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Projektmanagement ist der Prozess der Anwendung von Fachwissen, Fähigkeiten, Werkzeugen und Methoden auf die Projektaktivitäten, so dass das Projekt die festgelegten Anforderungen und Erwartungen im Rahmen der begrenzten Ressourcen erreichen oder übertreffen kann. Dieses Diagramm bietet einen umfassenden Überblick über die 8 Komponenten des Projektmanagementprozesses und kann als generische Vorlage verwendet werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Projektmanagement ist der Prozess der Anwendung von Fachwissen, Fähigkeiten, Werkzeugen und Methoden auf die Projektaktivitäten, so dass das Projekt die festgelegten Anforderungen und Erwartungen im Rahmen der begrenzten Ressourcen erreichen oder übertreffen kann. Dieses Diagramm bietet einen umfassenden Überblick über die 8 Komponenten des Projektmanagementprozesses und kann als generische Vorlage verwendet werden.
Menge 5 %–10 %
Einführung in die lineare Regression
Grundannahmen
x, y lineare Beziehung
x hat nichts mit dem Residuum zu tun
Der Resterwartungswert ist 0
Die Varianz des Restterms ist für alle Beobachtungen konstant
Restlaufzeiten werden unabhängig voneinander verteilt
Residuen normalverteilt
Restannahmen
Regressionsmodell
„^“ gibt den vorhergesagten Wert an
Intercept stellt die risikobereinigte Rendite und das Ex-post-Alpha dar
Steigungskoeffizient, Marktrisiko
SSE: Summe der Fehlerquadrate Die Standardabweichung des Residuums (geschätzter Wert – tatsächlicher Wert), lineare Regression ist die Linie, die SSE minimiert
Regressionsgerade verläuft
Parametrischer Test
Index
Standardfehler SIEHE
Standardfehler der Schätzung, Standardfehler, misst den Grad der Änderung von y und Summe, misst den Grad der Anpassung, je kleiner, desto besser
Der Grad der Streuung zwischen den Stichprobenmittelwerten bei Mehrfachstichproben spiegelt die Repräsentativität des Stichprobenmittelwerts für den Gesamtmittelwert wider
Bestimmtheitsmaß: Der Prozentsatz der Änderungen in y, die durch x erklärt werden können
Bei der linearen Regression entspricht er dem Quadrat des Korrelationskoeffizienten
Gilt nicht für multiple Regression
ANOVA, Varianzanalyse
SST, Gesamtsumme der Quadrate, misst die Gesamtänderung zwischen dem tatsächlichen Wert und dem Durchschnittswert, die Summe der Quadrate des tatsächlichen Werts – der Durchschnittswert
RSS, Regressionssumme der Quadrate, misst die Änderung von y, die durch x erklärt werden kann. Der durch die Regression gefundene Teil kann erklärt werden – die mittlere Summe der Quadrate
SSE, Summe der Fehlerquadrate: Misst unerklärliche Änderungen, tatsächlicher Wert – Summe der quadrierten vorhergesagten Werte. Die Differenz zwischen dem tatsächlichen Wert und dem vorhergesagten Wert wird nicht durch die Regressionsgleichung erklärt und bildet daher eine Abweichung.
SST=RSS SSE
Reststandardabweichung, das Ausmaß, in dem die tatsächlich beobachteten Werte von der Regressionslinie abweichen
Nachteile der Regressionsanalyse
Parameter sind instabil und lineare Beziehungen können sich im Laufe der Zeit ändern
Andere Marktteilnehmer, die dasselbe Modell verwenden, schränken die Wirksamkeit des Modells ein
Die Annahmen der Regressionsanalyse müssen festgelegt werden, andernfalls kommt es zu Heteroskedastik (Restvarianz ist nicht konstant) und Autokorrelation (Restterme sind nicht unabhängig).
multiple lineare Regression
Modell
Achsenabschnitt: y, wenn x alle 0 sind
Steigung: Das andere x bleibt unverändert (wobei xxx konstant gehalten wird). Bestimmen Sie das Ausmaß der Änderung von y, die durch Änderungen von x verursacht wird
Parametersignifikanztest
Teststatistiken
Hypothesentest, gehorche t(n-k-1)
n→Anzahl der Beobachtungen; k→Anzahl der x;
Vergleichen Sie die berechnete Teststatistik mit dem kritischen Wert, der durch Nachschlagen in der Tabelle ermittelt wurde, um eine Schlussfolgerung zu ziehen
p-Wert
Vergleichen Sie den kritischen Wert mit dem p-Wert. Wenn der p-Wert <kritischer Wert ist, verwerfen Sie die Nullhypothese. Wenn es einen p-Wert in der Untersuchung gibt, verwenden Sie zuerst den p-Wert.
Konfidenzintervall
F(k, n-k-1)-Test
Wird hauptsächlich für die multiple lineare Regression verwendet und testet, ob mindestens 1 x Y signifikant erklärt
Einzelschwanz
Bei der multiplen linearen Regression steigt der Wert mit zunehmender Anzahl von x in der Regressionsgleichung.
Dummy-Variablen
Nehmen Sie bestimmte Werte wie „ja“, „nein“ usw. an.
Dummy-Variablenfalle, n Werte, nur n-1 Variablen werden benötigt
Der Achsenabschnitt stellt den Wert der ausgelassenen Kategorie dar
Die Steigung stellt die Änderung der y-abhängigen Variablen dar, die durch den Unterschied zwischen der Dummy-Variablen und der ausgelassenen Kategorie verursacht wird.
Verletzung von Annahmen
Heteroskedastizität
Definition: Die Restvarianzen sind zwischen den Stichprobenpunkten unterschiedlich
Typ
unbedingte Heteroskedastizität: hat nichts mit Änderungen in x zu tun und hat keinen signifikanten Einfluss auf die Regression
bedingte Heteroskedastizität: Der Rest ändert sich, wenn sich x ändert, was einen erheblichen Einfluss auf die statistische Schlussfolgerung hat
Beeinflussen
Erkennung
Methode 1: Streudiagramm
Methode 2: Chi-Quadrat-Test
richtig
Methode 1: Berechnen Sie den weißkorrigierten Standardfehler, auch robuster/heteroskedastizitätskonsistenter Standardfehler genannt
Methode 2: Berechnen Sie die verallgemeinerten kleinsten Quadrate
Serielle Korrelation(d. h. Autokorrelation) Autokorrelation
Definition: Korrelation zwischen Residuen, häufig in Zeitreihen
Typ
Positive serielle Korrelation: Ein positiver Regressionsfehler in der aktuellen Periode erhöht die Wahrscheinlichkeit eines positiven Regressionsfehlers in der nächsten Periode
Negative serielle Korrelation: Ein positiver Regressionsfehler in der aktuellen Periode erhöht die Wahrscheinlichkeit eines negativen Regressionsfehlers in der nächsten Periode
Beeinflussen
Erkennung
Streudiagramm-Restdiagramm
DW-Statistik (Durbin-Watson).
r ist der Korrelationskoeffizient zwischen den Residuen der aktuellen und der vorherigen Periode
richtig
Methode 1: Standardfehler anpassen: Wenn nur Heteroskedastizität vorliegt, verwenden Sie weißkorrigierte Standardfehler. Wenn Autokorrelation oder beides vorhanden ist, verwenden Sie die Hansen-Methode
Methode 2: Verbessern Sie das Modell, indem Sie beispielsweise Zeitmerkmale wie Jahreszeiten hinzufügen
Multikollinearität Multikollinearität
Definition: Korrelation zwischen unabhängigen Variablen oder Kombinationen unabhängiger Variablen
Typ
perfekte Multikollinearität
Eine Variable kann durch eine lineare Kombination anderer erklärender Variablen ausgedrückt werden
Koeffizienten können mit der OLS-Methode nicht geschätzt werden
unvollständige Multikollinearität
Es besteht ein hoher Korrelationsgrad zwischen zwei oder mehr unabhängigen Variablen
Dies hat keinen Einfluss auf die Verwendung der OLS-Methode, führt jedoch zu einer großen Verzerrung in mindestens einem Schätzer für unabhängige variable Koeffizienten.
Beeinflussen
Hat keinen Einfluss auf die Unvoreingenommenheit von β1, was zu einer größeren var(β1) führt.
Erzeugt Fehler vom Typ II, die in Wirtschaftsmodellen häufig vorkommen
Erkennung
Der T-Test ergab, dass kein Koeffizient signifikant von 0 abweicht, der F-Test zeigte jedoch, dass er signifikant war und das R-Quadrat hoch war
Eine hohe Korrelation zwischen x weist auf eine hohe Wahrscheinlichkeit einer Multikollinearität hin, eine niedrige Korrelation zwischen x weist jedoch nicht auf das Fehlen einer Multikollinearität hin. Es kann sein, dass die lineare Kombination zwischen x korreliert
richtig
Ignorieren Sie eine oder mehrere verwandte unabhängige Variablen und führen Sie eine schrittweise Regression durch
Fehlspezifikation des Modells
Beeinflussen
Die statistische Schlussfolgerung der geschätzten Koeffizienten ist falsch
Die geschätzten Koeffizienten sind nicht konsistent
Typ
Funktionsformfehler
Es fehlen wichtige Variablen
Falsche Funktionsform
Falsche Fusion verschiedener Beispieldaten
Die unabhängige Variable bezieht sich auf die Restlaufzeit
Die unabhängige Variable enthält den verzögerten Term der abhängigen Variablen
Die unabhängige Variable ist eine funktionale Form der abhängigen Variablen
Bei der Messung unabhängiger Variablen besteht eine Verzerrung
Fehler bei der Einstellung der Zeitreihe
Prinzipien der Modellsetzung
Es muss eine bestimmte Grundlage vorhanden sein, um Data-Mining-Verzerrungen zu vermeiden.
Die Form der variablen Funktion muss den tatsächlichen Eigenschaften der variablen Daten entsprechen
locker sparsam: effektiv und einfach
Erfüllt 6 Hauptannahmen
Die Überwachung der Out-of-Sample-Daten wurde bestanden
qualitative abhängige Variable
Dummy-Variable
Regressionsmethode
Probit-Modell Probit-Modell
Logit-Modell Logit-Modell
Schätzen Sie die Wahrscheinlichkeit, dass die abhängige Variable den Wert 1 annimmt
Diskriminanzanalyse-Diskriminanzmodelle
Wie zum Beispiel Z-Score
Zeitreihenanalyse
Trendmodell
Lineares Trendmodell (Inflation)
Mithilfe eines linearen Modells wachsen Variablen um einen festen Betrag
Logarithmisches lineares Trendmodell (Aktienkurs & Aktienindex)
Mithilfe eines logarithmischen Modells wachsen Variablen mit einer festen Rate
Einschränkung
Log-lineare Modelle eignen sich nicht für die Anwendung auf autokorrelierte Daten
autoregressives Modell, AR
Definition
Sagen Sie das aktuelle Jahr anhand eines oder mehrerer vergangener Jahre voraus
Kovarianz stationär
Voraussetzungen für die Niederlassung
Erwartungen sind konstant und endlich
Die Varianz ist konstant und endlich
Die Kovarianz zwischen führenden und nacheilenden Werten ist konstant und endlich
zyklisch
serieller Korrelationstest
Die Regressionsannahme muss erfüllt sein: Es gibt keine serielle Korrelation in den Resttermen
Autokorrelationskoeffizient Autokorrelation
Autokorrelationskoeffizient k-Ordnung: der Korrelationskoeffizient zwischen der Zeitreihe y zum Zeitpunkt t und dem Zeitpunkt t-k
Testen Sie, ob der Autokorrelationskoeffizient jeder Ordnung zwischen den Resttermen signifikant von 0 abweicht
Erstellen und schätzen Sie AR(1)-Modelle
Berechnen Sie den Korrelationskoeffizienten zwischen Resttermen
Testen Sie, ob die Korrelationskoeffizienten jeder Ordnung der Residuen signifikant von 0 abweichen
T ist die Periode Nummer-1
mittlere Umkehrung mittlere Umkehrung
Unterhalb steigt der Mittelwert zum Mittelwert, oberhalb fällt der Mittelwert zum Mittelwert
Mean-Reverting-LevelMean-Reverting-Niveau
Modellvorhersage
RMSE (Root Mean Square Error) Je niedriger der mittlere quadratische Fehler, desto besser
Der Auswahlzeitraum ist unterschiedlich, der Koeffizient ist unterschiedlich und er ist instabil.
zielloser Spaziergang
Verfügt über keine Mean-Reversion-Eigenschaften
Definition
Irrfahrt mit Drift. Irrfahrt mit Drift
Natur
mittleres Umkehrniveau bis unendlich
Einheitswurzel
Inkovarianz stationär
Kovarianzstationarität erkennen
Unterthema
lösen
erste Differenzierung erste Differenzierung
Wenden Sie das autoregressive Modell AR(1) auf y an
Einheitswurzel
Bestimmen Sie, ob die Zeitreihe stationär ist
Im AR(1)-Modell ist der Absolutwert von β1 größer oder gleich 1 und die Zeitreihe ist nicht stationär.
Dickey-Fuller-Test
Wenn die differenzierte Zeitreihe stationär ist, ist die durch das AR(1)-Modell erhaltene statistische Schlussfolgerung zuverlässig
Nullhypothese: Es gibt eine Einheitswurzel
saisonale Faktoren
Muster, das sich jedes Jahr wiederholt Saisonale Faktoren müssen zum AR-Modell hinzugefügt werden
Die Lag4-t-Statistik unterscheidet sich deutlich von 0, was darauf hinweist, dass lag4 saisonabhängig ist und dem Modell hinzugefügt werden muss.
Immer noch AR(1) nicht AR(2)
Bedingtes autoregressives Heteroskedastizitätsmodell ARCH-Modell
Die Varianz der Residuen der aktuellen Periode hängt von der Varianz der Residuen der vorherigen Periode ab. Zu diesem Zeitpunkt sind sowohl der Standardfehler des AR-Modellkoeffizienten als auch der Hypothesentest ungenau.
Um das Problem zu lösen, führen Sie das ARCH-Modell ein
ARCH(1)-Regressionsmodell: Verwenden Sie die Restvarianz bei t-1, um die Restvarianz bei t vorherzusagen
Nullhypothese: a1=0
kointegriert
Zwei Zeitreihen beziehen sich auf gemeinsame Makrovariablen und weisen dieselben und unveränderten Trends auf
Langzeitbeziehung
Verwenden Sie eine Zeitreihe, um eine andere Zeitreihe vorherzusagen
Verwenden Sie den DF-EG-Test, um die Kointegration zu testen. Die Ablehnung der Nullhypothese zeigt an, dass die Kovarianz stationär und kointegriert ist.
maschinelles Lernen
Einstufung
Überwachtes Lernen: überwachtes Lernen
bestrafte Regression bestrafte Regression
RegularisierungRegularisierung
Lasso kehrt zurück
Unterstützt VektormaschineSVM
Geeignet für Regressions- und Klassifizierungsprobleme
Idee: Der Abstand zwischen den Klassen ist am größten und bildet eine trennende Hyperebene
K naht, K-nächster Nachbar
Idee: Die häufigste Kategorie in der Nähe von Ziel x ist dieselbe Kategorie wie x
Klassifizierungs- und Regressionsbaum, CART
Zweig gabeln
Ensemble-Lernen und Zufallswald Ensemble-Lernen und Zufallswald
Abstimmungsklassifizierung
Bootstrap-Aggregation, Bagging
N-maliges Abtasten, um ein n-Modelltraining zu bilden
Verhindert eine Überanpassung und entfernt Ereignisse mit geringer Wahrscheinlichkeit n-mal
zufälliger Wald
Mehrere CART-Abstimmungen
Unüberwachtes Lernen: unüberwachtes Lernen
Hauptkomponentenanalyse PCA, Hauptkomponentenanalyse
Dimensionsreduktion, orthogonale Zerlegung
hierarchische Clusterbildung
spaltendes Clustering/hierarchisches Clustering, Top-Down-Clustering
agglomeratives Clustering, Bottom-up-Clustering
Der Abstand zwischen ähnlichen Stichproben sollte so gering wie möglich und der Abstand zwischen verschiedenen Kategorien so groß wie möglich sein
K-bedeutet, k-bedeutet
Top-Down-Clustering
Schritt
Wählen Sie k Schwerpunkte aus
Berechnen Sie den Abstand zwischen jedem Datenpunkt und dem Schwerpunkt und klassifizieren Sie ihn in die nächstliegende Klasse
Aktualisieren Sie den Schwerpunkt, der im vorherigen Schritt als Mittelpunkt verschiedener Klassen definiert wurde
Stoppen Sie die Aktualisierung, wenn die Änderungen gering sind
tiefes Lernen tiefes Lernen
geschichtet
Eingabeschicht
Ausgabeschicht
Verborgene Ebene
Besonderheit
Aktivierungsfunktion Aktivierungsfunktion
Gewichtswert jeder Schicht
Hyperparameter
Verstärktes Lernen: Lernen aus den eigenen Fehlern
Belohnungs- und Bestrafungssystem für Handlungsergebnisse, Trainingsmodell
alphaGo
Modellbewertung
Überanpassung
Unteranpassung
Fehlerquote auswerten
Datensatz
Trainingsset (Trainingsmodell)
innerhalb der Probe
Validierungssatz (Validierungs- und Debugging-Modell)
Testsatz (Bewertung des Modells anhand neuer Daten)
außerhalb der Probe
Fehler
Bias-Fehler
In-Sample, Trainingssatz, Unteranpassung
Varianz-Varianz-Fehler
Außerhalb der Stichprobe, Validierungssatz, Überanpassung
Modellkomplexität ↑, Varianz ↑, Bias ↑
Grundabweichung Basisfehler
Reste zufälligen Rauschens
Große Daten
Besonderheit
3V: Großes Volumen, große Vielfalt, schnelle Geschwindigkeitsdatengenerierung und möglicherweise genaue Richtigkeit
Strukturierte Datenmodellierung
Machen Sie sich eine Vorstellung von den zu modellierenden Aufgaben
Datensammlung
Datenaufbereitung und Datenverarbeitung
Vorbereiten
Unvollständigkeit der Daten
fehlender Wert fehlender Wert
Datenungenauigkeit
Die Daten sind inkonsistent
inkonsistent
Nichtstandardfehler, Ungleichmäßigkeit
Das Format ist nicht einheitlich
Doppelte Daten
ordentlich
Datenextraktion
Konstruieren Sie neue Variablen
Anhäufung
Hinzufügen, um eine neue Variable zu erhalten
Filter
Entfernen Sie unnötige Datenspalten
wählen
Entfernen Sie unnötige Datenzeilen
Konvertieren
Konvertieren Sie in den entsprechenden Datentyp
Ausreißer-Behandlung von Ausreißern
Mehr als das Dreifache der Standardabweichung
Mehr als das Dreifache des IQR
IQR: die Differenz zwischen dem 75 %-25 %-Quantil
identifizieren
bewältigen
Trimmen: Ausreißer entfernen
Winsorisierung: Ersetzen Sie Ausreißer durch die Maximal- und Minimalwerte von Nicht-Ausreißern
Datennormalisierung
Normalisierung
Standardisierung
Datenexploration
Explorative DatenanalyseEDA
Datenvisualisierung
Mittelwert, Varianz usw.
Merkmalsauswahl
Wählen Sie iterativ die einflussreichsten Merkmale aus
Die Wahl zwischen Modellerklärungskraft und Algorithmusgeschwindigkeit
Feature-Engineering
Build-Funktionen
Kategoriale Daten werden durch One-Hot-Codierung in eine binäre Datendarstellung (Dummy) verarbeitet.
Trainingsmodell
Modellauswahl
Berücksichtigen Sie überwacht/unüberwacht, Datentyp, Datentyp und Datengröße
Numerischer Typ – CART; Texttyp – verallgemeinertes lineares Modell GLMs/SVM-Bilddaten – tiefes Modell
Leistungsbeurteilung
Abstimmung
Unausgeglichener Datensatz, Oversampling oder Downsampling verwenden
Unstrukturierte Datenmodellierung
Textanalyse: Eingabe und Ausgabe ermitteln
DatenkurationDatenkuration
Aufbereitung und Organisation von Textdaten
Vorbereiten
Entfernen Sie HTML-Tags, Satzzeichen, Zahlen und Leerzeichen
Streitereien aufräumen
Wandeln Sie Text in Kleinbuchstaben um
Stoppwörter entfernen
dämpfend
Wurzeln schlagen
Lemmatisierung
tun → tun
Bag-of-words, BOW Eine ungeordnete Sammlung von Wörtern
Textmerkmalsanalyse
Dokumentbegriffsmatrix: Die Zeilen sind Dokumente, die Spalten sind Wörter und das Raster gibt an, wie oft ein Wort in einem Dokument vorkommt.
N-Gramm: n Wörter in einem Satz werden in eins geteilt, 2 Gramm werden in zwei geteilt und ein Satz mit 3 Wörtern ergibt 2 Gramm.
Texterkundung
EDA
Begriffshäufigkeit; Wortwolke usw.
Merkmalsauswahl
Feature-Engineering
Trainingsmodell
Modellbewertung
Fehleranalyse
Verwirrungsmatrix Verwirrungsmatrix
ROC, Betriebscharakteristik des Empfängers
RMSE, quadratischer Mittelwertfehler
Modelltuning
Ausgleich von Varianz/Bias, Regularisierung, Rastersuche, Deckenanalyse (die Deckenanalyse identifiziert jeden Schritt im Optimierungsmodellierungsprozess)