Galería de mapas mentales Cantidad CFA Nivel 2
Mapa mental de cantidad CFA nivel 25% -10%, que incluye introducción a la regresión lineal, regresión lineal múltiple, análisis de series temporales, aprendizaje automático y big data.
Editado a las 2023-09-13 19:57:14,プロジェクトマネジメントとは、専門的な知識、スキル、ツール、方法論をプロジェクト活動に適用し、限られたリソースの制約の中で、プロジェクトが設定された要件や期待を達成、またはそれ以上にできるようにするプロセスである。 この図は、プロジェクトマネジメントプロセスの8つの構成要素を包括的に示したものであり、一般的なテンプレートとして利用することができる。
プロジェクトマネジメントとは、専門的な知識、スキル、ツール、方法論をプロジェクト活動に適用し、限られたリソースの制約の中で、プロジェクトが設定された要件や期待を達成、またはそれ以上にできるようにするプロセスである。 この図は、プロジェクトマネジメントプロセスの8つの構成要素を包括的に示したものであり、一般的なテンプレートとして利用することができる。
世界的に著名な科学者、航空力学者、中国有人宇宙飛行の創始者、中国科学院および中国工程院の院士、「二元一星勲章」受章者、「中国宇宙飛行の父」、「中国ミサイルの父」、「中国自動制御の父」、「ロケットの王」として知られる。 中国宇宙の父」、「中国ミサイルの父」、「中国自動制御の父」、「ロケット王」として知られる。
プロジェクトマネジメントとは、専門的な知識、スキル、ツール、方法論をプロジェクト活動に適用し、限られたリソースの制約の中で、プロジェクトが設定された要件や期待を達成、またはそれ以上にできるようにするプロセスである。 この図は、プロジェクトマネジメントプロセスの8つの構成要素を包括的に示したものであり、一般的なテンプレートとして利用することができる。
プロジェクトマネジメントとは、専門的な知識、スキル、ツール、方法論をプロジェクト活動に適用し、限られたリソースの制約の中で、プロジェクトが設定された要件や期待を達成、またはそれ以上にできるようにするプロセスである。 この図は、プロジェクトマネジメントプロセスの8つの構成要素を包括的に示したものであり、一般的なテンプレートとして利用することができる。
世界的に著名な科学者、航空力学者、中国有人宇宙飛行の創始者、中国科学院および中国工程院の院士、「二元一星勲章」受章者、「中国宇宙飛行の父」、「中国ミサイルの父」、「中国自動制御の父」、「ロケットの王」として知られる。 中国宇宙の父」、「中国ミサイルの父」、「中国自動制御の父」、「ロケット王」として知られる。
cantidad 5%-10%
Introducción a la regresión lineal
Supuestos básicos
relación lineal x, y
x no tiene nada que ver con el residual
La expectativa residual es 0.
La varianza del término residual es constante para todas las observaciones.
Los términos residuales se distribuyen de forma independiente.
Residuos normalmente distribuidos
Supuestos residuales
Modelo de regresión
"^" indica el valor previsto
Intercepción, representa el rendimiento ajustado al riesgo, alfa ex post
Coeficiente de pendiente, riesgo de mercado
SSE: suma de errores cuadrados La desviación estándar del residual (valor estimado - valor real), la regresión lineal es la línea que minimiza el SSE
pasa la línea de regresión
prueba paramétrica
índice
Error estándar VER
error estándar de estimación, error estándar, mide el grado de cambio de y y la suma, mide el grado de ajuste, cuanto menor, mejor
El grado de dispersión entre las medias muestrales en el muestreo múltiple refleja la representatividad de la media muestral con respecto a la media general.
Coeficiente de determinación: el porcentaje de cambios en y que pueden explicarse por x
Para regresión lineal, es igual al cuadrado del coeficiente de correlación.
No es cierto para la regresión múltiple
ANOVA, análisis de varianza
SST, suma total de cuadrados mide el cambio total entre el valor real y el valor promedio, la suma de cuadrados del valor real - el valor promedio
RSS, la suma de cuadrados de la regresión mide el cambio en y que puede explicarse por x. La parte encontrada mediante la regresión se puede explicar. Valor previsto: suma media de cuadrados.
SSE, suma de errores al cuadrado: mide cambios inexplicables, valor real - suma de valores predichos al cuadrado La diferencia entre el valor real y el valor predicho no se explica mediante la ecuación de regresión, por lo que forma una desviación.
SST=RSS SSE
Desviación estándar residual, el grado en que los valores reales observados se desvían de la línea de regresión
Desventajas del análisis de regresión
Los parámetros son inestables y las relaciones lineales pueden cambiar con el tiempo.
Otros participantes del mercado que utilizan el mismo modelo limitan la eficacia del modelo.
Es necesario establecer los supuestos del análisis de regresión; de lo contrario, habrá heterocedástica (la varianza residual no es constante) y autocorrelación (los términos residuales no son independientes).
regresión lineal múltiple
Modelo
Intercepción: y cuando x son todos 0
Pendiente: otra x permanece sin cambios (manteniendo xxx constante), determine la magnitud del cambio en y causado por cambios en x
Prueba de significancia de parámetros
Estadísticas de prueba
Prueba de hipótesis, obedecer t(n-k-1)
n→número de observaciones; k→número de x; 1→número de intersecciones;
Compare la estadística de prueba calculada con el valor crítico obtenido consultando la tabla para sacar una conclusión.
valor p
Compare el valor crítico con el valor p. Si el valor p <valor crítico, rechace la hipótesis nula. Si hay un valor p en el examen, use el valor p primero.
intervalo de confianza
Prueba F(k,nk-1)
Se utiliza principalmente para regresión lineal múltiple, probando que al menos 1 x explica significativamente Y
cola única
En la regresión lineal múltiple, el valor aumenta a medida que aumenta el número de x en la ecuación de regresión.
variables ficticias
Tome valores específicos como "sí", "no", etc.
Trampa de variable ficticia, n valores, solo se necesitan n-1 variables
La intersección representa el valor de la categoría omitida.
La pendiente representa el cambio en la variable dependiente de y causado por la diferencia entre la variable ficticia y la categoría omitida.
violación de suposiciones
heterocedasticidad
Definición: Las varianzas residuales son diferentes entre los puntos de muestra.
tipo
heterocedasticidad incondicional: no tiene nada que ver con cambios en x y no tiene un impacto significativo en la regresión
Heterocedasticidad condicional: el residuo cambia a medida que x cambia, lo que tiene un impacto significativo en la inferencia estadística.
Influencia
Detección
Método 1: diagrama de dispersión
Método 2: prueba de chi-cuadrado
correcto
Método 1: Calcular el error estándar con corrección de blanco, también llamado error estándar robusto/consistente con heterocedasticidad
Método 2: calcular mínimos cuadrados generalizados
Correlación serial(es decir, autocorrelación) autocorrelación
Definición: Correlación entre residuos, común en series temporales
tipo
Correlación serial positiva: el error de regresión positivo en el período actual aumenta la probabilidad de error de regresión positivo en el siguiente período
Correlación serial negativa: el error de regresión positivo en el período actual aumenta la probabilidad de error de regresión negativo en el siguiente período
Influencia
Detección
diagrama de dispersión diagrama residual
Estadística DW (Durbin-Watson)
r es el coeficiente de correlación entre los residuos del período actual y anterior
correcto
Método 1: Ajustar los errores estándar: si solo hay heterocedasticidad, usar errores estándar corregidos con blancos; si hay autocorrelación o ambos, usar el método de Hansen;
Método 2: mejorar el modelo, como agregar características de tiempo, como estaciones
Multicolinealidad Multicolinealidad
Definición: Correlación entre variables independientes o combinaciones de variables independientes
tipo
multicolinealidad perfecta
Una variable se puede expresar mediante una combinación lineal de otras variables explicativas.
No se pueden estimar los coeficientes utilizando el método MCO
multicolinealidad incompleta
Existe un alto grado de correlación entre dos o más variables independientes.
No afecta el uso del método MCO, pero provocará un gran sesgo en al menos un estimador de coeficientes de variable independiente.
Influencia
No afecta la imparcialidad de β1, lo que resulta en una var(β1) mayor.
Produce errores tipo II, comunes en modelos económicos.
Detección
La prueba t encontró que ningún coeficiente era significativamente diferente de 0, pero la prueba F mostró que era significativo y el R cuadrado era alto.
Una correlación alta entre x indica una alta posibilidad de multicolinealidad; pero una correlación baja entre x no indica ausencia de multicolinealidad. Puede ser que la combinación lineal entre x esté correlacionada.
correcto
Ignore una o más variables independientes relacionadas y realice una regresión por pasos
especificación errónea del modelo
Influencia
La inferencia estadística de los coeficientes estimados es incorrecta
Los coeficientes estimados no son consistentes.
tipo
Error de forma de función
faltan variables importantes
Forma de función incorrecta
Fusión incorrecta de diferentes datos de muestra
La variable independiente está relacionada con el término residual.
La variable independiente contiene el término rezagado de la variable dependiente.
La variable independiente es alguna forma funcional de la variable dependiente.
Hay sesgo en la medición de variables independientes
Error de configuración de serie temporal
Principios de establecimiento de modelos
Es necesario que exista una base determinada para evitar sesgos en la minería de datos.
La forma de la función variable debe ajustarse a las características reales de los datos variables.
suelto parsimonioso: efectivo y simple
Cumple 6 supuestos principales
Supervisión de datos fuera de muestra superada
variable dependiente cualitativa
variable ficticia
método de regresión
modelo probit modelo probit
modelo logit modelo logit
Estima la probabilidad de que la variable dependiente tome 1
Análisis discriminante modelos discriminantes.
Como la puntuación Z
análisis de series temporales
modelo de tendencia
Modelo de tendencia lineal (inflación)
Las variables crecen en una cantidad fija usando un modelo lineal
Modelo de tendencia lineal logarítmica (precio de acciones e índice bursátil)
Las variables crecen a una tasa fija utilizando un modelo logarítmico
limitación
Los modelos log-lineales no son adecuados para su aplicación a datos autocorrelacionados
modelo autorregresivo, AR
definición
Predecir la y actual usando una o más y pasadas
covarianza estacionaria
Condiciones de establecimiento
Las expectativas son constantes y finitas.
La varianza es constante y finita.
La covarianza entre valores adelantados y retrasados es constante y finita
cíclico
prueba de correlación serial
Es necesario cumplir el supuesto de regresión: no existe correlación serial en los términos residuales
coeficiente de autocorrelación autocorrelación
Coeficiente de autocorrelación de orden k: el coeficiente de correlación entre la serie temporal y en el momento t y el momento t-k
Pruebe si el coeficiente de autocorrelación de cada orden entre los términos residuales es significativamente diferente de 0
Construir y estimar modelos AR(1)
Calcular el coeficiente de correlación entre términos residuales.
Pruebe si los coeficientes de correlación de cada orden de los residuos son significativamente diferentes de 0
T es el período número-1
reversión mediareversión media
Por debajo de la media sube a la media, por encima de la media cae a la media
nivel de reversión a la media nivel de reversión a la media
Predicción del modelo
RMSE (error cuadrático medio) Cuanto menor sea el error cuadrático medio, mejor
El período de tiempo de selección es diferente, el coeficiente es diferente y es inestable.
Caminata aleatoria
No tiene propiedades de reversión a la media.
definición
paseo aleatorio con deriva paseo aleatorio con deriva
naturaleza
nivel medio de reversión al infinito
raíz unitaria
incovarianza estacionaria
Detectar estacionariedad de covarianza
subtema
resolver
primera diferenciación primera diferenciación
Aplicar el modelo autorregresivo AR(1) a y
raíz unitaria
Determinar si la serie de tiempo es estacionaria.
En el modelo AR(1), el valor absoluto de β1 es mayor o igual a 1 y la serie temporal no es estacionaria.
Prueba de Dickey Fuller
Si la serie temporal diferenciada es estacionaria, entonces la conclusión de inferencia estadística obtenida mediante el modelo AR(1) es confiable
Hipótesis nula: existe una raíz unitaria
factores estacionales
Patrón que se repite cada año. Es necesario agregar factores estacionales al modelo AR
El estadístico t de Lag4 es significativamente diferente de 0, lo que indica que lag4 tiene estacionalidad y debe agregarse al modelo.
Todavía AR(1) no AR(2)
Modelo autorregresivo de heterocedasticidad condicional Modelo ARCH
La varianza de los residuos del período actual depende de la varianza de los residuos del período anterior. En este momento, el error estándar del coeficiente del modelo AR y la prueba de hipótesis son inexactos.
Para resolver el problema, introduzca el modelo ARCH.
Modelo de regresión ARCH(1): utilice la varianza residual en t-1 para predecir la varianza residual en t
Hipótesis nula: a1=0
cointegrado
Dos series de tiempo están relacionadas con variables macro comunes y tienen las mismas tendencias sin cambios.
relación a largo plazo
Utilice una serie de tiempo para predecir otra serie de tiempo
Utilice la prueba DF-EG para probar la cointegración. La hipótesis nula es: raíz unitaria. Rechazar la hipótesis nula indica que la covarianza es estacionaria y está cointegrada. Para la cointegración, se puede utilizar la regresión lineal para modelar la relación entre dos series de tiempo.
aprendizaje automático
Clasificación
Aprendizaje supervisado: aprendizaje supervisado
regresión penalizada regresión penalizada
regularizaciónregularización
LAZO regresa
Máquina de vectores de soporteSVM
Adecuado para problemas de regresión y clasificación.
Idea: El margen entre clases es el más grande, formando un hiperplano de separación.
K se acerca, K-vecino más cercano
Idea: la categoría más común cerca del objetivo x es la misma categoría que x
árbol de clasificación y regresión, CART
rama bifurcada
aprendizaje conjunto y bosque aleatorio aprendizaje conjunto y bosque aleatorio
Clasificación de votación
Agregación Bootstrap, embolsado
Muestreo n veces para formar n entrenamiento de modelos
Ayuda a prevenir el sobreajuste y elimina pequeños eventos de probabilidad n veces
bosque aleatorio
Votación CART múltiple
Aprendizaje no supervisado: aprendizaje no supervisado
Análisis de componentes principales PCA, análisis de componentes principales
Reducción de dimensionalidad, descomposición ortogonal.
agrupación jerárquica
agrupación divisiva/agrupación jerárquica, agrupación de arriba hacia abajo
agrupamiento aglomerativo, agrupamiento ascendente
La distancia entre muestras similares debe ser lo más pequeña posible y la distancia entre diferentes categorías debe ser lo más grande posible.
K-medias, k-medias
agrupación de arriba hacia abajo
paso
Seleccione k centroides
Calcule la distancia entre cada punto de datos y el centroide y clasifíquelo en la clase más cercana
Actualiza el centroide, definido como el punto medio de diferentes clases en el paso anterior.
Dejar de actualizar si los cambios son pequeños
aprendizaje profundo aprendizaje profundo
en capas
capa de entrada
capa de salida
capa oculta
característica
función de activación función de activación
Valor de peso de cada capa.
hiperparámetros
Aprendizaje reforzado: aprender de los propios errores
Sistema de recompensa y castigo por resultados de acciones, modelo de entrenamiento.
alfaGo
Evaluación del modelo
Sobreajuste
Falta de adaptación
Evaluar la tasa de error
conjunto de datos
Conjunto de entrenamiento (modelo de entrenamiento)
dentro de la muestra
Conjunto de validación (modelo de validación y depuración)
Conjunto de prueba (evaluación del modelo con nuevos datos)
fuera de muestra
error
error de sesgo
En muestra, conjunto de entrenamiento, desajuste
error de varianza
Fuera de muestra, conjunto de validación, sobreajuste
Complejidad del modelo ↑, varianza ↑, sesgo ↑
error base de desviación básica
Residuos de ruido aleatorio.
Grandes datos
característica
3V: Gran volumen, amplia fuente de variedad, generación de datos de alta velocidad y posiblemente veracidad precisa;
Modelado de datos estructurados
Tener una idea de las tareas a modelar.
Recopilación de datos
Preparación y discusión de datos.
Preparar
datos incompletos
valor faltante valor faltante
Inexactitud de los datos
Los datos son inconsistentes.
inconsistente
error no estándar no uniformidad
El formato no es uniforme.
Datos duplicados
ordenado
Extracción de datos
Construir nuevas variables
agregación
Agregar para obtener una nueva variable
filtrar
Eliminar columnas de datos innecesarias
elegir
Eliminar filas de datos innecesarias
Convertir
Convertir al tipo de datos apropiado
Manejo de valores atípicos
Más allá de 3 veces la desviación estándar
Más allá de 3 veces el IQR
IQR: la diferencia entre el cuantil 75%-25%
identificar
tratar con
Recorte: eliminar valores atípicos
Winsorización: reemplace los valores atípicos con los valores máximo y mínimo de los valores no atípicos
Normalización de datos
normalización
Estandarización
Exploración de datos
Análisis de datos exploratoriosEDA
Visualización de datos
media, varianza, etc.
Selección de características
Seleccione iterativamente las características más influyentes
La elección entre el poder explicativo del modelo y la velocidad del algoritmo.
ingeniería de características
Funciones de compilación
Los datos categóricos de codificación one-hot se procesan en una representación binaria de datos (ficticia)
Modelo de entrenamiento
Selección de modelo
Considere supervisado/no supervisado, tipo de datos, tipo de datos, tamaño de datos
Tipo numérico - CART; tipo textual - modelo lineal generalizado GLM/SVM - modelo profundo;
Evaluación del desempeño
Afinación
Conjunto de datos desequilibrado, utilice sobremuestreo o reducción de resolución
Modelado de datos no estructurados
Análisis de texto: determinación de entrada y salida
curación de datoscuración de datos
Preparación y organización de datos de texto.
Preparar
Eliminar etiquetas HTML, puntuación, números y espacios en blanco
ordenar pelear
Convertir texto a minúsculas
Eliminar palabras vacías
derivando vapor
Echar raíces
lematización
haciendo → hacer
Bolsas de palabras, BOW Una colección desordenada de palabras.
Análisis de características del texto
Matriz de términos de documento: las filas son documentos, las columnas son palabras y la cuadrícula es el número de veces que aparece una palabra en un documento.
N-grama: n palabras en una oración se dividen en una, 2 gramos se dividen en dos y una oración de 3 palabras produce 2 gramos.
exploración de texto
EDA
frecuencia de términos; nube de palabras, etc.
Selección de características
ingeniería de características
Modelo de entrenamiento
Evaluación del modelo
análisis de errores
matriz de confusión matriz de confusión
ROC, característica de funcionamiento del receptor
RMSE, error cuadrático medio
Ajuste del modelo
Equilibrio de varianza/sesgo, regularización, búsqueda de cuadrícula, análisis de techo (el análisis de techo identifica cada paso en el proceso de modelado de optimización)