Galería de mapas mentales La base de las redes neuronales y el aprendizaje profundo.
Resume las estructuras de redes neuronales más básicas: el perceptrón multicapa MLP y la red de retroalimentación FNN. Sobre esta base, resume la función objetivo y la tecnología de optimización de la red neuronal. El algoritmo de retropropagación calcula el problema de gradiente de la función objetivo a la red. coeficiente de peso. , así como tecnologías auxiliares para la optimización de redes neuronales como inicialización, regularización, etc.
Editado a las 2023-02-23 17:40:31,Este es un mapa mental sobre una breve historia del tiempo. "Una breve historia del tiempo" es una obra de divulgación científica con una influencia de gran alcance. No sólo presenta los conceptos básicos de cosmología y relatividad, sino que también analiza los agujeros negros y la expansión. del universo. temas científicos de vanguardia como la inflación y la teoría de cuerdas.
¿Cuáles son los métodos de fijación de precios para los subcontratos de proyectos bajo el modelo de contratación general EPC? EPC (Ingeniería, Adquisiciones, Construcción) significa que el contratista general es responsable de todo el proceso de diseño, adquisición, construcción e instalación del proyecto, y es responsable de los servicios de operación de prueba.
Los puntos de conocimiento que los ingenieros de Java deben dominar en cada etapa se presentan en detalle y el conocimiento es completo, espero que pueda ser útil para todos.
Este es un mapa mental sobre una breve historia del tiempo. "Una breve historia del tiempo" es una obra de divulgación científica con una influencia de gran alcance. No sólo presenta los conceptos básicos de cosmología y relatividad, sino que también analiza los agujeros negros y la expansión. del universo. temas científicos de vanguardia como la inflación y la teoría de cuerdas.
¿Cuáles son los métodos de fijación de precios para los subcontratos de proyectos bajo el modelo de contratación general EPC? EPC (Ingeniería, Adquisiciones, Construcción) significa que el contratista general es responsable de todo el proceso de diseño, adquisición, construcción e instalación del proyecto, y es responsable de los servicios de operación de prueba.
Los puntos de conocimiento que los ingenieros de Java deben dominar en cada etapa se presentan en detalle y el conocimiento es completo, espero que pueda ser útil para todos.
Redes neuronales y aprendizaje profundo Base
Estructura básica de la red neuronal.
estructura neuronal
suma ponderada
señal de estímulo
sináptico/ponderado
valor de activación
función de activación
función discontinua
función simbólica
perceptrón
función umbral
Neuronas de McCulloch-Pitts
función continuamente diferenciable
Función sigmoidea logística
Función tangente hiperbólica tanh()
defecto
Cuando el valor de activación a es grande, la función ingresa a la región de saturación y la derivada correspondiente se acerca a 0. En el algoritmo de aprendizaje a través de gradiente, la convergencia se vuelve muy lenta o incluso se estanca. La función ReLU converge más rápido
Función ReLU
ReLU clásico
ReLU con fugas
Resumen
La estructura computacional de las neuronas.
La suma ponderada lineal produce valores de activación La función de activación no lineal produce salida
La red neuronal multicapa resuelve el problema XOR
perceptrón
Función de activación simbólica de combinación lineal.
La inseparabilidad lineal no converge.
Como la operación XOR
Solución linealmente inseparable
El vector de función de base no lineal reemplaza al vector propio original.
Utilice múltiples neuronas para formar una red neuronal multicapa
Cómo se conectan las neuronas
Como componente básico, las neuronas están conectadas en una red multicapa a través de estructuras paralelas y en cascada.
Coneccion paralela
Varias neuronas en la misma capa reciben el mismo vector de características de entrada x y producen múltiples salidas respectivamente.
Modo cascada
Varias neuronas conectadas en paralelo producen cada una salidas, que se pasan a las neuronas de la siguiente capa como entrada.
Perceptrón multicapa MLP Red neuronal de avance FNN
Estructura del perceptrón multicapa
capa de entrada
El número de unidades en la capa de entrada es la dimensión D del vector de características de entrada.
Matriz de características de entrada N×D
Cada fila corresponde a una muestra y el número de filas es el número de muestras N
El número de columnas es la dimensión del vector de características D.
capa oculta
Tier 1
Matriz de entrada N×D
es la matriz de características original
Matriz de coeficientes de peso D×K1
El coeficiente de peso de cada neurona corresponde a un vector de columna D-dimensional
Un total de neuronas K1 forman una matriz D×K1.
Vector de polarización N×K1
Cada fila corresponde a un sesgo de muestra, un total de N filas
El número de columnas es el número de neuronas K1.
Matriz de salida N×K1
Z=φ(A)=φ(XWW0)
El nivel 2
Matriz de entrada N×K1
Matriz de salida de la capa superior
Matriz de coeficientes de peso K1×K2
El coeficiente de peso de cada neurona corresponde a un vector de columna de dimensión K1
Un total de neuronas K2 forman una matriz de K1×K2
Vector de polarización N×K2
Cada fila corresponde a un sesgo de muestra, un total de N filas
El número de columnas es el número de neuronas K2.
Matriz de salida N×K2
Z=φ(A)=φ(XWW0)
capa de mesón
Matriz de entrada N×K(m-1)
Matriz de salida de la capa superior
Matriz de coeficientes de peso K(m-1)×Km
El coeficiente de peso de cada neurona corresponde a un vector de columna dimensional K (m-1)
Un total de Km de neuronas forman una matriz de K(m-1)×Km
Vector de polarización N×Km
Cada fila corresponde a un sesgo de muestra, un total de N filas
El número de columnas es el número de neuronas Km.
Matriz de salida N×Km
Z=φ(A)=φ(XWW0)
capa de salida
Matriz de entrada N×K(L-1)
Matriz de salida de la capa superior
Matriz de coeficientes de peso K(L-1)×KL
El coeficiente de peso de cada neurona corresponde a un vector de columna dimensional K (L-1)
Un total de neuronas KL forman una matriz de K(L-1)×KL
Vector de sesgo N×KL
Cada fila corresponde a un sesgo de muestra, un total de N filas
El número de columnas es el número de neuronas KL.
Matriz de salida N×KL
Z=φ(A)=φ(XWW0)
La relación operativa del perceptrón multicapa. Estructura del programa
ingresar
La salida de la j-ésima neurona en la m-ésima capa
suma ponderada
La salida de la capa superior se utiliza como entrada de esta capa.
función de activación
producción
Representación de salida de la red neuronal
Nota
La cantidad de neuronas en la capa de salida indica que la red neuronal puede tener múltiples funciones de salida al mismo tiempo.
problema de regresión
La salida de la neurona de la capa de salida es la salida de la función de regresión.
Dos categorias
La neurona de la capa de salida genera la probabilidad posterior del tipo positivo, y la función sigmoidea representa la probabilidad posterior del tipo.
Múltiples categorías
Cada neurona en la capa de salida genera la probabilidad posterior de cada tipo, y la función Softmax representa la probabilidad de cada tipo.
Mapeo no lineal de redes neuronales
La diferencia con la regresión de la función base.
Determinación de parámetros
Las funciones base para la regresión de la función base están predeterminadas.
Los parámetros de la función básica de la red neuronal son parte de los parámetros del sistema y deben determinarse mediante entrenamiento.
relación no lineal
La regresión de la función básica solo tiene una relación no lineal entre el vector de entrada y la salida.
El vector de entrada y el coeficiente de peso de la red neuronal tienen una relación no lineal con la salida.
Ejemplo
Red neuronal de dos capas
red neuronal de tres capas
Teorema de aproximación de la red neuronal.
Esencia de la red neuronal
Mapeo del espacio euclidiano de dimensión D al espacio euclidiano de dimensión K
El vector de características de entrada x es un vector D-dimensional
La salida y es un vector K-dimensional
contenido
Un MLP que solo necesita una capa de unidades ocultas puede aproximarse a una función continua definida en un intervalo finito con precisión arbitraria.
Funciones objetivo y optimización de redes neuronales.
Función objetivo de la red neuronal
generalmente
Situaciones de salida de regresión múltiple
error suma de cuadrados
Múltiples situaciones de salida de clasificación binaria
entropía cruzada
Situación de salida de clasificación única K
entropía cruzada
La derivada de la función de pérdida de muestra con respecto a la activación de salida.
Optimización de redes neuronales
función de pérdida
Funciones no convexas altamente no lineales
La solución para minimizar la función de pérdida satisface
La matriz de Hansen H satisface la definición positiva
Coeficiente de peso de la red neuronal
Dimensiones
Simetría del espacio del coeficiente de peso.
La relación entrada-salida permanece sin cambios cuando las neuronas intercambian posiciones y la red neuronal es equivalente antes y después.
Optimización del coeficiente de peso
algoritmo de gradiente completo
algoritmo de gradiente estocástico
algoritmo de gradiente estocástico de mini lotes
El algoritmo BP de retropropagación calcula gradientes o derivadas
Algoritmo BP de propagación hacia atrás de errores Calcule el gradiente del coeficiente de peso de la función de pérdida.
Pensamiento
regla de la cadena de derivados
La derivada de la función de pérdida para la activación de la salida es el error de la salida de regresión a la etiqueta.
La derivada del coeficiente de peso de activación es el vector de entrada.
gradiente de función de pérdida o derivada del coeficiente de peso
propagación hacia atrás de errores
Falta error en la capa oculta y el impacto del error debe propagarse desde la capa de salida a la dirección de entrada.
Derivación del algoritmo de retropropagación
propagación hacia adelante
valor inicial
capa oculta
capa de salida
gradiente de capa de salida
Error de capa de salida
componente degradado
Retropropagación de capa oculta
Descomposición de la cadena de gradiente de capa oculta
Derivación de fórmulas
pensamiento algorítmico
propagación hacia adelante
La salida de la neurona z de la capa anterior se pondera y se suma para obtener la activación de la neurona a de la siguiente capa.
Propagación hacia atrás
El error de propagación de la última capa (capa cercana a la salida) δ (l 1) se propaga hacia atrás a la capa anterior para obtener el error de propagación δ (l) de la capa anterior, que se propaga hacia atrás a la primera capa oculta. capa (más cercana a la capa oculta de entrada)
proceso algorítmico (Iteración de un paso del coeficiente de peso)
valor inicial
propagación hacia adelante
capa oculta
capa de salida
Propagación hacia atrás
capa de salida
capa oculta
componente degradado
algoritmo de gradiente estocástico de mini lotes
Forma vectorial del algoritmo de retropropagación
valor inicial
propagación hacia adelante
Coeficiente de peso aumentado para la activación de la j-ésima neurona en la capa l
La matriz de coeficientes de peso de la l-ésima capa.
suma ponderada y activación
Vector de error de propagación de la capa de salida
Propagación hacia atrás
propagación hacia atrás de errores
componente degradado
El gradiente de la matriz del vector de peso de la l-ésima capa.
El gradiente del vector de polarización de la l-ésima capa.
El gradiente del coeficiente de peso de una neurona en la capa l.
Una extensión del algoritmo de retropropagación
Matriz jacobiana de red
Descomposición de la matriz jacobiana
Ecuación de propagación hacia atrás del error
problema de regresión
Problema de dos clasificaciones
Problema de clasificación múltiple
Matriz de Hansen para redes
Algunos problemas en el aprendizaje de redes neuronales.
cuestión fundamental
Función objetivo y cálculo de gradiente.
inicialización
Inicialización del coeficiente de peso
Los números de entrada y salida son myn respectivamente.
Inicialización de Xavier
Inicialización del coeficiente de peso cuando la función de activación es la función ReLU
Normalización del vector de entrada
Normalización de unidades, representada en un espacio unificado.
Regularización
Función de pérdida regularizada para la pérdida de peso.
actualización iterativa
Varios tipos de técnicas de regularización equivalentes.
conjunto de muestra aumentado
Girar y trasladar una muestra del conjunto de muestras en varios ángulos pequeños diferentes para formar una nueva muestra.
Inyectar ruido en el vector de entrada
Agregue ruido aleatorio de baja potencia a las muestras de entrada para el entrenamiento adversario
técnica de parada temprana
Detecte el punto de inflexión del error de verificación. Detenga la iteración cuando el error de verificación comience a aumentar para evitar el sobreajuste.