Galería de mapas mentales red neuronal tradicional
Revise algunos puntos de conocimiento de las redes neuronales tradicionales para el aprendizaje automático, incluidas las funciones de activación no lineal, el concepto de gradiente, el concepto de regresión lineal, los escenarios y limitaciones de la aplicación de regresión lineal, la estructura de las redes neuronales, etc.
Editado a las 2022-11-23 09:35:21,Este es un mapa mental sobre una breve historia del tiempo. "Una breve historia del tiempo" es una obra de divulgación científica con una influencia de gran alcance. No sólo presenta los conceptos básicos de cosmología y relatividad, sino que también analiza los agujeros negros y la expansión. del universo. temas científicos de vanguardia como la inflación y la teoría de cuerdas.
¿Cuáles son los métodos de fijación de precios para los subcontratos de proyectos bajo el modelo de contratación general EPC? EPC (Ingeniería, Adquisiciones, Construcción) significa que el contratista general es responsable de todo el proceso de diseño, adquisición, construcción e instalación del proyecto, y es responsable de los servicios de operación de prueba.
Los puntos de conocimiento que los ingenieros de Java deben dominar en cada etapa se presentan en detalle y el conocimiento es completo, espero que pueda ser útil para todos.
Este es un mapa mental sobre una breve historia del tiempo. "Una breve historia del tiempo" es una obra de divulgación científica con una influencia de gran alcance. No sólo presenta los conceptos básicos de cosmología y relatividad, sino que también analiza los agujeros negros y la expansión. del universo. temas científicos de vanguardia como la inflación y la teoría de cuerdas.
¿Cuáles son los métodos de fijación de precios para los subcontratos de proyectos bajo el modelo de contratación general EPC? EPC (Ingeniería, Adquisiciones, Construcción) significa que el contratista general es responsable de todo el proceso de diseño, adquisición, construcción e instalación del proyecto, y es responsable de los servicios de operación de prueba.
Los puntos de conocimiento que los ingenieros de Java deben dominar en cada etapa se presentan en detalle y el conocimiento es completo, espero que pueda ser útil para todos.
red neuronal tradicional
función de activación no lineal
sigmoideo
ventaja
Comprima los valores de las características de entrada en un amplio rango entre 0 y 1, de modo que la amplitud de los datos se pueda mantener sin cambios importantes en redes profundas.
Más cercano a las neuronas biológicas en un sentido físico.
Dependiendo de su rango de salida, esta función es adecuada para modelos que tienen probabilidades predichas como salida.
defecto
Cuando la entrada es muy grande o muy pequeña, la salida es básicamente constante, es decir, el cambio es muy pequeño, lo que hace que el gradiente se acerque a 0.
Los gradientes pueden desaparecer prematuramente, lo que resulta en una convergencia más lenta.
Las operaciones exponenciales consumen relativamente mucho tiempo.
La salida no es de media 0, lo que hace que las neuronas de la siguiente capa obtengan como entrada la señal de salida de media no 0 de la capa anterior. A medida que la red se profundice, la tendencia de distribución de los datos originales cambiará.
tanh
ventaja
Resuelva el problema de que la salida de la función sigmoidea anterior no es media 0
La derivada de la función Tanh varía de 0 a 1, que es mejor que la de 0 a 0,25 de la función sigmoidea, lo que alivia hasta cierto punto el problema de la desaparición de los gradientes.
La función Tanh es similar a la función y = x cerca del origen. Cuando el valor de activación de entrada es bajo, las operaciones matriciales se pueden realizar directamente y el entrenamiento es relativamente fácil.
defecto
Similar a la función sigmoidea, el problema del gradiente evanescente todavía existe
Observe sus dos formas de expresión, a saber, 2*sigmoidea(2x)-1 y (exp(x)-exp(-x))/(exp(x) exp(-x)). el funcionamiento eléctrico todavía existe
ReLU
ventaja
En comparación con la función sigmoidea y la función Tanh, cuando la entrada es positiva, la función Relu no tiene un problema de saturación, lo que resuelve el problema de la desaparición del gradiente y hace que la red profunda sea entrenable.
La velocidad de cálculo es muy rápida, solo necesita determinar si la entrada es mayor que el valor 0
La velocidad de convergencia es mucho más rápida que las funciones sigmoidea y Tanh.
La salida de Relu hará que algunas neuronas tengan un valor de 0, lo que no solo traerá escasez de red, sino que también reducirá la correlación entre los parámetros, lo que alivia el problema del sobreajuste hasta cierto punto;
defecto
La salida de la función Relu no es una función con 0 como media.
Hay un problema de Dead Relu, es decir, es posible que algunas neuronas nunca se activen, lo que hace que los parámetros correspondientes nunca se actualicen. Las razones principales de este problema incluyen problemas de inicialización de parámetros y configuraciones de tasa de aprendizaje demasiado grandes;
Cuando la entrada es un valor positivo y la derivada es 1, en la "reacción en cadena", el gradiente no desaparecerá, pero la fuerza del descenso del gradiente depende completamente del producto de los pesos, lo que puede provocar el problema de la explosión del gradiente. .
ReLU con fugas
ventaja
En respuesta al problema de Dead Relu que existe en la función Relu, la función Leaky Relu le da al valor de entrada una pendiente muy pequeña cuando la entrada es un valor negativo. Sobre la base de resolver el problema de gradiente 0 en el caso de una entrada negativa. También se alivia el problema de Dead Relu.
La salida de esta función es de infinito negativo a infinito positivo, es decir, con fugas expande el rango de la función Relu, donde el valor de α generalmente se establece en un valor más pequeño, como 0,01.
defecto
En teoría, esta función tiene mejores efectos que la función Relu, pero mucha práctica ha demostrado que su efecto es inestable, por lo que no hay muchas aplicaciones de esta función en la práctica.
Los resultados inconsistentes debido a diferentes funciones aplicadas en diferentes intervalos darán como resultado la incapacidad de proporcionar predicciones de relaciones consistentes para valores de entrada positivos y negativos.
El concepto de gradiente.
El significado original de gradiente es un vector (vector), lo que significa que la derivada direccional de una determinada función en este punto alcanza el valor máximo en esta dirección, es decir, la función cambia más rápido en esta dirección (la dirección de este gradiente) en este punto, y el cambio es La tasa es la más grande (el módulo del gradiente).
El concepto de regresión lineal.
Relación lineal para describir la relación de mapeo desde la entrada hasta la salida.
Escenarios de aplicación de regresión lineal.
Análisis de red, análisis de riesgos, predicción del precio de las acciones, previsión meteorológica.
Limitaciones de la regresión lineal
La regresión lineal puede describir claramente la segmentación de datos distribuidos linealmente, pero es débil al describir datos distribuidos no linealmente.
La estructura de la red neuronal.
capa de entrada
valor de activación
capa de en medio
capa de salida
Peso: se refiere a la estrecha relación con una neurona en la capa de entrada. Cuanto más estrecha sea la conexión, mayor será el valor.
Valor de activación: se calcula el valor de activación de la capa de salida. El cálculo simple es multiplicar el valor de activación de la capa de entrada por el peso.
Compensación: no te preocupes por este parámetro por ahora
Conexión de neuronas “en paralelo” y “en serie”
Aquí, m representa el ancho de la enésima capa de la red neuronal y n es la profundidad de la red neuronal actual.
Desde la primera capa de la red neuronal hasta la salida final, el valor de cada neurona está determinado por el valor de la neurona de la capa anterior, los parámetros de la neurona W, b y la función de excitación de la k-ésima neurona en la n. La -ésima capa se puede expresar mediante la fórmula:
Función de pérdida-Pérdida
Uno de los factores más importantes que afectan el rendimiento del aprendizaje profundo. Es el mundo exterior el que afecta los nervios. Orientación directa para la formación del modelo de red.
Una función de pérdida adecuada puede garantizar la convergencia del modelo de aprendizaje profundo.
Diseñar una función de pérdidas adecuada es uno de los principales contenidos del trabajo de investigación.
Definición de la función Softmax y sus beneficios.
función exponencial normalizada
Convertir los resultados de la predicción a números no negativos
El primer paso de softmax es transformar los resultados de predicción del modelo en una función exponencial, asegurando así la naturaleza no negativa de la probabilidad.
La suma de las probabilidades de varios resultados predichos es igual a 1.
El método consiste en dividir los resultados convertidos por la suma de todos los resultados convertidos, que puede entenderse como el porcentaje de los resultados convertidos en el total. Esto da probabilidades aproximadas.
Definición de función de entropía cruzada y sus beneficios.
Por qué se puede utilizar como función de pérdida
La entropía cruzada se puede utilizar como función de pérdida en redes neuronales (aprendizaje automático). p representa la distribución de etiquetas reales y q es la distribución de etiquetas predicha del modelo entrenado. La función de pérdida de entropía cruzada puede medir la similitud entre p y q. .
Otro beneficio de la entropía cruzada como función de pérdida es que el uso de la función sigmoidea durante el descenso del gradiente puede evitar el problema de la reducción de la tasa de aprendizaje de la función de pérdida de error cuadrático medio, porque la tasa de aprendizaje puede controlarse mediante el error de salida.
Considere p (i) como la distribución de probabilidad real y q (i) como la distribución de probabilidad predicha. Si usamos la entropía cruzada como función de pérdida, cuando la minimizamos, podemos hacer que q (i) se acerque gradualmente a p (i). Se logra el propósito de ajuste.
,
Problema de regresión con intervalo objetivo [0, 1] y generación
personalizar
Disfruta de un determinado atributo
Saque ciertos valores predichos individualmente o asigne parámetros de diferentes tamaños
Fusionar múltiples pérdidas
Tareas de entrenamiento multiobjetivo, establecimiento de métodos razonables de combinación de pérdidas (varias operaciones)
fusión de redes neuronales
Se combinan diferentes pérdidas de la red neuronal para entrenar y guiar la red en conjunto.
tasa de aprendizaje
Cuanto mayor sea el valor, más rápida será la velocidad de convergencia.
Valor numérico pequeño, alta precisión de convergencia
Cómo elegir una tasa de aprendizaje adecuada
Fijado
Fijo, es decir, tasa de aprendizaje fija, es la configuración más simple y requiere solo un parámetro.
La tasa de aprendizaje permanece sin cambios durante todo el proceso de optimización. Esta es una estrategia que rara vez se utiliza, porque a medida que se acerca al punto óptimo global, la tasa de aprendizaje debe volverse cada vez más pequeña para evitar omitir el punto óptimo.
paso
Utilice un método de reducción uniforme, por ejemplo, cada reducción es 0,1 veces el valor original.
Esta es una estrategia de iteración de tasa de aprendizaje muy utilizada. Cada vez que la tasa de aprendizaje se reduce a un cierto múltiplo del original, es una transformación discontinua. Es fácil de usar y generalmente tiene buenos resultados.
Adagrado
tasa de aprendizaje adaptativo
Se puede ver en el algoritmo AdaGrad que a medida que el algoritmo continúa iterando, r se hará cada vez más grande y la tasa de aprendizaje general será cada vez menor. Por lo tanto, en términos generales, el algoritmo AdaGrad comienza con una convergencia de incentivos y luego lentamente se convierte en una convergencia de penalización y la velocidad se vuelve cada vez más lenta.
RMSprop
El algoritmo RMSProp no acumula gradientes cuadrados de forma violenta y directa como el algoritmo AdaGrad, sino que agrega un coeficiente de atenuación para controlar cuánta información histórica se obtiene.
En pocas palabras, después de establecer la tasa de aprendizaje global, para cada pasada, la tasa de aprendizaje global se divide parámetro por parámetro por la raíz cuadrada de la suma cuadrada de los gradientes históricos controlados por el coeficiente de atenuación, de modo que la tasa de aprendizaje de cada El parámetro es diferente.
El efecto es que se logrará un mayor progreso en la dirección más plana del espacio de parámetros (debido a que es más plano, la suma de los cuadrados de los gradientes históricos es menor, lo que corresponde a una menor disminución del aprendizaje), y puede hacer que la dirección empinada más suave, acelerando así el entrenamiento.
impulso
Continúe en la dirección de optimización obtenida. No es necesario volver a encontrar la dirección, solo realizar un ajuste fino.
¿Cuál es la diferencia entre utilizar el impulso y aumentar directamente la tasa de aprendizaje?
La dirección es diferente y la búsqueda es más precisa.
sobreajuste
El sobreajuste también se denomina sobreaprendizaje. Su manifestación intuitiva es que el algoritmo funciona bien en el conjunto de entrenamiento, pero no funciona bien en el conjunto de prueba, lo que da como resultado un rendimiento de generalización deficiente.
El sobreajuste se debe al hecho de que los datos de entrenamiento contienen errores de muestreo durante el proceso de ajuste de parámetros del modelo, y el modelo complejo también ajusta los errores de muestreo durante el entrenamiento. El llamado error de muestreo se refiere a la desviación entre el conjunto de muestras obtenido mediante muestreo y el conjunto de datos general.
El modelo en sí es tan complejo que se ajusta al ruido del conjunto de muestras de entrenamiento. En este momento, debe elegir un modelo más simple o recortar el modelo.
Las muestras de formación son muy escasas o carecen de representatividad. En este momento, es necesario aumentar el número de muestras o aumentar la diversidad de muestras.
La interferencia del ruido de la muestra de entrenamiento hace que el modelo se ajuste a estos ruidos. En este caso, es necesario eliminar los datos ruidosos o cambiar a un modelo que no sea sensible al ruido.
solución
Abandonar
La diferencia entre abandono y agrupación
subtema
Durante la propagación hacia adelante, dejamos que el valor de activación de una determinada neurona deje de funcionar con una cierta probabilidad p, lo que puede hacer que el modelo sea más generalizable porque no dependerá demasiado de ciertas características locales.
Regularización
¿Qué efecto tiene la regularización sobre el parámetro w?
¿Qué es la pérdida de peso y cómo se relaciona con la regularización?
El propósito de la regularización L2 es atenuar el peso a un valor menor y reducir hasta cierto punto el problema del sobreajuste del modelo, por lo que la atenuación del peso también se denomina regularización L2.
Sintonia FINA
No es necesario actualizar la mayoría de los parámetros y los parámetros reales se reducen considerablemente.
Congele parte de las capas convolucionales del modelo previamente entrenado (generalmente la mayoría de las capas convolucionales cercanas a la entrada, ya que estas capas retienen mucha información subyacente) o incluso congele cualquier capa de red y entrene las capas convolucionales restantes (generalmente las partes cercanas a la capa convolucional de salida) y la capa completamente conectada.
El principio del ajuste fino es utilizar la estructura de red conocida y los parámetros de red conocidos, modificar la capa de salida a nuestra propia capa y ajustar los parámetros de varias capas antes de la última capa, utilizando así de manera efectiva las poderosas capacidades de generalización de la profundidad. redes neuronales. capacidades de ajuste fino y elimina la necesidad de diseñar modelos complejos y entrenamiento que requiere mucho tiempo, por lo que el ajuste fino es una opción más adecuada cuando la cantidad de datos es insuficiente.
significado
Párese sobre los hombros de gigantes: existe una alta probabilidad de que el modelo entrenado por sus predecesores sea más fuerte que el modelo que construye desde cero. No es necesario reinventar la rueda.
El costo de capacitación puede ser muy bajo: si utiliza el método de derivar vectores de características para el aprendizaje por transferencia, el costo de capacitación posterior es muy bajo, no hay presión sobre la CPU y se puede realizar sin una máquina de aprendizaje profundo.
Adecuado para conjuntos de datos pequeños: para situaciones en las que el conjunto de datos en sí es pequeño (miles de imágenes), no es realista entrenar una red neuronal grande con decenas de millones de parámetros desde cero, porque cuanto más grande es el modelo, mayor es el volumen de datos. requisitos, no se puede evitar el sobreajuste. En este momento, si aún desea utilizar las capacidades de extracción de súper funciones de las redes neuronales grandes, solo puede confiar en el aprendizaje por transferencia.
modelo migratorio
Transferir aprendizaje (Transferir aprendizaje), como su nombre indica, consiste en transferir los parámetros de un modelo entrenado (modelo previamente entrenado) a un nuevo modelo para ayudar a entrenar el nuevo modelo. Teniendo en cuenta que la mayoría de los datos o tareas están relacionados, a través del aprendizaje por transferencia podemos compartir los parámetros aprendidos del modelo (que también pueden entenderse como el conocimiento aprendido por el modelo) con el nuevo modelo de alguna manera para acelerar el proceso. del modelo no requiere aprender desde cero como la mayoría de las redes.