Mindmap-Galerie vollständig verbundenes neuronales Netzwerk
Detaillierte Klassifizierung vollständig verbundener neuronaler Netze kaskadieren mehrere Transformationen, um eine Eingabe-Ausgabe-Zuordnung zu erreichen. Sie bestehen aus einer Eingabeschicht, einer Ausgabeschicht und mehreren verborgenen Schichten.
Bearbeitet um 2023-07-27 22:52:26Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Projektmanagement ist der Prozess der Anwendung von Fachwissen, Fähigkeiten, Werkzeugen und Methoden auf die Projektaktivitäten, so dass das Projekt die festgelegten Anforderungen und Erwartungen im Rahmen der begrenzten Ressourcen erreichen oder übertreffen kann. Dieses Diagramm bietet einen umfassenden Überblick über die 8 Komponenten des Projektmanagementprozesses und kann als generische Vorlage verwendet werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Projektmanagement ist der Prozess der Anwendung von Fachwissen, Fähigkeiten, Werkzeugen und Methoden auf die Projektaktivitäten, so dass das Projekt die festgelegten Anforderungen und Erwartungen im Rahmen der begrenzten Ressourcen erreichen oder übertreffen kann. Dieses Diagramm bietet einen umfassenden Überblick über die 8 Komponenten des Projektmanagementprozesses und kann als generische Vorlage verwendet werden.
vollständig verbundenes neuronales Netzwerk
Definition
Vollständig verbundene neuronale Netze kaskadieren mehrere Transformationen, um eine Eingabe-Ausgabe-Zuordnung zu erreichen.
Zweischichtiges, vollständig verbundenes Netzwerk
Verglichen
linearer Klassifikator
W kann als Vorlage betrachtet werden, und die Anzahl der Vorlagen wird durch die Anzahl der Kategorien bestimmt.
Vollständig verbunden
W1 kann auch als Vorlage angesehen werden
W2 kombiniert die Übereinstimmungsergebnisse mehrerer Vorlagen, um die endgültige Kategoriebewertung zu erzielen
nichtlinear
Komposition
Eine Eingabeebene, eine Ausgabeebene und mehrere verborgene Ebenen
Aktivierungsfunktion
Häufig verwendete Aktivierungsfunktionen
Sigmoid
ReLU
Tanh
Undichte ReLU
Design der Netzwerkstruktur
Je größer die Anzahl der Neuronen, desto komplexer ist die Schnittstelle und desto stärker ist die Klassifizierungsfähigkeit dieser Menge.
Die Komplexität des neuronalen Netzwerkmodells wird entsprechend der Schwierigkeit der Klassifizierungsaufgabe angepasst. Je schwieriger die Aufgabe, desto tiefer und breiter sollte die neuronale Netzwerkstruktur entworfen werden. Dabei sollte jedoch auf das Phänomen der Überanpassung geachtet werden.
SOFTMAX und Kreuzentropieverlust
Softmax
Normalisieren Sie die Ausgabeergebnisse
Konvertieren Sie Ausgabeergebnisse in Wahrscheinlichkeiten
Entropieverlust
Wird verwendet, um die Differenz vom tatsächlichen Wert zu messen (One-Hot-Code) – KL-Divergenz
Optimierung
Rechendiagramm
Schritt
Jede komplexe Funktion kann in Form eines Rechendiagramms ausgedrückt werden
Im gesamten Rechendiagramm erhält jede Gate-Einheit einige Eingaben und führt dann Berechnungen durch
Der Ausgabewert dieses Gates
Der lokale Gradient seines Ausgabewerts in Bezug auf den Eingabewert
Unter Verwendung der Kettenregel sollte die Gate-Einheit den zurückgegebenen Gradienten mit dem lokalen Gradienten ihrer Eingabe multiplizieren, um für jeden Eingabewert der Gate-Einheit den Gradienten der gesamten Netzwerkausgabe zu erhalten.
Gemeinsame Türeinheiten
Zusätzliches Tor
Multiplikationstor
Kopiertor
maximale Tür
Frage
Farbverlauf verschwindet
Aufgrund der multiplikativen Eigenschaften der Kettenregel
Gradientenexplosion
Aufgrund der multiplikativen Eigenschaften der Kettenregel
Lösung
Verwenden Sie die entsprechende Aktivierungsfunktion
Impulsmethode
Reduzieren Sie die Schrittweite der Oszillationsrichtung
Vorteil
Brechen Sie aus dem hochdimensionalen Sattelpunkt aus
Brechen Sie aus lokalen Optima und Sattelpunkten aus
Adaptive Gradientenmethode
Reduzieren Sie die Schrittweite in Oszillationsrichtung und erhöhen Sie die Schrittweite in Flachrichtung.
Das Quadrat der Gradientenamplitude ist die Richtung der Schwingung
Das Quadrat der Gradientenamplitude ist die flache Richtung.
RMSProp-Methode
ADAM
Eine Kombination aus Impulsmethode und adaptiver Gradientenmethode, die jedoch korrigiert werden muss, um beim Kaltstart nicht zu langsam zu sein.
Zusammenfassen
Die Momentum-Methode SGD ist die beste, erfordert jedoch eine manuelle Anpassung
ADAM ist einfach zu verwenden, aber schwer zu optimieren
Gewichtsinitialisierung
Null-Initialisierung
nicht so gut
zufällige Initialisierung
Verwenden Sie die Gaußsche Verteilung
Es besteht eine hohe Wahrscheinlichkeit, dass der Gradient verschwindet und der Informationsfluss verschwindet.
Xavier-Initialisierung
Die Varianz der Aktivierungswerte der Neuronen in jeder Schicht ist grundsätzlich gleich.
Zusammenfassung
Eine gute Initialisierungsmethode kann verhindern, dass Informationen während der Vorwärtsausbreitung verschwinden, und kann auch das Problem des Verschwindens des Gradienten während der Rückwärtsausbreitung lösen.
Bei der Auswahl von Tangens hyperbolicus oder Sigmoid als Aktivierungsfunktion wird empfohlen, die Xaizer-Initialisierungsmethode zu verwenden.
Bei Auswahl von ReLU oder Leakly ReLU als Aktivierungsfunktion wird die Verwendung der He-Initialisierungsmethode empfohlen.
Batch-Normalisierung
BN-Schicht genannt
Methode
Passen Sie die Gewichtsverteilung so an, dass Eingabe und Ausgabe die gleiche Verteilung haben
Passen Sie die y-Ausgabe nach dem Batch-Training an – subtrahieren Sie den Mittelwert, um die Varianz zu entfernen
Unter diesen müssen der Mittelwert und die Varianz der Datenverteilung unabhängig vom Beitrag zur Klassifizierung bestimmt werden.
Nutzen
Lösen Sie das Problem des Signalverschwindens und des Gradientenverschwindens während des Vorwärtsdurchlaufs
Überanpassung und Unteranpassung
Überanpassung
Wenn die Modellfähigkeit im Trainingssatz abnimmt und im Validierungssatz zuzunehmen beginnt, beginnt eine Überanpassung.
Beim Lernen enthält das ausgewählte Modell zu viele Parameter, was zu guten Vorhersagen für bekannte Daten, aber schlechten Vorhersagen für unbekannte Daten führt.
Normalerweise werden die Trainingsdaten gespeichert und nicht die gelernten Datenmerkmale.
Lösung
Erhalten Sie mehr Trainingsdaten
Regulieren Sie das Modell, um Informationen zuzulassen oder einzuschränken – Regularisierung
Passen Sie die Modellgröße an
Modellgewichte einschränken, Gewichtsregulierung
Zufällige Deaktivierung (Dropout)
Lassen Sie die Neuronen der verborgenen Schicht mit einer bestimmten Wahrscheinlichkeit nicht aktiviert werden
erreichen
Während des Trainingsprozesses bedeutet die Verwendung von Dropout auf einer bestimmten Schicht, dass einige Ausgaben der Schicht zufällig verworfen werden. Diese verworfenen Neuronen scheinen vom Netzwerk gelöscht zu werden.
zufällige Verlustquote
ist der Anteil der Features, der auf 0 gesetzt ist, normalerweise im Bereich von 0,2 bis 0,5
Kann als Modellintegration mehrerer kleiner Netzwerke angesehen werden
Unteranpassung
Die Fähigkeit zur Modellbeschreibung ist zu schwach, um die Muster in den Daten gut zu lernen.
Normalerweise ist das Modell zu einfach
Hyperparameter-Tuning
Lernrate
ist zu groß
Konvergenz nicht möglich
Zu groß
Schwankt nahe dem Minimalwert und kann den optimalen Wert nicht erreichen.
zu klein
Lange Konvergenzzeit
Mäßig
Schnelle Konvergenz und gute Ergebnisse
Optimierung
Rastersuchmethode
Jeder Hyperparameter nimmt mehrere Werte an und diese Hyperparameter werden kombiniert, um mehrere Sätze von Hyperparametern zu bilden.
Bewerten Sie die Modellleistung für jeden Satz von Hyperparametern auf dem Validator
Wählen Sie den Wertesatz aus, der vom Modell mit der besten Leistung als endgültige Hyperparameterwerte verwendet wird.
Zufällige Suchmethode
Wählen Sie zufällig Punkte im Parameterraum aus. Jeder Punkt entspricht einer Reihe von Hyperparametern
Bewerten Sie die Modellleistung für jeden Satz von Hyperparametern im Validierungssatz
Wählen Sie den vom Modell mit der besten Leistung verwendeten Wertesatz als endgültige Hyperparameterwerte aus.
Im Allgemeinen erfolgt die Zufallsstichprobe im Protokollbereich.