Mindmap-Galerie K-bedeutet
Prinzip und Erweiterung des K-Means-Clustering-Algorithmus. Algorithmusidee: Teilen Sie für einen bestimmten Datenobjektsatz den Datenobjektsatz entsprechend dem Abstand zwischen den Datenobjekten in K Cluster auf, sodass die Punkte in den Clustern so eng wie möglich verbunden sind und der Abstand zwischen den Clustern so gering wie möglich ist . groß.
Bearbeitet um 2023-12-23 14:03:33Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Projektmanagement ist der Prozess der Anwendung von Fachwissen, Fähigkeiten, Werkzeugen und Methoden auf die Projektaktivitäten, so dass das Projekt die festgelegten Anforderungen und Erwartungen im Rahmen der begrenzten Ressourcen erreichen oder übertreffen kann. Dieses Diagramm bietet einen umfassenden Überblick über die 8 Komponenten des Projektmanagementprozesses und kann als generische Vorlage verwendet werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Projektmanagement ist der Prozess der Anwendung von Fachwissen, Fähigkeiten, Werkzeugen und Methoden auf die Projektaktivitäten, so dass das Projekt die festgelegten Anforderungen und Erwartungen im Rahmen der begrenzten Ressourcen erreichen oder übertreffen kann. Dieses Diagramm bietet einen umfassenden Überblick über die 8 Komponenten des Projektmanagementprozesses und kann als generische Vorlage verwendet werden.
K-bedeutet
Einführung
Algorithmusidee: Teilen Sie für einen bestimmten Datenobjektsatz den Datenobjektsatz entsprechend dem Abstand zwischen den Datenobjekten in K Cluster auf, sodass die Punkte in den Clustern so eng wie möglich verbunden sind und der Abstand zwischen den Clustern so gering wie möglich ist . groß
Illustration:
Algorithmusschritte
Schritt 1: Wählen Sie die anfänglichen Zentren der K-Cluster aus
Schritt 2: Berechnen Sie den Abstand zwischen jeder Stichprobe und den K-Anfangszentren und ordnen Sie sie dem Cluster mit dem geringsten Abstand zu.
Schritt 3: Berechnen Sie das Zentrum des Clusters (den Mittelwert der Stichproben im Cluster) neu.
Schritt 4: Wiederholen Sie die Schritte 2 und 3, bis sich alle Proben nicht mehr ändern.
Illustration:
Bei K-Means sind mehrere Probleme zu berücksichtigen
Wie wird die Anzahl der Cluster bestimmt?
Methode 1: Ellbogenmethode (Berechnung des SSE des Modells bei jedem K-Wert und Auswahl des K-Werts mit der kleinsten Änderung des SSE)
Illustration:
Methode 2: Silhouettenkoeffizient (Berechnen Sie den Silhouettenkoeffizienten des Modells unter jedem K-Wert und wählen Sie den K-Wert mit dem größten Silhouettenkoeffizienten aus.)
Idee: Clusterbewertung durch Untersuchung der Trennung und Kompaktheit von Clustern
Illustration:
Wie wird das Anfangszentrum bestimmt?
Methode 1: Zufällige Auswahl
Methode 2: Geben Sie den Standort an
Methode 3: K-Mittel
Idee: Versuchen Sie bei der Auswahl des Anfangszentrums, den Abstand zwischen den einzelnen Anfangszentren so weit wie möglich einzuhalten
Illustration:
Vor- und Nachteile von K-Mitteln
Vorteil
Es ist auch für große Datensätze einfach und effizient und weist eine geringe zeitliche und räumliche Komplexität auf.
Der Algorithmus ist gut interpretierbar
Mangel
Wenn der Datensatz groß ist, ist die Berechnungsgeschwindigkeit langsam und das Ergebnis ist leicht lokal optimal.
K-Mittel reagiert empfindlicher auf die Anzahl der K-Werte und die Position des anfänglichen Zentrums
K-means reagiert sehr empfindlich auf Rauschen und Ausreißer
Für Datensätze mit kategorialen Attributen kann der Mittelwert nicht berechnet werden, sodass der Algorithmus nicht verfügbar ist.
K-Mittel können nur sphärische Cluster gruppieren
Optimierung von K-Mitteln
Um das Problem der langsamen Berechnungsgeschwindigkeit zu lösen, wenn der Datensatz zu groß ist
Methode: Stichproben Sie den Datensatz mehrmals zufällig ab und gruppieren Sie jede abgetastete Teilmenge mit K-Mitteln, bis das Clusterzentrum stabil wird (MiniBatchKMeans).
Schritte des MiniBatchKMeans-Algorithmus
Schritt 1: Zufallsauswahl des Stichprobensatzes
Schritt 2: K-bedeutet
Schritt 3: Wiederholen Sie die Schritte 1 und 2, bis das Clusterzentrum stabil wird.
Für das Problem, dass der Mittelwert nicht berechnet werden kann, wenn das Attribut vom kategorialen Typ ist
Methode: Ersetzen Sie den Mittelwert durch Berechnung des Modus (K-Modus).
Für Datensätze, bei denen es schwierig ist, die Anzahl der Cluster K zu bestimmen
Methode: Berechnen Sie das Clusterzentrum anhand des Mittelwerts der Stichproben in einem bestimmten Bereich und aktualisieren Sie das Clusterzentrum kontinuierlich, bis das Clusterzentrum stabil wird (Mittelwertverschiebung).
Schritte des Mean-Shift-Algorithmus
Schritt 1: Wählen Sie zufällig einen Stichprobenpunkt aus und berechnen Sie den mittleren Vektor der Abstände von anderen Stichprobenpunkten zu diesem:
Schritt 2: Verschieben Sie die Position des Abtastpunkts entsprechend dem Mittelwertvektor und berechnen Sie dann erneut den Mittelwertvektor des Abstands von anderen Abtastpunkten zu ihm, bis der Absolutwert des Mittelwertvektors klein genug ist oder der Abtastpunkt nicht mehr verschoben werden kann .
Schritt 3: Wiederholen Sie die Schritte 1 und 2, bis alle Abtastpunkte durchlaufen sind
Mean-Shift-Optimierung
Bei der Berechnung des Mittelwertvektors wird der Beitrag anderer Abtastpunkte zum aktuellen Abtastpunkt nicht berücksichtigt.
Verwenden Sie die Gaußsche Kernelfunktion, um den Beitrag anderer Abtastpunkte zum aktuellen Abtastpunkt zu messen: