Mindmap-Galerie DBSCAN
Dichte-Clustering-Algorithmus, einschließlich Definition, verschiedene in DBSCAN enthaltene Konzepte, Algorithmusschritte, Vor- und Nachteile von DBSCAN usw.
Bearbeitet um 2023-12-23 14:05:37Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Projektmanagement ist der Prozess der Anwendung von Fachwissen, Fähigkeiten, Werkzeugen und Methoden auf die Projektaktivitäten, so dass das Projekt die festgelegten Anforderungen und Erwartungen im Rahmen der begrenzten Ressourcen erreichen oder übertreffen kann. Dieses Diagramm bietet einen umfassenden Überblick über die 8 Komponenten des Projektmanagementprozesses und kann als generische Vorlage verwendet werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Projektmanagement ist der Prozess der Anwendung von Fachwissen, Fähigkeiten, Werkzeugen und Methoden auf die Projektaktivitäten, so dass das Projekt die festgelegten Anforderungen und Erwartungen im Rahmen der begrenzten Ressourcen erreichen oder übertreffen kann. Dieses Diagramm bietet einen umfassenden Überblick über die 8 Komponenten des Projektmanagementprozesses und kann als generische Vorlage verwendet werden.
DBSCAN
Einführung
Algorithmusidee: Wenn die Dichte des angrenzenden Bereichs für jeden Kernpunkt größer als der Schwellenwert ist, fügen Sie ihn einem Cluster in der Nähe hinzu.
In DBSCAN sind mehrere Konzepte enthalten
Eps-Nachbarschaft: Zeichnen Sie bei gegebenem Objekt p und Radius d eine Kugel mit Objekt p als Mittelpunkt und Radius d:
Kernpunkt: Bei einem Objekt p und einer Anzahl minpts ist die Anzahl der Objekte in seiner Nachbarschaft größer als minpts:
Grenzpunkt: Bei einem gegebenen Objekt p und einer Anzahl minpts ist die Anzahl der Objekte in seiner Nachbarschaft geringer als minpts, liegt aber im Bereich anderer Kernpunkte.
Ausreißerpunkt: Bei einem Objekt p und einer Anzahl minpts ist die Anzahl der Objekte in seiner Nachbarschaft geringer als minpts und es liegt nicht im Bereich anderer Kernpunkte.
Direkte Erreichbarkeit der Dichte: Der Kernpunkt jedes Datenpunkts in seiner Nachbarschaft ist die direkt erreichbare Dichte:
Die Dichte ist erreichbar: vom Kernpunkt p bis zu einem Punkt q in seiner Nachbarschaft, also p->q; vom Kernpunkt q bis zu einem Punkt n in seiner Nachbarschaft, also q->n; n heißt erreichbare Dichte
Dichteverbunden: Wenn es einen Kernpunkt o, o->p; o->q gibt, dann heißt p und q dichteverbunden:
Algorithmusschritte
Schritt 1: Durchqueren und markieren Sie alle Probenpunkte
Schritt 2: Wählen Sie einen beliebigen Punkt ohne Clusterbezeichnung aus
Kernpunkt: Integrieren Sie alle Abtastpunkte mit erreichbarer Dichte in einen neuen Cluster
Grenzpunkt: Überspringen Sie den Grenzpunkt und scannen Sie den nächsten Probenpunkt
Schritt 3: Wiederholen Sie Schritt 2, bis alle Punkte gescannt sind
Vor- und Nachteile von DBSCAN
Vorteil
Unempfindlich gegenüber Lärm
Es können Cluster beliebiger Form gefunden werden
Die Anzahl der Cluster muss nicht manuell festgelegt werden
Mangel
Das Modell reagiert sehr empfindlich auf die Parameter Eps und Minpts
Wenn die Dichte der Daten ungleichmäßig ist und sich die Clusterabstände stark unterscheiden, ist die Clusterqualität schlecht.
Optimierung
Für Parameter-sensible Probleme
Methode: Durch die Einführung der Kernentfernung und der erreichbaren Entfernung wird der Clustering-Algorithmus unempfindlich gegenüber den Eingabeparametern. Das heißt, der OPTICS-Algorithmus
OPTIK
Algorithmusidee: Berechnen Sie die erreichbare Entfernung aller Abtastwerte, um die Empfindlichkeit des Eps-Parameters auszugleichen
mehrere Konzepte
Kernabstand: der Mindestabstand, der Minpts erfüllt
Erreichbarer Abstand: Der kleinere Wert des euklidischen Abstands zwischen dem Probenpunkt und dem Kernpunkt und der Kernabstand des Kernpunkts
Algorithmusschritte
Schritt 1: Erstellen Sie anhand des Datensatzes D zwei Warteschlangen, die geordnete Warteschlange O und die Ergebniswarteschlange R (die geordnete Warteschlange wird zum Speichern von Kernobjekten und deren Direktobjekten verwendet und ist in aufsteigender Reihenfolge nach erreichbarer Entfernung angeordnet; Das Ergebnis Die Warteschlange dient zum Speichern der Ausgabereihenfolge der Stichprobenpunkte. Die geordnete Warteschlange kann als zu verarbeitende Daten verstanden werden, während die Ergebniswarteschlange die verarbeiteten Daten enthält.
Schritt 2: Wenn alle Punkte in D verarbeitet wurden oder keine Kernpunkte vorhanden sind, endet der Algorithmus. Andernfalls wählen Sie einen Stichprobenpunkt p aus, der unverarbeitet ist (dh nicht in der Ergebniswarteschlange R enthalten ist) und ein Kernobjekt ist. Legen Sie p zunächst in die Ergebniswarteschlange R und löschen Sie p aus D. Finden Sie dann alle Dichten von p in D direkt zum Beispielpunkt x und berechnen Sie den erreichbaren Abstand von x zu p. Wenn x nicht in der geordneten Warteschlange O ist, geben Sie x und den erreichbaren Abstand in O ein. Wenn x in O liegt Wenn der neue erreichbare Abstand von x kleiner ist, aktualisieren Sie den erreichbaren Abstand von x und ordnen Sie schließlich die Daten in O entsprechend dem erreichbaren Abstand von klein nach groß neu.
Schritt 3: Wenn die geordnete Warteschlange O leer ist, kehren Sie zu Schritt 2 zurück. Andernfalls nehmen Sie den ersten Abtastpunkt y in O (dh den Abtastpunkt mit der kleinsten erreichbaren Entfernung) heraus, fügen Sie ihn in R ein und entfernen Sie ihn aus D und O löschen y. Wenn y kein Kernobjekt ist, wiederholen Sie Schritt 3 (d. h. suchen Sie den Abtastpunkt mit der kleinsten erreichbaren Entfernung der verbleibenden Daten in O). Wenn y ein Kernobjekt ist, ermitteln Sie alle Dichten von y in D, die den erreichen Abtastpunkte, berechnen Sie die erreichbare Entfernung und befolgen Sie dann Schritt 2, um die Dichte aller y bis zu den Abtastpunkten in O zu aktualisieren
Schritt 4: Wiederholen Sie die Schritte 2 und 3, bis der Algorithmus endet, und erhalten Sie schließlich ein geordnetes Ausgabeergebnis und die entsprechende erreichbare Entfernung.
Zum Beispiel
Der bekannte Datensatz ist in der Abbildung dargestellt:
Schritt 1: Berechnen Sie die erreichbare Entfernung vom Kernpunkt zu anderen Punkten
Schritt 2: Sortieren Sie die erreichbare Entfernung, wählen Sie kleinere Stichprobenpunkte aus und wiederholen Sie Schritt eins:
Schritt 3: Geben Sie die Kernobjekte und ihre erreichbaren Entfernungen aus und teilen Sie sie in Cluster auf: [0, 1, 3, 6, 5, 2, 4], erreichbare Entfernungen: [inf, 3.16227766, 4.12310563, 1.41421356, 1 ,3.60555128, 1.41421356]