Mindmap-Galerie Mustererkennung
Auch maschinelles Lernen oder Data Mining genannt. Es umfasst hauptsächlich Einführung, Datenvorverarbeitung, Clusteranalyse, Bayes'sche Klassifizierung, Methode des nächsten Nachbarn usw.
Bearbeitet um 2024-02-04 00:51:57Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Projektmanagement ist der Prozess der Anwendung von Fachwissen, Fähigkeiten, Werkzeugen und Methoden auf die Projektaktivitäten, so dass das Projekt die festgelegten Anforderungen und Erwartungen im Rahmen der begrenzten Ressourcen erreichen oder übertreffen kann. Dieses Diagramm bietet einen umfassenden Überblick über die 8 Komponenten des Projektmanagementprozesses und kann als generische Vorlage verwendet werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Projektmanagement ist der Prozess der Anwendung von Fachwissen, Fähigkeiten, Werkzeugen und Methoden auf die Projektaktivitäten, so dass das Projekt die festgelegten Anforderungen und Erwartungen im Rahmen der begrenzten Ressourcen erreichen oder übertreffen kann. Dieses Diagramm bietet einen umfassenden Überblick über die 8 Komponenten des Projektmanagementprozesses und kann als generische Vorlage verwendet werden.
Mustererkennung
Einführung
Grundkonzepte der Mustererkennung
Mustererkennung
Der Einsatz von Computern zur Verwirklichung der Fähigkeit von Menschen zur Mustererkennung ist eine Technologie, die mithilfe von Computern die Analyse, Beschreibung, Beurteilung und Identifizierung verschiedener Dinge oder Phänomene durch Menschen realisiert und die zu erkennenden Dinge verschiedenen Musterkategorien zuordnet.
Mustererkennung kann als Zuordnung von Mustern zu Kategorien betrachtet werden
Modell
Informationen über einen Stoff oder ein Phänomen
Im Großen und Ganzen können beobachtbare Objekte, die in Zeit und Raum existieren, als Muster bezeichnet werden, wenn sie als gleich oder ähnlich unterschieden werden können.
Ein Muster ist eine Beschreibung eines Objekts, die durch Informationssammlung entsteht. Diese Beschreibung sollte standardisiert, verständlich und identifizierbar sein.
veranschaulichen
Ein Muster ist nicht die Sache selbst, sondern die aus der Sache gewonnene Information. Zum Beispiel Fotos und persönliche Informationen von Personen
Kann unterscheiden, ob Muster ähnlich sind (relevant für die Frage)
Muster werden im Allgemeinen durch Vektoren dargestellt und Indizes können Zeitmerkmale, räumliche Merkmale oder andere Identifikatoren widerspiegeln.
Mustervektor
Informationen mit zeitlicher und räumlicher Verteilung, die durch die Beobachtung bestimmter Einzeldinge gewonnen werden (sogenannte Proben oder Probenvektoren)
Musterklasse
Die Kategorie, zu der ein Muster gehört, oder die Gesamtheit der Muster in derselben Kategorie (kurz Kategorie)
Mustererkennungssystem
Besteht aus zwei Prozessen: Design und Implementierung
Die Kategorie, zu der ein Muster gehört, oder die Gesamtheit der Muster in derselben Kategorie (kurz Kategorie)
Design (Training, Lernen)
Bezieht sich auf die Verwendung einer bestimmten Anzahl von Stichproben (als Trainingssatz oder Lernsatz bezeichnet), um einen Klassifikator zu entwerfen
Realisierung (Entscheidung, Klassifizierung, Urteil)
Bezieht sich auf die Verwendung des entworfenen Klassifikators, um Klassifizierungsentscheidungen für die zu identifizierenden Proben zu treffen.
Systemzusammensetzung
Datenerfassung (Datenerfassung)
Weg
Über verschiedene Sensoren werden Informationen wie Licht oder Ton in elektrische Informationen umgewandelt oder Textinformationen in den Computer eingegeben
Einstufung
Eindimensionale Wellenformen: Schallwellen, Elektrokardiogramm, Elektroenzephalogramm usw.
Zweidimensionale Bilder: Text, Bilder usw.
3D-Bilder: Gesichter usw.
Physikalische Größen: Körpergröße, Gewicht, Produktgewicht, Qualitätsniveau usw.
Logische Größe (0/1): Anwesenheit oder Abwesenheit, männlich und weiblich usw.
Vorverarbeitung
Zweck
Entfernen Sie Rauschen und verbessern Sie nützliche Informationen
Häufig verwendete Techniken
Eindimensionale Signalfilterung und -entrauschung, Bildglättung, Verbesserung, Wiederherstellung, Filterung usw.
Merkmalsextraktion und -auswahl
Zweck
Erhalten Sie aus den Originaldaten die Merkmale, die die Art der Klassifizierung am besten widerspiegeln
Merkmalsbildung
Aus den Originaldaten werden auf verschiedene Weise mehrere Merkmale ermittelt, die Klassifizierungsprobleme widerspiegeln (manchmal ist eine Datenstandardisierung erforderlich).
Merkmalsauswahl
Wählen Sie aus den Merkmalen mehrere Merkmale aus, die für die Klassifizierung am vorteilhaftesten sind
Merkmalsextraktion
Reduzieren Sie die Anzahl der Features durch bestimmte mathematische Transformationen
Klassifizierungsentscheidung oder Modellanpassung
Verwenden Sie Entscheidungsregeln im Feature-Space, um das erkannte Objekt einer bestimmten Kategorie zuzuordnen
veranschaulichen
Diese Systemstruktur eignet sich für statistische Mustererkennung, Fuzzy-Mustererkennung und überwachte Methoden in künstlichen neuronalen Netzen.
Bei Methoden zur Erkennung struktureller Muster wird nur die primitive Extraktion verwendet, um die Merkmalsextraktion und -auswahl zu ersetzen.
Bei der Clusteranalyse werden Klassifikatordesign und Entscheidungsfindung in einem Schritt integriert.
Bildfunktionen
Farbe
Textur
Form
Räumliche Beziehungen
vier Leerzeichen
Drei große Aufgaben
Mustersammlung
Merkmalsextraktion und Merkmalsauswahl
Typdiskriminierung
Verwandte Fragen
Leistungsbeurteilung
Testfehlerrate oder Fehlerquote
Rechenkomplexität
teilen
Klassifizierungsbasis
Frage- oder Beispielcharakter
Überwachte Mustererkennung
Erstellen Sie zunächst einen Probenstapel mit Kategoriebezeichnungen, entwerfen Sie einen Klassifikator basierend auf dem Probensatz und bestimmen Sie dann die neue Probenkategorie
Unüberwachte Mustererkennung
Es gibt nur eine Probencharge und der Probensatz wird basierend auf der Ähnlichkeit zwischen den Proben direkt in mehrere Kategorien unterteilt.
Hauptmethode
statistische Mustererkennung
Einstufung
unbeaufsichtigte Klassifizierung
Clusteranalyse
Überwachte Klassifizierung
Klassifizierung der Sammlung
Wahrscheinlichkeitsklassifizierung
Beschreiben Sie die Methode
Merkmalsvektor
Modusbestimmung
Ausgedrückt durch die bedingte Wahrscheinlichkeitsverteilung P (X/i), gibt es m Verteilungen in m Kategorien, und dann wird bestimmt, zu welcher Verteilung das unbekannte Muster gehört.
Theoretische Basis
Wahrscheinlichkeitstheorie
mathematische Statistik
Vorteil
Reifer
Kann die Auswirkungen von Störgeräuschen berücksichtigen
Starke Fähigkeit, Musterprimitive zu erkennen
Mangel
Es ist schwierig, Merkmale aus Mustern mit komplexen Strukturen zu extrahieren
Es kann die strukturellen Merkmale des Musters nicht widerspiegeln und es ist schwierig, die Natur des Musters zu beschreiben.
Schwierigkeiten, Identifikationsprobleme aus einer ganzheitlichen Perspektive zu betrachten
Strukturelle Mustererkennung
Fuzzy-Mustererkennung
Methode des neuronalen Netzwerks
Theoretische Basis
Neurophysiologie
Psychologie
Musterbeschreibungsmethode
Satz von Eingabeknoten, dargestellt durch unterschiedliche Aktivitätsstufen
Modusbestimmung
nichtlineares dynamisches System
Hauptmethode
BP-Modell, HOPField-Modell
Vorteil
Komplexe nichtlineare Probleme effektiv lösen
Lassen Sie zu, dass Proben größere Defekte und Verzerrungen aufweisen
Mangel
Mangel an effektiver Lerntheorie
lange Zeit
Anwendungsbereiche
Bilder, Gesichter, Texte, Zahlen, Fingerabdrücke, Stimmen ...
grundsätzliches Problem
Methode zur Darstellung von Mustern (Beispielen).
n-dimensionaler Spaltenvektor
x= (x1, x2, …, xn)T
Kompaktheit von Musterklassen
kritischer Punkt (Probe)
Wenn sich in einem Probensatz mit mehreren Kategorien die charakteristischen Werte einiger Proben geringfügig ändern, werden sie zu einer anderen Probenkategorie. Solche Proben werden als kritische Proben (Punkte) bezeichnet.
fest eingestellt
Definition
Die Verteilung der Stichproben derselben Musterklasse ist relativ konzentriert, es gibt keine oder nur sehr wenige kritische Stichproben. Solche Musterklassen werden als kompakte Mengen bezeichnet.
Natur
Sehr wenige kritische Punkte
Eine Linie, die zwei beliebige Punkte in einer Menge verbindet. Die Punkte auf der Linie gehören zu derselben Menge.
Jeder Punkt in der Menge hat eine ausreichend große Nachbarschaft, und die Nachbarschaft enthält nur Punkte aus derselben Menge.
Erfordern
erfüllt die Dichtheit
Ähnlichkeit
Drücken Sie Ähnlichkeit durch unterschiedliche Entfernungen aus
Gemeinsame Distanz
Minkowski-Distanz
Absolutwertentfernung oder Stadtentfernung oder Manhattan-Entfernung (q=1)
Euklidischer Abstand (q=2)
Schachbrettabstand oder Tschebyscheff-Abstand (q=∞)
Mahalanobis-Entfernung
wo die Kovarianzmatrix und der Mittelwert liegen
Standardisierung von Daten
Zweck
Eliminieren Sie den Einfluss des numerischen Bereichs zwischen den einzelnen Komponenten auf den Algorithmus
Methode
Standardisieren auf [0,1] oder [-1, 1], Varianzstandardisierung
Formel
Feature-Normalisierung
Varianznormalisierung
Datenvorverarbeitung
Warum Daten vorverarbeiten?
nicht gut
unvollständig
Bei der Datenerhebung mangelt es an entsprechenden Werten
Unterschiedliche Überlegungen bei der Datenerfassung und Datenanalyse
Probleme mit Mensch/Hardware/Software
laut
Probleme mit Datenerfassungstools
Menschlicher/Computerfehler bei der Dateneingabe
Fehler bei der Datenübertragung
Inkonsistente Datentypen
verschiedene Datenquellen
funktionale Abhängigkeit verletzt
Gut
Korrektheit: z. B. ob es richtig, genau oder nicht usw. ist.
Vollständigkeit: wenn Daten fehlen oder nicht abgerufen werden können
Konsistenz: wenn einige Daten geändert wurden, andere jedoch nicht
Zuverlässigkeit: Beschreibt den Grad der Sicherheit, dass die Daten korrekt sind
Aufgabe
Datenreinigung
Ergänzen Sie fehlende Werte, glätten Sie verrauschte Daten, identifizieren und entfernen Sie Ausreißer und beheben Sie Inkonsistenzen
Datenintegration
Integrieren Sie mehrere Datenbanken, Datenwürfel oder Dateien
Datentransformation und Diskretisierung
Standardisieren
Konzept der hierarchischen Generation
Datenreduzierung
Dimensionsreduzierung
Mengenreduzierung
Datenkompression
Merkmalsextraktion und Merkmalsauswahl
Datenreinigung
❑ Fehlende Werte ergänzen
Grund
❑ Geräteanomalie
❑ Aufgrund von Inkonsistenzen mit anderen vorhandenen Daten gelöscht
❑ Daten, die aufgrund eines Missverständnisses nicht eingegeben wurden
❑ Einige Daten wurden nicht eingegeben, weil sie bei der Eingabe nicht ernst genommen wurden.
❑ Keine Protokollierung von Datenänderungen
bewältigen
◼ Tupel ignorieren: Dies wird normalerweise durchgeführt, wenn die Klassenbezeichnung fehlt (vorausgesetzt, die Mining-Aufgabe soll klassifizieren oder beschreiben), wenn sich der Prozentsatz der fehlenden Werte für jedes Attribut ändert (die Aufgabe soll klassifizieren oder beschreiben), Wenn der Prozentsatz fehlender Werte für jedes Attribut stark variiert, ist die Wirkung sehr gering.
„Klassenbezeichnung“ (Klassenbezeichnung oder Zielbezeichnung) bezieht sich normalerweise auf „die Bezeichnung, die zur Darstellung der Klasse oder Gruppe verwendet wird, zu der die Stichprobe gehört“ im Datensatz.
◼ Manuelles Ausfüllen fehlender Werte: hoher Arbeitsaufwand und geringe Durchführbarkeit
◼ Fehlende Werte automatisch ergänzen
❑ Verwenden Sie eine globale Variable: z. B. unbekannt oder -∞
❑ Verwenden Sie Attributdurchschnitte
❑ Verwenden Sie den Mittelwert oder Median aller Stichproben, die zur gleichen Klasse wie das angegebene Tupel gehören
❑ Ergänzen Sie die fehlenden Werte mit den wahrscheinlichsten Werten: Verwenden Sie inferenzbasierte Methoden wie die Bayes'sche Formel oder Entscheidungsbäume
❑ Glatte Geräuschdaten
Grund
❑ Probleme mit Datenerfassungstools
❑ Dateneingabefehler
❑ Datenübertragungsfehler
❑ Technische Einschränkungen
❑ Inkonsistenz in den Benennungsregeln
bewältigen
Klasseneinteilung
Sortieren Sie die Daten zunächst und unterteilen Sie sie in Abschnitte gleicher Tiefe. Anschließend können Sie sie anhand des Mittelwerts des Abschnitts, anhand des Medianwerts des Abschnitts, anhand der Grenze des Abschnitts usw. glätten.
arbeiten
Gleichtiefes Binning
Grenzwertglättung: Alle Werte in Maximal- oder Minimalwerte umwandeln
Binning gleicher Breite
[110,155), links geschlossen und rechts offen
Clusterbildung
Ausreißer durch Clustering erkennen und entfernen
zurückkehren
Glätten Sie Daten, indem Sie sie an eine Regressionsfunktion anpassen
❑ Ausreißer identifizieren oder löschen
❑ Beheben Sie Inkonsistenzen in den Daten
Datenintegration
◼ Datenintegration:
❑ Konsolidieren Sie Daten aus mehreren Datenquellen in einem konsistenten Speicher
◼ Musterintegration:
❑ Integrieren Sie Metadaten aus verschiedenen Datenquellen
◼ z.B. A.cust_id = B.customer_no
◼ Entitätserkennungsproblem:
❑ Vergleichen Sie reale Entitäten aus verschiedenen Datenquellen
◼ z.B. Bill Clinton = William Clinton
◼ Datenwertkonflikte erkennen und lösen
❑ Für dieselbe Entität in der realen Welt können Attributwerte aus verschiedenen Datenquellen unterschiedlich sein
❑ Mögliche Gründe: unterschiedliche Datendarstellung, unterschiedliche Messungen usw.
Datenreduzierung
Zweck
◆Die komplexe Datenanalyse umfangreicher Datenbankinhalte nimmt oft viel Zeit in Anspruch, was die Analyse der Originaldaten unrealistisch und undurchführbar macht.
◆Datenreduzierung: Bei der Datenreduzierung oder -reduzierung geht es darum, die Größe der abgebauten Daten zu reduzieren, ohne die endgültigen Mining-Ergebnisse zu beeinträchtigen.
◆Datenreduktionstechniken können verwendet werden, um eine reduzierte Darstellung des Datensatzes zu erhalten, der viel kleiner ist, aber dennoch nahezu die Integrität der Originaldaten beibehält.
◆Das Mining des reduzierten Datensatzes kann die Effizienz des Minings steigern und zu denselben (oder fast denselben) Ergebnissen führen.
Standard
◆Die für die Datenreduzierung aufgewendete Zeit sollte die beim Mining des reduzierten Datensatzes eingesparte Zeit nicht überschreiten oder „ausgleichen“.
◆Die durch Reduktion erhaltenen Daten sind viel kleiner als die Originaldaten, können jedoch dieselben oder nahezu dieselben Analyseergebnisse liefern.
Methode
◆Datenwürfelaggregation;
Aggregieren Sie n-dimensionale Datenwürfel zu n-1-dimensionalen Datenwürfeln.
◆Dimensionsreduzierung (Attributreduzierung);
Finden Sie den Mindestsatz an Attributen, um sicherzustellen, dass die Wahrscheinlichkeitsverteilung des neuen Datensatzes so nah wie möglich an der Wahrscheinlichkeitsverteilung des ursprünglichen Datensatzes liegt.
PCA
◆Datenkomprimierung;
Verlustfreie Kompression
Verlustbehaftete Komprimierung
◆Numerische Reduzierung;
Reduzieren Sie das Datenvolumen, indem Sie alternative, kleinere Datendarstellungen wählen.
Typ
Histogramm
Clusterbildung
Probenahme
◆Diskretisierung und hierarchische Generierung von Konzepten.
Standardisieren
Min-Max-Normalisierung
Es muss richtig sein
Z-Score-Normalisierung (Null-Mittelwert-Normalisierung)
Kann negativ sein
Diskretisierung
Zweck
Bei der Datendiskretisierung werden die Werte kontinuierlicher Daten in mehrere Intervalle unterteilt, um die Komplexität des ursprünglichen Datensatzes zu vereinfachen.
Typ
Werte in einer ungeordneten Menge, z. B. Farbe, Beruf
Werte in einer geordneten Menge, z. B. militärischer Rang, Berufsbezeichnung
Kontinuierliche Werte; z. B. reelle Zahlen
Konzeptschichtung
Clusteranalyse
Konzept
Gedanke
Klassifizieren Sie jedes klassifizierte Modell anhand eines bestimmten Ähnlichkeitsmaßes.
Gruppieren Sie ähnliche in einer Kategorie
Algorithmus
Einfache Clustering-Methode basierend auf dem Ähnlichkeitsschwellenwert und dem Mindestabstandsprinzip
Eine Methode zur kontinuierlichen Zusammenführung zweier Kategorien nach dem Mindestabstandsprinzip
Dynamische Clustering-Methode basierend auf der Kriteriumsfunktion
Anwendung
Die Clusteranalyse kann als Vorverarbeitungsschritt für andere Algorithmen verwendet werden
Kann als unabhängiges Tool verwendet werden, um die Verteilung von Daten zu ermitteln
Die Clusteranalyse kann das isolierte Punkt-Mining abschließen
Partitionsbasierte Clustering-Methoden
Die Partitionierungsmethode besteht darin, Datenobjekte in nicht überlappende Teilmengen (Cluster) zu unterteilen, sodass sich jedes Datenobjekt in genau einer Teilmenge befindet.
Einstufung
Distanztyp
Euklidische Entfernung
Manhattan-Entfernung
Minkowski-Distanz
Die Min-Distanz ist keine Distanz, sondern eine Reihe von Distanzdefinitionen.
Algorithmustyp
k-means (K-means)-Algorithmus
Eingabe: die Anzahl der Cluster k und die Datenbank D mit n Objekten
Ausgabe: k Cluster, die das quadratische Fehlerkriterium minimieren.
Algorithmusschritte
1. Bestimmen Sie für jeden Cluster ein anfängliches Clusterzentrum, sodass es K anfängliche Clusterzentren gibt. 2. Die Stichproben im Stichprobensatz werden nach dem Mindestabstandsprinzip den nächstgelegenen Nachbarclustern zugeordnet. 3. Verwenden Sie den Stichprobenmittelwert in jedem Cluster als neues Clusterzentrum. 4. Wiederholen Sie die Schritte 2 und 3, bis sich das Clusterzentrum nicht mehr ändert. 5. Am Ende werden K-Cluster erhalten.
Merkmale
Vorteil
Einfach und schnell
Skalierbar und effizient
Der Effekt ist besser, wenn die Ergebnismenge dicht ist
Mangel
Kann nur verwendet werden, wenn der Cluster-Mittelwert definiert ist
k muss im Voraus angegeben werden
Es reagiert sehr empfindlich auf den Anfangswert und wirkt sich direkt auf die Anzahl der Iterationen aus.
Nicht geeignet für die Suche nach Clustern mit nicht konvexen Formen oder Clustern mit stark unterschiedlichen Größen.
Reagiert empfindlich auf „Rauschen“ und Ausreißerdaten
Verbessern
K-Mode-Algorithmus: Realisiert ein schnelles Clustering diskreter Daten, behält die Effizienz des K-Means-Algorithmus bei und erweitert den Anwendungsbereich von K-Means auf diskrete Daten.
K-Prototyp-Algorithmus: Er kann Daten gruppieren, die eine Mischung aus diskreten und numerischen Attributen sind. Im K-Prototyp wird eine Unähnlichkeitsmetrik definiert, die sowohl numerische als auch diskrete Attribute berechnet.
k-Mediods-Algorithmus (K-Mediods): Der k-Means-Algorithmus reagiert empfindlich auf isolierte Punkte. Um dieses Problem zu lösen, können Sie anstelle des Durchschnittswerts im Cluster als Referenzpunkt das zentralste Objekt im Cluster, dh den Mittelpunkt, als Referenzpunkt auswählen. Diese Divisionsmethode basiert immer noch auf dem Prinzip, die Summe der Unähnlichkeiten zwischen allen Objekten und ihren Referenzpunkten zu minimieren.
k-Medoids-Algorithmus (K-Mittelpunkt).
Eingabe: die Anzahl der Cluster k und eine Datenbank mit n Objekten.
Ausgabe: k Cluster
Algorithmusschritte
1. Bestimmen Sie ein anfängliches Clusterzentrum für jeden Cluster, sodass es k anfängliche Clusterzentren gibt. 2. Berechnen Sie die Abstände aller anderen Punkte zu den k Mittelpunkten und betrachten Sie den kürzesten Cluster von jedem Punkt zu den k Mittelpunkten als den Cluster, zu dem er gehört. 3. Wählen Sie die Punkte in jedem Cluster der Reihe nach aus, berechnen Sie die Summe der Abstände von diesem Punkt zu allen Punkten im aktuellen Cluster. Der Punkt mit der kleinsten endgültigen Distanzsumme wird als neuer Mittelpunkt betrachtet. 4. Wiederholen Sie die Schritte 2 und 3, bis sich die Mittelpunkte jedes Clusters nicht mehr ändern. 5. Am Ende werden k Cluster erhalten.
Merkmale
Vorteil
Der K-Medoids-Algorithmus berechnet den Punkt mit der kleinsten Summe der Abstände von einem bestimmten Punkt zu allen anderen Punkten. Der Einfluss einiger isolierter Daten auf den Clustering-Prozess kann durch die Berechnung der kleinsten Summe der Abstände reduziert werden. Dadurch kommt der Endeffekt näher an die tatsächliche Teilung heran.
Mangel
Im Vergleich zum K-Means-Algorithmus wird der Rechenaufwand um etwa O(n) erhöht, sodass der K-Medoids-Algorithmus im Allgemeinen besser für kleine Datenoperationen geeignet ist.
Hierarchischer Clustering-Algorithmus
Definition
Erstellen Sie einen gruppierten Baum aus Datenobjekten. Abhängig davon, ob die hierarchische Zerlegung von unten nach oben oder von oben nach unten erfolgt, kann sie weiter in agglomerative hierarchische Clusterbildung und divisive hierarchische Clusterbildung unterteilt werden.
Kern
So messen Sie den Abstand zwischen zwei Clustern, wobei jeder Cluster im Allgemeinen aus einer Reihe von Objekten besteht.
Einstufung
Entfernungstyp (Methode zur Messung der Entfernung zwischen Clustern)
Algorithmustyp
AGNES (agglomeratives hierarchisches Clustering)
Definition
AGNES (agglomeratives hierarchisches Clustering) ist eine Bottom-up-Strategie, die zunächst jedes Objekt als Cluster behandelt und diese atomaren Cluster dann zu immer größeren Clustern zusammenführt, bis eine bestimmte Endbedingung erfüllt ist.
Ähnlichkeit
Die Ähnlichkeit zwischen zwei Clustern wird durch die Ähnlichkeit der nächsten Datenpunktpaare in den beiden verschiedenen Clustern bestimmt.
Schritt
1. Behandeln Sie jedes Objekt als anfänglichen Cluster. 2. WIEDERHOLEN; 3. Finden Sie die beiden nächstgelegenen Cluster basierend auf den nächstgelegenen Datenpunkten in den beiden Clustern. 4. Führen Sie zwei Cluster zusammen, um einen neuen Clustersatz zu generieren. 5. BIS die Anzahl der definierten Cluster erreicht ist;
DIANA (geteiltes hierarchisches Clustering)
BIRCH (Balanced Iterative Reduction and Clustering Using Hierarchical Methods)
Dichte-Clustering-Methode
Kern
Solange die Punktdichte in einem Gebiet größer als ein bestimmter Schwellenwert ist, wird es einem ähnlichen Cluster hinzugefügt.
Einstufung
DBSCAN
Kern
Im Gegensatz zu Partitionierungs- und hierarchischen Clustering-Methoden definiert es Cluster als die größte Menge dichteverbundener Punkte, kann Bereiche mit ausreichend hoher Dichte in Cluster unterteilen und Cluster beliebiger Form in „verrauschten“ räumlichen Datenbanken finden.
Definition
ε-Umgebung eines Objekts: Die Fläche innerhalb eines Radius ε um ein gegebenes Objekt.
Kernobjekt (Kernpunkt): Wenn die ε-Umgebung eines Objekts mindestens die Mindestanzahl an MinPts-Objekten enthält, wird das Objekt als Kernobjekt bezeichnet.
Direkte Erreichbarkeit der Dichte: Bei gegebener Objektmenge D, wenn p innerhalb der ε-Umgebung von q liegt und q ein Kernobjekt ist, sagen wir, dass Objekt p ausgehend von Objekt q direkt dichteerreichbar ist.
Erreichbarkeit der Dichte: Wenn es Kernpunkte P2, P3, ..., Pn gibt und die Dichte von P1 nach P2 direkt ist und die Dichte von P2 nach P3 direkt ist, ... ist die Dichte von P(n-1 ) nach Pn ist direkt, und die Dichte von Pn nach Q ist direkt. Dann ist die Dichte von P1 nach Q erreichbar. Auch die erreichbare Dichte weist keine Symmetrie auf.
Dichteverbunden: Wenn es einen Kernpunkt S gibt, so dass S zu P und Q beide dichtemäßig erreichbar sind, dann sind P und Q dichteverbunden. Der Dichtezusammenhang ist symmetrisch. Wenn P und Q einen Dichtezusammenhang haben, müssen auch Q und P einen Dichtezusammenhang haben. Zwei Punkte, die dicht verbunden sind, gehören zum selben Cluster.
Rauschen: Ein dichtebasierter Cluster ist die größte Menge dichteverbundener Objekte basierend auf der Erreichbarkeit der Dichte. Objekte, die in keinem Cluster enthalten sind, gelten als „Rauschen“.
Schritt
1) Wenn die Umgebung des Punktes mehr als MinPts-Punkte enthält, handelt es sich um einen Kernpunkt, andernfalls wird der Punkt vorübergehend als Rauschpunkt aufgezeichnet 2) Finden Sie alle Objekte mit einer von diesem Punkt aus erreichbaren Dichte, um einen Cluster zu bilden
Merkmale
Vorteil
Das Clustering ist schnell und kann Rauschpunkte effektiv verarbeiten und räumliche Cluster beliebiger Formen entdecken.
Mangel
(1) Wenn die Datenmenge zunimmt, ist ein größerer Speicher erforderlich, um den E/A-Verbrauch zu unterstützen, der auch viele Daten verbraucht. (2) Wenn die Dichte der räumlichen Clusterbildung ungleichmäßig ist und sich die Clusterabstände stark unterscheiden, ist die Clusterqualität schlecht. (3) Es gibt zwei Anfangsparameter ε (Nachbarschaftsradius) und minPts (Mindestanzahl von Punkten in der Nachbarschaft ε), für die der Benutzer die Eingabe manuell festlegen muss, und die Clustering-Ergebnisse reagieren sehr empfindlich auf die Werte dieser beiden Parameter . Unterschiedliche Werte führen zu unterschiedlichen Clustering-Ergebnissen.
OPTIK
DENCLUE
Bayesianische Klassifikation
Naiver Bayes
Bei der Bayes-Methode handelt es sich um eine Musterklassifizierungsmethode, bei der die A-priori-Wahrscheinlichkeit und die klassenbedingte Wahrscheinlichkeit bekannt sind. Das Klassifizierungsergebnis der zu teilenden Stichprobe hängt von der Gesamtzahl der Stichproben in verschiedenen Feldern ab.
Naive Bayes geht davon aus, dass alle Merkmalsattribute unabhängig voneinander sind, weshalb das Wort „naiv“ im Namen des Algorithmus stammt
In der Realität gibt es häufig Abhängigkeiten zwischen Attributen. Interessant ist jedoch, dass selbst dann, wenn die Unabhängigkeitsannahme des Naive-Bayes-Algorithmus offensichtlich nicht wahr ist, immer noch sehr gute Klassifizierungsergebnisse erzielt werden können.
Bayes'sche Formel
minimale Fehlerquote
Bei den Merkmalen handelt es sich um gegebene Informationen
Die Kategorie ist die letzte Anforderung
Wenn mehrere Feature-Attribute vorhanden sind
Bedeutung
Posterior-Wahrscheinlichkeit P(cj |x)
Das heißt, die Wahrscheinlichkeit, dass cj wahr ist, wenn eine Datenstichprobe x gegeben ist, und das ist es, woran wir interessiert sind (zu berechnen).
Jedes P(xk|Ci) kann durch Vorkenntnisse erhalten werden Oder führen Sie Statistiken anhand von Stichprobensätzen durch
A-priori-Wahrscheinlichkeit P(cj)
Die A-priori-Wahrscheinlichkeit P(Ci) kann durch Vorwissen ermittelt werden Oder führen Sie Statistiken anhand von Stichprobensätzen durch
P(x) kann eliminiert oder formuliert werden
Vereinfachung
minimales Risiko
Entscheidungstabelle
Rechenmethode
Berechnen Sie für jede Entscheidung α separat
Treffen Sie die Entscheidung mit dem geringsten bedingten Risiko
Methode des nächsten Nachbarn
Methode des nächsten Nachbarn/K-Methode des nächsten Nachbarn
Zweck
Bestimmen Sie die Klassifizierung eines Punktes
Ideen
Suchen Sie die k Trainingsinstanzen, die der neuen Instanz im Trainingsdatensatz am nächsten liegen, und zählen Sie dann die Klasse mit der größten Anzahl von Klassen unter den letzten k Trainingsinstanzen, also die Klasse der neuen Instanz.
Verfahren
Berechnen Sie den Abstand zwischen jedem Stichprobenpunkt in der Trainingsstichprobe und der Teststichprobe (gängige Distanzmaße umfassen die euklidische Distanz, die Mahalanobis-Distanz usw.).
Sortieren Sie alle Entfernungswerte oben
Wählen Sie die ersten k Proben mit dem kleinsten Abstand aus
Stimmen Sie anhand der Beschriftungen dieser k Stichproben ab, um die endgültige Klassifizierungskategorie zu erhalten
Wahl des k-Wertes
Je kleiner der k-Wert, desto komplexer ist das Modell und desto einfacher ist eine Überanpassung. Je größer der k-Wert, desto einfacher ist das Modell. Wenn k = N, bedeutet dies, dass es sich um eine Klasse handelt mit den meisten Kategorien im Trainingssatz. Daher nimmt k im Allgemeinen einen kleineren Wert an und verwendet dann zur Bestimmung eine Kreuzvalidierung Die sogenannte Kreuzvalidierung besteht hier darin, einen Teil der Stichprobe in Vorhersagestichproben zu unterteilen, z. B. 95 % Training und 5 % Vorhersage, und dann nimmt k 1, 2, 3, 4, 5 usw. an, um vorherzusagen und Berechnen Sie den endgültigen Klassifizierungsfehler. Wählen Sie k mit dem kleinsten Fehler
der Unterschied
K-Mittel
Der Zweck besteht darin, eine Reihe von Punktmengen in k Kategorien zu unterteilen
K-Means ist ein Clustering-Algorithmus
Unüberwachtes Lernen, Gruppieren ähnlicher Daten, um eine Klassifizierung zu erhalten, keine externe Klassifizierung
Der Trainingsdatensatz hat keine Beschriftungen und ist nach dem Clustering etwas geordnet. Er ist zunächst ungeordnet und dann geordnet.
Methode des nächsten Nachbarn/K-Methode des nächsten Nachbarn
Der Zweck besteht darin, die Klassifizierung eines Punktes zu bestimmen
KNN ist ein Klassifizierungsalgorithmus
Beim überwachten Lernen ist das Klassifizierungsziel im Voraus bekannt
Der Trainingsdatensatz verfügt über Beschriftungen und besteht bereits aus vollständig korrekten Daten.
Vereinsregeln
Definition
Basiskonzept
Artikel: Als Artikel werden beispielsweise Cola, Kartoffelchips, Brot, Bier und Windeln bezeichnet.
Sei I={i1, i2,…,im} die Menge aller Elemente (Item).
Bei der Transaktion T handelt es sich um einen Kaufdatensatz, und jede Transaktion T verfügt über eine eindeutige Kennung, die als Tid aufgezeichnet wird.
D ist die Menge aller Transaktionen.
Itemset ist das Set, das wir untersuchen möchten
Die Anzahl der Elemente in einem Itemset wird als Länge des Itemsets bezeichnet, und ein Itemset mit k Elementen wird als K-Itemset bezeichnet.
Vereinsregeln
Eine logische Implikation der Form A->B, wobei weder A noch B leer sind und A⸦I, B⸦I und (A kreuzt B=leer).
SupportSupport
Beschreiben Sie die Wahrscheinlichkeit, dass die Itemsets A und B gleichzeitig in allen Transaktionen D auftreten
S(A->B)=P(AB)=|AB|/|D|
Die Unterstützung ist ein Maß für die Bedeutung von Assoziationsregeln
VertrauenVertrauen
In dem Ding T, in dem die Artikelmenge A vorkommt, ist die Wahrscheinlichkeit, dass zur gleichen Zeit auch die Artikelmenge B vorkommt.
C(A->B)=P(B|A)=|AB|/|A|
Vertrauen ist ein Maß für die Genauigkeit von Assoziationsregeln
Strenge Assoziationsregeln
Die Assoziationsregeln, nach denen D die Mindestunterstützung und Mindestglaubwürdigkeit von I erfüllt, werden als starke Assoziationsregeln bezeichnet.
Aufzug
Der Grad des Lifts gibt an, welchen Einfluss das Erscheinungsbild von Item-Set A auf das Erscheinungsbild von Item-Set B hat.
L(A->B)=P(AB)/(P(A)*P(B))
Größer als 1
Positive Korrelation
gleich 1
Unabhängig
weniger als 1
negative Korrelation
häufige Itemsets
Elementmengen, die die Mindestunterstützung erfüllen, werden als häufige Elementmengen bezeichnet. Die Menge der häufigen k-Elementmengen wird üblicherweise mit Lk bezeichnet
Zweck
Finden Sie starke Assoziationsregeln basierend auf der vom Benutzer angegebenen Mindestunterstützung und Mindestkonfidenz
Schritt
Finden Sie alle häufigen Itemsets oder die größten häufigen Itemsets unter Berücksichtigung der minimalen Unterstützung durch den Benutzer
Finden Sie Assoziationsregeln in häufigen Elementmengen, indem Sie dem Benutzer ein Minimum an Glaubwürdigkeit verleihen
Algorithmus
Apriori-Algorithmus
Der erste Schritt besteht darin, durch Iteration alle häufigen Itemsets in der Transaktionsdatenbank abzurufen, d. h. Itemsets, deren Unterstützung nicht unter dem vom Benutzer festgelegten Schwellenwert liegt.
Häufige Items: Zählen, Zählen S
Im zweiten Schritt werden häufige Elementsätze verwendet, um Regeln zu erstellen, die die Mindestvertrauensstufe des Benutzers erfüllen.
Vereinsregeln: Graf C
FP-Wachstum