Mindmap-Galerie Algorithmus für maschinelles Lernen, lineare Regression, Entscheidungsbaum, Notizen zum Selbststudium, Mindmap
Algorithmus für maschinelles Lernen, lineare Regression, Entscheidungsnummer, Notizen, Selbststudium, vollständiges Teilen! Der Inhalt umfasst den K-Nearest-Neighbor-Algorithmus, lineare Regression, logistische Regression, Entscheidungsbaum, Ensemble-Lernen und Clustering.
Bearbeitet um 2023-02-25 09:44:36Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Projektmanagement ist der Prozess der Anwendung von Fachwissen, Fähigkeiten, Werkzeugen und Methoden auf die Projektaktivitäten, so dass das Projekt die festgelegten Anforderungen und Erwartungen im Rahmen der begrenzten Ressourcen erreichen oder übertreffen kann. Dieses Diagramm bietet einen umfassenden Überblick über die 8 Komponenten des Projektmanagementprozesses und kann als generische Vorlage verwendet werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Projektmanagement ist der Prozess der Anwendung von Fachwissen, Fähigkeiten, Werkzeugen und Methoden auf die Projektaktivitäten, so dass das Projekt die festgelegten Anforderungen und Erwartungen im Rahmen der begrenzten Ressourcen erreichen oder übertreffen kann. Dieses Diagramm bietet einen umfassenden Überblick über die 8 Komponenten des Projektmanagementprozesses und kann als generische Vorlage verwendet werden.
Algorithmus für maschinelles Lernen, lineare Regression, Entscheidungsbaum, Notizen zum Selbststudium, Mindmap
K-Nearest-Neighbor-Algorithmus
Algorithmusprinzipien und API
Das Konzept und Prinzip des K-Nearest-Neighbor-Algorithmus
Konzept
Wenn eine Stichprobe zu einer bestimmten Kategorie unter den k ähnlichsten (d. h. im Merkmalsraum am nächsten liegenden) Stichproben im Merkmalsraum gehört, gehört die Stichprobe ebenfalls zu dieser Kategorie.
Funktionsraum
Ein Raum, der unter Verwendung aller Features als Koordinatenachsen erstellt wird. Im Feature-Raum ist jede Probe ein Punkt.
[Wichtige Punkte] Prinzip und Umsetzungsschritte
1. Berechnen Sie den Abstand zwischen dem Punkt im Datensatz der bekannten Kategorie und dem aktuellen Punkt
2. Ordnen Sie diese Abstände in aufsteigender Reihenfolge an
3. Wählen Sie die k Punkte mit dem kleinsten Abstand vom aktuellen Punkt aus
4. Zählen Sie die Häufigkeit des Auftretens der Kategorie, in der sich die ersten k Punkte befinden (ermitteln Sie den Modus der K Kategorien).
5. Verwenden Sie die Moduskategorie als Kategorie des aktuellen Punkts
K-Nearest Neighbor-Algorithmus-API
Einführung in Scikit-learn
Tools für maschinelles Lernen, die zahlreiche Algorithmen für maschinelles Lernen implementieren
API
sklearn.neighbors.KNeighborsclassfier(n_neighbors)
Algorithmusberechnung und -optimierung
Maß für die Entfernung
Euklidische Entfernung
Manhattan-Distanz (Blockdistanz)
Tschebyscheff-Distanz
Minkowski-Distanz (Min-Distanz)
Normalisierte euklidische Distanz
Kosinusabstand
Hamming-Distanz
Die Saitenlängen sind gleich
Berechnen Sie den Abstand der Saite
Jaccard-Distanz
Abstand zwischen zwei Sätzen
Mahalanobis-Entfernung
Die Auswirkung der Wahl des K-Werts auf das Modell
Leistung von Unter- und Überanpassung
Näherungsfehler
Der Fehler des Modells im Trainingssatz
Schätzfehler
Der Fehler des Modells im Testsatz
Unteranpassung
Der Näherungsfehler ist groß und der Schätzfehler ist groß. Um es ganz klar auszudrücken: Das Modell schneidet sowohl beim Trainingssatz als auch beim Testsatz schlecht ab.
Überanpassung
Der Näherungsfehler ist klein, aber der Schätzfehler ist groß. Um es ganz klar auszudrücken: Das Modell schneidet auf dem Trainingssatz gut ab, aber nicht auf dem Testsatz.
K-Wert ist zu klein
Weitgehend von Ausreißern betroffen
Das Modell ist komplex, verfügt über eine starke Lernfähigkeit und neigt zur Überanpassung.
K-Wert ist zu groß
Die Auswirkungen eines Probenungleichgewichts sind groß
Das Modell ist einfach, hat eine schwache Lernfähigkeit und neigt zu einer Unteranpassung.
KD-Baum
Einführung in den kd-Baum
Baumkonzept
Wurzelknoten
Knoten mit nur untergeordneten Knoten und keinen übergeordneten Knoten
interner Knoten
Knoten mit untergeordneten und übergeordneten Knoten
Blattknoten
Knoten mit nur übergeordneten Knoten und keinen untergeordneten Knoten
Binärbaum
Ein Baum mit höchstens zwei verzweigten Knoten
Die Rolle des KD-Baums
Reduzieren Sie die Anzahl der Berechnungen der Probenentfernung und finden Sie schnell den nächstgelegenen Nachbarpunkt
Konstruktionsmethode des KD-Baums
1. Wählen Sie zufällig ein Feature aus und verwenden Sie den Median dieses Features als Teilungspunkt, um die Daten in zwei gleiche Teile zu teilen. Das ausgewählte Feature ist das Teilungsfeature des aktuellen Knotens und der Medianpunkt wird als aktueller Knoten verwendet. Bei diesem Feature werden Punkte, die kleiner als der Median sind, in den linken Knoten und Punkte, die größer als der Median sind, in den rechten Knoten klassifiziert Knoten;
2. Wiederholen Sie den ersten Schritt für die Daten auf dem linken bzw. rechten Knoten.
3. Bis alle Proben auf dem Knoten platziert sind
So finden Sie den nächstgelegenen Punkt im KD-Baum
1. Vergleichen Sie den Abfragepunkt M mit den Teilungsmerkmalen und dem entsprechenden Median jedes Knotens im kd-Baum und vergleichen Sie ihn weiter nach unten, bis Sie den Blattknoten erreichen. Notieren Sie die Knoten, die den gesamten Prozess durchlaufen haben, in der Reihenfolge search_path;
2. Der Knoten am Ende von search_path ist N. Nehmen Sie N nicht heraus, zeichnen Sie den Abstand zwischen dist = M und N auf, am nächsten = N;
3. Nehmen Sie einen Knoten L vom Ende von search_path heraus. Die Teilungsachse dieses Knotens ist x, berechnen Sie den Abstand a vom Punkt M zur x-Achse und behandeln Sie ihn dann in zwei Fällen:
Wenn a<dist, dann werden alle Punkte im Raum auf der anderen Seite geteilt durch Knoten L und den aktuell nächstgelegenen Punkt in den Untersuchungsbereich einbezogen, die Abstände von allen Punkten im Untersuchungsbereich zum Punkt M werden berechnet, der nächstgelegene Punkt ist gefunden, und der Punkt wird als nächstgelegener Punkt aufgezeichnet. Der Abstand von diesem Punkt zu M ist dist. Verwerfen Sie den Knoten L, und der Schritt endet.
Wenn a>=dist, verwerfen Sie Knoten L und der Schritt endet
4. Wiederholen Sie Schritt 3, bis search_path leer ist.
5. Nearest ist der Punkt, der dem Suchpunkt am nächsten liegt, und die nächste Entfernung ist dist.
Fall 1
Einführung in die Datensatz-API von scikit-learn
sklearn kleiner Datensatz
API: load_* Wie zum Beispiel: load_iris()
sklearn großer Datensatz
API: fetch_* Wie zum Beispiel: fetch_20newsgroups(sub_set='train')
Parameterbeschreibung: sub_set='train' gibt den Typ des abzurufenden Datensatzes an
Einführung in den Rückgabewert des Sklearn-Datensatzes
Datentyp: datasets.base.Bunch (Wörterbuchformat)
Daten: Feature-Daten-Array
Ziel: Array von Beschriftungen (Zielwerte)
feature_names: Feature-Namen
target_names: Tag-Namen
keys() ruft alle Attribute (Felder) des Wörterbuchs ab
Zeichnen Sie ein Streudiagramm der Daten und finden Sie Ausreißer
sns.lmplot(col1, col2, data, hue, fit_reg)
Partition des Datensatzes
x_train, x_test, y_train, y_test = trian_test_split(x, y, test_size)
Feature-Vorverarbeitung mit sklearn
Normalisiert
Nachteile der Normalisierung: stark von Ausreißern betroffen
API: MinMaxScaler(feature_range)
Funktion: Daten in Werte zwischen 0 und 1 konvertieren
Standardisierung
API:StandardScalar()
Funktion: Daten in Mittelwert=0, Standard=1 konvertieren
Vorhersage der Irisblütenart
Fall 2
Kreuzvalidierung und Rastersuche
Kreuzvalidierung
Teilen Sie den Trainingssatz gleichmäßig in N Teile auf, nehmen Sie einen anderen Teil als Verifizierungssatz und den anderen Teil als Trainingssatz, trainieren und überprüfen Sie die Modellleistung und verwenden Sie den Durchschnitt der N-fachen Modellleistung als Leistung Modell auf diesem Trainingsset.
Rastersuche
Finden Sie die optimale Kombination von Hyperparametern
API
sklearn.model_selection.GridSearchCV(estimator, param_grid, cv)
Sagen Sie den Facebook-Check-in-Standort voraus
lineare Regression
Einführung in die lineare Regression
Mathematische Formel (mathematisches Modell) der linearen Regression
h(w) = w1*x1 w2*x2 w3*x3 ... wn*xn b
Das Konzept der Hyperebene
Die n-1-dimensionale lineare Beziehung im n-dimensionalen Raum wird als Hyperebene im n-dimensionalen Raum bezeichnet.
API
sklearn.linear_model.LinearRegression()
Verluste und Optimierung für lineare Regression
verlustfunktion
1. Die Verlustfunktion ist eine Funktion der trainierbaren Parameter
2. Je kleiner der Wert der Verlustfunktion ist, desto näher liegt der vorhergesagte Wert des Modells am wahren Wert.
Optimierungsmethode der linearen Regression
Normalgleichung
Berechnen Sie optimale Parameter direkt
HINWEIS: Gilt nur für lineare Regressionsmodelle mit Verlust der kleinsten Quadrate
Gradientenabstiegsmethode
Durchlaufen Sie kontinuierlich Farbverläufe, um optimale trainierbare Parameter zu finden
Allgemeine Optimierungsmethoden
Verlustfunktion Der Gradientenabstieg ist die gebräuchlichste Methode zur Modelloptimierung
Gradientenabstiegsmethode
Vollgradientenabstiegsalgorithmus (FG)
Stochastischer Gradientenabstiegsalgorithmus (SG)
Stochastischer durchschnittlicher Gradientenabstiegsalgorithmus (SAG)
Mini-Batch-Gradientenabstiegsalgorithmus (Mini-Bantch)
Case-Boston-Hauspreisprognose
API zur Regressionsleistungsbewertung: sklearn.metrics.mean_squared_error(y_true, y_pred)
API für lineare Regression zur Optimierung normaler Gleichungen: sklearn.linear_model.LinearRegression()
Optimierung der linearen Regression mit stochastischem Gradientenabstieg: sklearn.linear_model.SGDRegressor()
Überanpassung und Unteranpassung
Unteranpassung
Definition: Das Modell schneidet sowohl beim Trainingssatz als auch beim Testsatz schlecht ab
Lösung: Modellkomplexität erhöhen
Erhöhen Sie die Anzahl der Datenmerkmale
Polynomterme hinzufügen
Überanpassung
Definition: Das Modell schneidet im Trainingssatz gut ab, im Testsatz jedoch nicht
Lösung: Modellkomplexität reduzieren
Bereinigen Sie die Daten erneut
Erhöhen Sie die Menge an Trainingsdaten
Regulierung
L1-Regularisierung: Sie können einige der W-Werte direkt auf 0 setzen und so den Einfluss dieser Funktion entfernen. Kann zur Funktionsauswahl verwendet werden
L2-Regularisierung: Sie kann einige der Ws sehr klein und nahe 0 machen, wodurch der Einfluss eines bestimmten Merkmals geschwächt wird.
Reduzieren Sie die Anzahl der Funktionen
reguliertes lineares Modell
Gratregression
Lineare Regression L2-Regularisierung
Lasso kehrt zurück
Lineare Regression L1-Regularisierung
elastisches Netzwerk
Lineare Regression L1 L2
Gratregression
Lineare Regression mit L2-Regularisierung
API: Ridge(alpha)
Modelle speichern und laden
Speichern: joblib.dump(estimator, path)
Laden: joblib.load(path)
logistische Regression
Die Prinzipien der logistischen Regression
Mathematisches Modell: Aktivierungsfunktion der linearen Regression (Sigmoid)
Die Rolle der Aktivierungsfunktion besteht darin, die nichtlineare Anpassungsfähigkeit des Modells zu erhöhen
Verlustfunktion: Log-Likelihood-Verlust
Optimierungsmethode: Gradientenabstieg
API: sklearn.linear_model.LogisticRegression()
So bewerten Sie Klassifizierungsmodelle
Klassifizierungsbewertungsbericht-API: classification_report(y_true, y_pred, label, target_names)
ROC-Kurve
TPR = TP / (TP FN)
FPR = FP / (FP TN)
Passen Sie den Schwellenwert an, um mehrere (FPR, TPR) Punkte zu erhalten, und zeichnen Sie die ROC-Kurve
AUC-Indikator
Bedeutung: Wählen Sie zufällig ein Paar positiver und negativer Proben aus. Die Wahrscheinlichkeit, dass die Punktzahl der positiven Probe größer ist als die der negativen Probe
API: roc_auc_score(y_true, y_score), Hinweis: y_true muss 0, 1 verwenden, um falsche Fälle und positive Fälle zu markieren
Entscheidungsbaum
Einführung in den Entscheidungsbaumalgorithmus
Der Entscheidungsbaum ist eine Baumstruktur
Jeder interne Knoten repräsentiert die Beurteilung eines Merkmals
Jeder Zweig stellt die Ausgabe eines Beurteilungsergebnisses dar
Jeder Blattknoten repräsentiert ein Klassifizierungsergebnis
Das Prinzip des Entscheidungsbaums
Merkmalsauswahl und Aufteilungsbasis von Entscheidungsbaumknoten
Entropie
Ein Maß an „Chaos“
Entropie = -p1logp1 - p2logp2 ... pn*log(pn)
Informationsgewinn
Der Unterschied in der Entropie vor und nach der Division des Datensatzes durch ein bestimmtes Merkmal
Informationsgewinn = Eintritt (vorher) – Eintritt (nachher)
Je größer der Informationsgewinn, desto besser ist die Klassifizierungsmethode dieses Merkmals.
Informationsgewinnrate
Informationsgewinn/getrennte Informationsmetrik
Trennungsinformationsmaß = Entropie, berechnet aus der Wahrscheinlichkeit des Auftretens jeder Kategorie eines Merkmals
Gini gewinnt
Gini-Wert: Die Wahrscheinlichkeit, dass zwei zufällig aus Datensatz D ausgewählte Stichproben inkonsistente Zielwerte (Beschriftungen) aufweisen.
Je kleiner der Gini-Wert ist, desto höher ist die Reinheit des Datensatzes.
Gini-Gewinn = Gini-Wert (vorher) – Gini-Wert (nachher)
Je größer der Gini-Wert-Gewinn ist, desto besser ist diese Divisionsmethode.
Schritte zum Aufbau eines Entscheidungsbaums
1. Beginnen Sie mit der Betrachtung aller Proben als Ganzes
2. Durchlaufen Sie jede Segmentierungsmethode jedes Features und finden Sie die beste Segmentierung (basierend auf Informationsgewinn, Informationsgewinnrate und Gini-Wertgewinn).
3. Teilen Sie gemäß der optimalen Teilungsmethode alle Proben in zwei Teile N1 und N2, dh zwei Zweige
4. Fahren Sie mit den Schritten 2–3 für N1 und N2 fort, bis jeder Knoten „rein“ genug ist.
Der Entscheidungsbaum wird entsprechend der unterschiedlichen Knotenauswahl und Unterteilungsbasis unterteilt
ID3-Entscheidungsbaum: Informationsgewinn
C4.5 Entscheidungsbaum: Informationsgewinnrate
CART-Entscheidungsbaum: Gini-Wertgewinn (oder Gini-Index)
Beschneiden des Wagens
Zweck: Reduzieren Sie die Anzahl der Entscheidungsbaumknoten -> Reduzieren Sie die Komplexität des Entscheidungsbaums -> Verhindern Sie eine Überanpassung des Entscheidungsbaums
Methode
Vorbereinigung: Bereinigung beim Erstellen eines Entscheidungsbaums
Die Mindestanzahl der in jedem Knoten enthaltenen Stichproben, z. B. 10. Wenn die Gesamtzahl der Stichproben am Knoten weniger als 10 beträgt, wird keine Klassifizierung durchgeführt.
Geben Sie die Höhe oder Tiefe des Baums an. Die maximale Tiefe des Baums beträgt beispielsweise 4
Wenn die Entropie des angegebenen Knotens einen bestimmten Wert unterschreitet, wird er nicht mehr geteilt.
Nachbereinigung: Bereinigung nach der Erstellung des Entscheidungsbaums
Die Methode ähnelt dem Vorschnitt
Feature Engineering: Feature-Extraktion
Extraktion von Wörterbuchmerkmalen
sklearn.feature_extraction.DictVectorizer(sparse=True)
Hinweis: Mit dieser Methode werden diskrete Daten automatisch one_hot codiert
Extraktion von Textmerkmalen
Anzahl der Wortvorkommen
sklearn.feature_extraction.text.CountVectorizer(stop_words=[])
Extraktion von TF-IDF-Textmerkmalen
TF: Worthäufigkeit
Bezieht sich auf die Häufigkeit, mit der ein bestimmtes Wort im Dokument vorkommt
IDF: Inverse Dokumentenhäufigkeit
Teilen Sie die Gesamtzahl der Dokumente durch die Anzahl der Dokumente, die das Wort enthalten, und bilden Sie dann den Logarithmus zur Basis 10 des Quotienten, um zu erhalten
TF-IDF
TF-IDF = TF*IDF
Funktion: Bewerten Sie die Bedeutung eines Wortes für einen Dokumentensatz oder ein Dokument in einem Korpus
API:sklearn.feature_extraction.text.TfidfVectorizer(stop_works)
Hinweis: Um Merkmale aus chinesischen Artikeln zu extrahieren, muss zunächst eine Wortsegmentierung durchgeführt werden.
Stotterndes Partizip: jieba.cut
Fallbeispiel: Vorhersage des Überlebens von Titanic-Passagieren
Entscheidungsbaum-API: sklearn.tree.DecisionTreeClassifier(criterion=’gini’, max_third=None,random_state=None)
Visualisierung des Entscheidungsbaums: sklearn.tree.export_graphviz()
Zusammenfassen
Vorteile von Entscheidungsbäumen: einfach, interpretierbar und visualisierbar
Nachteile von Entscheidungsbäumen: leicht überpassbar
Lösung
Beschneidung
zufälliger Wald
Ensemble-Lernen
Einführung in Ensemble-Lernalgorithmen
Generieren Sie mehrere Klassifikatoren/Modelle, die jeweils unabhängig voneinander lernen und Vorhersagen treffen. Diese Vorhersagen werden letztendlich zu einer kombinierten Vorhersage zusammengefasst, die daher besser ist als jede einzelne Klassifizierungsvorhersage.
Boosting -> Unteranpassung
Absacken -> Überanpassung
Einpackendes Ensemble-Lernen
Prinzip: Erstellen Sie mehrere Modelle parallel, und die Modelle sind unabhängig voneinander
1. Stichprobe: Stichprobe von N Datenstücken mit zufälliger Ersetzung
2. Lernen: Verwenden Sie N Daten, um N verschiedene Modelle zu lernen
3. Integration: Durch gleiche Abstimmung von N Modellen wird dasjenige mit den meisten Stimmen das Endergebnis sein.
zufälliger Wald
Was ist Random Forest: Einsackender Entscheidungsbaum
API:sklearn.ensemble.RandomForestClassifier(n_estimators, max_ Depth)
Vorteil
Beide Methoden können die Generalisierungsgenauigkeit im Vergleich zum ursprünglichen Algorithmus um etwa 2 % verbessern.
Einfach, bequem und vielseitig
Förderung des Integrationsprinzips: Mehrere Modelle werden in Serie gebaut, und das später gebaute Modell wird durch das zuvor gebaute Modell beeinflusst.
1. Initialisieren Sie die Trainingsgewichte, gleichen Sie die Gewichte aus und trainieren Sie den ersten Lernenden (Modell).
2. Berechnen Sie die Fehlerquote des Lernenden in den Trainingsdaten
3. Berechnen Sie das Gewicht des Lernenden anhand der Fehlerquote
4. Gewichten Sie die Trainingsdaten entsprechend dem Gewicht des Lernenden neu
5. Wiederholen Sie die Schritte 1 bis 4 Minuten
6. Gewichtete Abstimmung über die Ergebnisse von m Modellen, um das Endergebnis zu erhalten
Clusterbildung
Einführung in Clustering-Algorithmen
Der Clustering-Algorithmus ist ein typischer unbeaufsichtigter Lernalgorithmus, der hauptsächlich zur automatischen Klassifizierung ähnlicher Stichproben in eine Kategorie verwendet wird
Der größte Unterschied zwischen Clustering-Algorithmen und Klassifizierungsalgorithmen: Clustering-Algorithmen sind unbeaufsichtigte Lernalgorithmen und Klassifizierungsalgorithmen sind überwachte Lernalgorithmen.
Erstmalige Verwendung der Clustering-Algorithmus-API
sklearn.cluster.KMeans(n_clusters=8)
Vorhersagemethode: Rufen Sie fit_predict(X) auf, um die Klassifizierungsergebnisse zu erhalten
Implementierungsprozess des Clustering-Algorithmus (Prinzip)
1. Wählen Sie zufällig K Stichproben als Zentren von K Kategorien aus;
2. Berechnen Sie den Abstand aller Proben zum Zentrum.
3. Welcher Kategorie liegt die Stichprobe am nächsten zur Mitte?
4. Berechnen Sie nach der Aufteilung der K-Kategorien die Koordinaten des Zentrums neu. Die Berechnungsmethode besteht darin, dass der Durchschnittswert jedes Merkmalswerts der Stichproben in der Kategorie als entsprechende Koordinaten des neuen Zentrums verwendet wird.
5. Wiederholen Sie die Schritte 2, 3 und 4, bis sich die Koordinaten des Mittelpunkts nicht mehr ändern.
Modellbewertung für Clustering
Summe der quadratischen Fehler: die Summe der quadrierten Abstände (euklidischer Abstand) aller Stichproben zum entsprechenden Kategoriezentrum
„Ellenbogen“-Methode: Wenn sich die Abnahmerate plötzlich verlangsamt, gilt dies als der beste k-Wert
SC-Silhouette-Koeffizient: Der Wert ist [-1, 1]. Je größer der Wert, desto besser. Wenn es sich um einen negativen Wert handelt, wird die Stichprobe möglicherweise falsch klassifiziert.
CH-Koeffizient: Je höher der Wert s, desto besser ist der Clustering-Effekt.
Algorithmusoptimierung
Canopy-Algorithmus mit anfänglichem Clustering
K-bedeutet
Zweiteilige k-Mittel
ISODATA
Kernel kmbedeutet
Mini-Batch-K-Mittel
Reduzierung der Merkmalsdimensionalität
Merkmalsauswahl
Entfernen Sie Merkmale mit geringer Varianz
Pearson-Korrelationskoeffizient
Spearman-Korrelationskoeffizient
Hauptkomponentenanalyse PCA
Fall: Untersuchung der Benutzerpräferenzen für Artikelkategorien und Dimensionsreduzierung