Mindmap-Galerie Data-Mining-Tool – WEKA
WEKA ist ein umfassendes Data-Mining-Tool, das Datenvorverarbeitung, Lernalgorithmen (Klassifizierung, Regression, Clustering, Korrelationsanalyse) und Bewertungsmethoden integriert. Diese Mindmap stellt die Verwendung von WEKA vor. Ich hoffe, sie ist für alle hilfreich!
Bearbeitet um 2023-07-07 16:09:18Welche Preismethoden gibt es für Projektunteraufträge im Rahmen des EPC-Generalvertragsmodells? EPC (Engineering, Procurement, Construction) bedeutet, dass der Generalunternehmer für den gesamten Prozess der Planung, Beschaffung, Konstruktion und Installation des Projekts verantwortlich ist und für die Testbetriebsdienste verantwortlich ist.
Die Wissenspunkte, die Java-Ingenieure in jeder Phase beherrschen müssen, werden ausführlich vorgestellt und das Wissen ist umfassend. Ich hoffe, es kann für alle hilfreich sein.
Das Software-Anforderungs-Engineering ist ein Schlüsselkapitel für Systemanalytiker. Zu den Kapiteln „Anforderungserhebung“ und „Anforderungsanalyse“ gehören häufig Veröffentlichungen.
Welche Preismethoden gibt es für Projektunteraufträge im Rahmen des EPC-Generalvertragsmodells? EPC (Engineering, Procurement, Construction) bedeutet, dass der Generalunternehmer für den gesamten Prozess der Planung, Beschaffung, Konstruktion und Installation des Projekts verantwortlich ist und für die Testbetriebsdienste verantwortlich ist.
Die Wissenspunkte, die Java-Ingenieure in jeder Phase beherrschen müssen, werden ausführlich vorgestellt und das Wissen ist umfassend. Ich hoffe, es kann für alle hilfreich sein.
Das Software-Anforderungs-Engineering ist ein Schlüsselkapitel für Systemanalytiker. Zu den Kapiteln „Anforderungserhebung“ und „Anforderungsanalyse“ gehören häufig Veröffentlichungen.
Data-Mining-Tool – WEKA
Einführung in WEKA
Der vollständige Name von WEKA ist Waikato Environment for Knowledge Analysis
WEKA ist auch der Name eines Vogels in Neuseeland. Es handelt sich um eine Open-Source-Software für maschinelles Lernen/Data-Mining, die vom WEKA-Team an der University of Waikato in Neuseeland entwickelt wurde.
Holen Sie sich den Quellcode
http://www.cs.waikato.ac.nz/ml/weka/
http://prdownloads.sourceforge.net/weka/weka-3-6-6jre.exe
Im August 2005 gewann die WEKA-Gruppe der University of Waikato auf der 11. ACM SIGKDD International Conference die höchste Dienstleistungsauszeichnung im Bereich Data Mining und Knowledge Exploration. Das WEKA-System wurde weithin anerkannt und als führend im Data Mining gefeiert und maschinelles Lernen ist eines der umfassendsten Data-Mining-Tools, die heute verfügbar sind. WEKA wurde mehr als 10.000 Mal pro Monat heruntergeladen.
Hauptmerkmal
Es handelt sich um ein umfassendes Data-Mining-Tool, das Datenvorverarbeitung, Lernalgorithmen (Klassifizierung, Regression, Clustering, Korrelationsanalyse) und Bewertungsmethoden integriert.
Verfügt über eine interaktive visuelle Oberfläche
Stellen Sie eine Lern- und Vergleichsumgebung für Algorithmen bereit
Über seine Schnittstelle können Sie Ihre eigenen Data-Mining-Algorithmen implementieren
Explorer-Umgebung
Mehrere Registerkarten im Bereich 1 dienen zum Wechseln zwischen verschiedenen Mining-Aufgabenfenstern.
Vorverarbeitung (Datenvorverarbeitung): Wählen Sie die zu verarbeitenden Daten aus und ändern Sie sie.
Klassifizieren: Klassifizierungs- oder Regressionsmodelle trainieren und testen.
Cluster: Clustering aus Daten.
Assoziieren: Assoziationsregeln aus Daten lernen.
Attribute auswählen: Wählen Sie die relevantesten Attribute in den Daten aus.
Visualisieren: Zeigen Sie ein zweidimensionales Streudiagramm der Daten an.
Bereich 2 enthält einige häufig verwendete Schaltflächen. Inklusive Funktionen wie Öffnen, Bearbeiten, Speichern von Daten und Datenkonvertierung. Beispielsweise können wir die Datei „bank-data.csv“ als „bank-data.arff“ speichern.
In Bereich 3 können Sie einen Filter auswählen, um die Daten zu filtern oder eine Transformation der Daten durchzuführen. Hauptsächlich wird damit die Datenvorverarbeitung realisiert.
Bereich 4 zeigt die grundlegenden Informationen des Datensatzes wie den Beziehungsnamen, die Anzahl der Attribute und die Anzahl der Instanzen.
Im Bereich 5 werden alle Eigenschaften des Datensatzes aufgelistet.
Einige Attribute können Sie durch Markieren und „Entfernen“ löschen. Nach dem Löschen können Sie diese auch über die Schaltfläche „Rückgängig“ im Bereich 2 wiederherstellen.
Die Schaltflächenreihe über Bereich 5 dient der schnellen Kontrolle.
Bereich 6 zeigt eine Zusammenfassung des aktuell in Bereich 5 ausgewählten Attributs an.
Die Zusammenfassung umfasst den Attributnamen (Name), den Attributtyp (Type), die Anzahl und den Anteil fehlender Werte (Missing), die Anzahl unterschiedlicher Werte (Distinct), die Anzahl und den Anteil eindeutiger Werte (Unique).
Die Zusammenfassungsmethode unterscheidet sich für numerische Attribute und nominale Attribute. Die Abbildung zeigt eine Zusammenfassung des numerischen Attributs „Einkommen“.
Numerische Attribute zeigen den Minimalwert (Minimum), den Maximalwert (Maximum), den Mittelwert (Mean) und die Standardabweichung (StdDev) an.
Nominale Eigenschaften zeigen die Anzahl jedes einzelnen Werts
Bereich 7 ist das Histogramm des ausgewählten Attributs in Bereich 5.
Wenn das letzte Attribut des Datensatzes (das die Standardzielvariable für Klassifizierungs- oder Regressionsaufgaben ist) eine Klassenbeschriftungsvariable (z. B. „pep“) ist, wird jedes Rechteck im Histogramm proportional zu dieser Variablen in verschiedenfarbige Segmente unterteilt.
Wenn Sie die Basis der Segmentierung ändern möchten, wählen Sie einfach ein anderes Klassifizierungsattribut in der Dropdown-Box über Bereich 7 aus.
Wenn Sie „Keine Klasse“ oder ein numerisches Attribut im Dropdown-Feld auswählen, wird ein Schwarz-Weiß-Histogramm erstellt.
Bereich 8 Der untere Bereich des Fensters, einschließlich der Statusleiste, der Protokollschaltfläche und des Weka-Vogels.
In der Statusleiste (Status) werden einige Informationen angezeigt, damit Sie wissen, was gerade ausgeführt wird. Wenn der Explorer beispielsweise damit beschäftigt ist, eine Datei zu laden, wird in der Statusleiste eine Benachrichtigung angezeigt.
Wenn Sie irgendwo in der Statusleiste mit der rechten Maustaste klicken, wird ein kleines Menü angezeigt. Dieses Menü bietet Ihnen zwei Optionen:
Speicherinformationen: Zeigt die für WEKA verfügbare Speichermenge an.
Garbage Collector ausführen – Zwingt den Java Garbage Collector, nach nicht mehr benötigtem Speicherplatz zu suchen und ihn freizugeben, damit mehr Speicher für neue Aufgaben zugewiesen werden kann.
Mit der Schaltfläche „Protokoll“ können Sie Weka-Betriebsprotokolle anzeigen.
Wenn sich der Weka-Vogel auf der rechten Seite bewegt, bedeutet das, dass WEKA eine Ausgrabungsaufgabe durchführt.
KnowledgeFlow-Umgebung
WEKA-Datensatz
Der von WEKA verarbeitete Datensatz ist eine zweidimensionale Tabelle einer .arff-Datei
Eine Zeile in der Tabelle wird als Instanz bezeichnet, was einer Stichprobe in der Statistik oder einem Datensatz in der Datenbank entspricht.
Eine vertikale Zeile wird als Attribut bezeichnet, was einer Variablen in der Statistik oder einem Feld in einer Datenbank entspricht.
Eine solche Tabelle oder ein solcher Datensatz stellt nach Ansicht von WEKA eine Beziehung (Relation) zwischen Attributen dar.
Im Bild oben gibt es 14 Instanzen, 5 Attribute und der Beziehungsname ist „Wetter“.
Das Format, in dem WEKA Daten speichert, ist eine ARFF-Datei (Attribute-Relation File Format), eine ASCII-Textdatei.
Die oben gezeigte zweidimensionale Tabelle wird in der folgenden ARFF-Datei gespeichert. Dies ist die mit WEKA gelieferte Datei „weather.arff“, die im Unterverzeichnis „data“ des WEKA-Installationsverzeichnisses zu finden ist.
Das Format, in dem WEKA Daten speichert, ist eine ARFF-Datei (Attribute-Relation File Format).
Dies ist eine ASCII-Textdatei (ASCII ((American Standard Code for Information Interchange): American Standard Code for Information Interchange))
Die Dateierweiterung ist .arff
Mit WordPad können Sie ARFF-Dateien öffnen und bearbeiten
Zeilen, die in der Datei mit „%“ beginnen, sind Kommentare und WEKA ignoriert diese Zeilen.
Nach dem Entfernen der Kommentare kann die gesamte ARFF-Datei in zwei Teile geteilt werden:
Der erste Teil enthält die Header-Informationen (Head-Informationen), einschließlich der Deklaration von Beziehungen und der Deklaration von Attributen.
Der zweite Teil enthält die Dateninformationen (Dateninformationen), dh die im Datensatz angegebenen Daten. Ausgehend vom Tag „@data“ folgen die Dateninformationen.
Beziehungserklärung
Der Beziehungsname wird in der ersten gültigen Zeile der ARFF-Datei im Format @relation <Beziehungsname> definiert
<Beziehungsname> ist eine Zeichenfolge. Wenn diese Zeichenfolge Leerzeichen enthält, muss sie in Anführungszeichen eingeschlossen werden (einfache oder doppelte Anführungszeichen für englische Interpunktion).
Eigentumserklärung
Attributdeklarationen werden durch eine Liste von Anweisungen dargestellt, die mit „@attribute“ beginnen.
Für jedes Attribut im Datensatz gibt es eine entsprechende „@attribute“-Anweisung, um seinen Attributnamen und Datentyp (Datentyp) zu definieren: @attribute <Attributname> <Datentyp>
Dabei muss <Eigenschaftsname> eine Zeichenfolge sein, die mit einem Buchstaben beginnt. Wenn diese Zeichenfolge Leerzeichen enthält, muss sie wie bei Beziehungsnamen in Anführungszeichen gesetzt werden.
Die Reihenfolge der Attributdeklarationsanweisungen ist wichtig, da sie die Position des Attributs im Datenabschnitt angibt.
Beispielsweise ist „Luftfeuchtigkeit“ das dritte deklarierte Attribut, was bedeutet, dass unter den durch Kommas getrennten Spalten im Datenteil die Daten in Spalte 2 (beginnend mit Spalte 0) 85 90 86 96 ... die entsprechende „Luftfeuchtigkeit“ sind. Wert.
Zweitens wird das zuletzt deklarierte Attribut als Klassenattribut bezeichnet und ist die Standardzielvariable bei Klassifizierungs- oder Regressionsaufgaben.
Art der Daten
numerischer numerischer Typ
Numerische Attribute können ganze Zahlen oder reelle Zahlen sein, WEKA behandelt sie jedoch alle als reelle Zahlen. Zum Beispiel: @attribute Temperatur real
<Nominalspezifikation> Nominaltyp
Nominalattribute bestehen aus einer <Nominalspezifikation>-Liste möglicher Kategorienamen in geschweiften Klammern: {<Nominalname1>, <Nominalname2>, <Nominalname3>, ...}.
Der Wert dieses Attributs im Datensatz kann nur eine der Kategorien sein.
Beispielsweise gibt die Attributdeklaration: @attribute outlook {sunny, overcast, rainy} an, dass das Attribut „outlook“ drei Kategorien hat: „sonnig“, „bedeckt“ und „regnerisch“. Der „Outlook“-Wert, der jeder Instanz im Datensatz entspricht, muss einer dieser drei sein.
Wenn der Kategoriename Leerzeichen enthält, muss er dennoch in Anführungszeichen gesetzt werden.
String-String-Typ
String-Eigenschaften können beliebigen Text enthalten. Beispiel: @attribute LCC-Zeichenfolge
Datum [<Datumsformat>] Datums- und Uhrzeittyp
Datums- und Uhrzeitattribute werden einheitlich durch den Typ „Datum“ dargestellt und sein Format ist: @attribute <Attributname> Datum [<Datumsformat>]
Dabei ist <Datumsformat> eine Zeichenfolge, die angibt, wie das Datums- oder Uhrzeitformat analysiert und angezeigt werden soll. Die Standardzeichenfolge ist das von ISO-8601 angegebene Datums- und Uhrzeitkombinationsformat: „JJJJ-MM-TT HH:mm: ss“.
Die Zeichenfolge, die das Datum im Dateninformationsteil ausdrückt, muss den in der Anweisung angegebenen Formatanforderungen entsprechen, zum Beispiel: @ATTRIBUTE timestamp DATE "yyyy-MM-dd HH:mm:ss" @DATA "2011-05-03 12: 59:55"
Beachten
Es gibt zwei weitere Typen „Ganzzahl“ und „Real“, die verwendet werden können, aber WEKA behandelt beide als „numerisch“.
Bei den Schlüsselwörtern „integer“, „real“, „numeric“, „date“ und „string“ wird die Groß-/Kleinschreibung beachtet, bei „relation“, „attribute“ und „data“ jedoch nicht.
Dateninformationen
In den Dateninformationen belegt das Tag „@data“ eine exklusive Zeile, der Rest sind die Daten jeder Instanz.
Jede Instanz belegt eine Zeile und die Attributwerte der Instanz werden durch Kommas "," getrennt.
Wenn der Wert eines Attributs ein fehlender Wert ist, wird er durch ein Fragezeichen „?“ dargestellt, und dieses Fragezeichen kann nicht weggelassen werden.
spärliche Daten
Manchmal enthält der Datensatz eine große Anzahl von 0-Werten. In diesem Fall ist es platzsparender, Daten im Sparse-Format zu speichern.
Das Sparse-Format dient der Darstellung eines Objekts in Dateninformationen und erfordert keine Änderung anderer Teile der ARFF-Datei.
Beispieldaten: @data 0, X, 0, Y, „Klasse A“ 0, 0, W, 0, „Klasse B“
Im Sparse-Format ausgedrückt ist es @data {1 X, 3 Y, 4 „Klasse A“} {2 W, 4 „Klasse B“}
Hinweis: Die Attributspalte ganz links im ARFF-Datensatz ist Spalte 0. Daher bedeutet 1 X, dass X der Attributwert in Spalte 1 ist.
Datenaufbereitung
Datensammlung
Verwenden Sie ARFF-Dateidaten direkt.
Import aus CSV-, C4.5-, Binär- und anderen Formatdateien.
Lesen Sie Daten aus der SQL-Datenbank über JDBC.
Erhalten Sie Netzwerkressourcendaten von der URL (Uniform Resource Locator).
Konvertierung des Datenformats
Das ARFF-Format ist das beste von WEKA unterstützte Dateiformat.
Beim Einsatz von WEKA für Data Mining besteht das erste Problem häufig darin, dass die Daten nicht im ARFF-Format vorliegen.
WEKA bietet auch Unterstützung für CSV-Dateien, und dieses Format wird von vielen anderen Programmen (z. B. Excel) unterstützt.
Mit WEKA kann das CSV-Dateiformat in das ARFF-Dateiformat konvertiert werden.
Datenressourcen
WEKAs eigener Datensatz C:\Programme\Weka-3-6\data
Netzwerkdatenressourcen http://archive.ics.uci.edu/ml/datasets.html
.XLS——> .CSV——> .ARFF
Mit der XLS-Datei von Excel können mehrere zweidimensionale Tabellen in verschiedenen Arbeitsblättern (Blättern) platziert werden, und jedes Arbeitsblatt kann nur als andere CSV-Datei gespeichert werden.
Öffnen Sie eine XLS-Datei und wechseln Sie zu dem Arbeitsblatt, das konvertiert werden muss, speichern Sie es als CSV-Typ, klicken Sie auf „OK“, „Ja“ und ignorieren Sie die Aufforderung zum Abschließen des Vorgangs.
Öffnen Sie eine Datei vom Typ CSV in WEKA und speichern Sie sie als Datei vom Typ ARFF.
DatenvorverarbeitungVorprozess
Datenvorverarbeitungswerkzeuge in WEKA werden Filter genannt
Filter können definiert werden, um Daten auf verschiedene Arten zu transformieren.
In der Spalte „Filter“ werden die notwendigen Einstellungen für verschiedene Filter vorgenommen.
Schaltfläche „Auswählen“: Klicken Sie auf diese Schaltfläche, um einen Filter in WEKA auszuwählen.
Wenn ein Filter ausgewählt ist, werden sein Name und seine Optionen im Textfeld neben der Schaltfläche „Auswählen“ angezeigt.
Lade Daten
Die ersten vier Schaltflächen in Bereich 2 der Vorverarbeitungsseite des Explorers werden zum Laden von Daten in WEKA verwendet:
Datei öffnen... Öffnet ein Dialogfeld, in dem Sie nach Datendateien im lokalen Dateisystem suchen können.
URL öffnen.... Fordert eine URL-Adresse an, die Daten enthält.
DB öffnen.... Daten aus der Datenbank lesen.
Generieren.... Erzeugt künstliche Daten aus einigen Datengeneratoren.
Entfernen Sie nutzlose Attribute
Normalerweise sind Informationen wie die ID für Data-Mining-Aufgaben nutzlos und können gelöscht werden.
Überprüfen Sie im Bereich 5 das Attribut „id“ und klicken Sie auf „Entfernen“. Speichern Sie den neuen Datensatz und öffnen Sie ihn erneut
Datendiskretisierung
Einige Algorithmen (z. B. Korrelationsanalyse) können nur nominale Attribute verarbeiten. In diesem Fall müssen numerische Attribute diskretisiert werden.
Numerische Attribute mit begrenzten Werten können durch Ändern des Attributdatentyps in der .arff-Datei diskretisiert werden.
Beispielsweise hat das Attribut „Kinder“ in einem bestimmten Datensatz nur vier numerische Werte: 0, 1, 2 und 3.
Wir ändern die ARFF-Datei direkt und ändern die numerischen @attribute-Kinder in @attribute-Kinder {0,1,2,3}.
Öffnen Sie „bank-data.arff“ erneut im „Explorer“ und sehen Sie, dass sich nach Auswahl des Attributs „children“ der im Bereich 6 angezeigte „Type“ in „Nominal“ ändert.
Bei numerischen Attributen mit vielen Werten kann die Diskretisierung mithilfe eines Filters namens „Discretize“ in WEKA durchgeführt werden.
Klicken Sie im Bereich 2 auf „Auswählen“. Es erscheint ein „Filterbaum“. Suchen Sie Schritt für Schritt nach „weka.filters.unsupervised.attribute.Discretize“ und klicken Sie darauf.
Das Textfeld neben „Auswählen“ sollte jetzt „Diskretisieren -B 10 -M -0.1 -R zuerst-letzte“ lauten.
Wenn Sie auf dieses Textfeld klicken, wird ein neues Fenster zum Ändern der Diskretisierungsparameter geöffnet.
KlassifizierenKlassifizieren
WEKA platziert sowohl die Klassifizierung als auch die Regression im Reiter „Klassifizieren“.
In beiden Data-Mining-Aufgaben gibt es ein Zielattribut (Kategorieattribut, Ausgabevariable).
Wir hoffen, eine Klassifizierungsvorhersage für die Zielattribute basierend auf einer Reihe charakteristischer Attribute (Eingabevariablen) einer WEKA-Instanz durchführen zu können.
Um dies zu erreichen, benötigen wir einen Trainingsdatensatz, in dem die Eingabe und Ausgabe jeder Instanz bekannt ist. Durch Beobachtung der Instanzen im Trainingssatz kann ein prädiktives Klassifizierungs-/Regressionsmodell erstellt werden.
Mit diesem Modell können Klassifizierungsvorhersagen für neue unbekannte Instanzen getroffen werden.
Die Qualität eines Modells zu messen, hängt hauptsächlich von der Genauigkeit seiner Vorhersagen ab.
Typische Klassifizierungsalgorithmen in WEKA
Bayes: Bayesianischer Klassifikator
BayesNet: Bayesianisches Glaubensnetzwerk
NaiveBayes: Naive Bayes Netzwerk
xMultilayerPerceptron: Mehrschichtiges künstliches neuronales Feedforward-Netzwerk
SMO: Support Vector Machine (unter Verwendung der Lernmethode der sequentiellen Optimierung)
Lazy: Instanzbasierter Klassifikator
IB1: 1-Nächster-Nachbarn-Klassifikator
IBk: K-Nearest-Neighbor-Klassifikator
Wählen Sie einen Klassifizierungsalgorithmus
Meta: Kombinationsmethode
AdaBoostM1: AdaBoost M1-Methode
Absacken: Absackmethode
Regeln: Regelbasierter Klassifikator
JRip: Direkte Methode – Ripper-Algorithmus
Teil: Indirekte Methode – Extrahieren von Regeln aus von J48 generierten Entscheidungsbäumen
Bäume: Entscheidungsbaumklassifikator
Id3: ID3-Entscheidungsbaum-Lernalgorithmus (kontinuierliche Attribute werden nicht unterstützt)
J48: C4.5 Entscheidungsbaum-Lernalgorithmus (Version 8)
REPTree: Entscheidungsbaum-Lernalgorithmus mit fehlerreduzierender Beschneidung
RandomTree: Kombinationsmethode basierend auf Entscheidungsbäumen
Wählen Sie eine Modellbewertungsmethode (vier Typen)
Verwendung des Trainingssatzes Verwendung der Auswertung des Trainingssatzes
Mitgeliefertes Testset Testset-Auswertung verwenden
Kreuzvalidierung Kreuzvalidierung
Legen Sie die Falte fest
Methode zur prozentualen Aufteilung der Aufbewahrung. Nutzen Sie einen bestimmten Anteil an Trainingsbeispielen zur Auswertung
Legen Sie den Prozentsatz der Trainingsinstanzen fest
Klicken Sie auf die Schaltfläche Weitere Optionen, um weitere Testoptionen festzulegen:
Ausgabemodell: Gibt ein Klassifizierungsmodell basierend auf dem gesamten Trainingssatz aus, sodass das Modell angezeigt, visualisiert usw. werden kann. Diese Option ist standardmäßig ausgewählt.
Geben Sie Statistiken pro Klasse aus. Geben Sie die Genauigkeits-/Erinnerungs- und Wahr/Falsch-Statistiken jeder Klasse aus. Diese Option ist standardmäßig ausgewählt.
Maßnahmen zur Ausgabebewertung. Maßnahmen zur Schätzung der Ausgabeentropie. Diese Option ist standardmäßig nicht ausgewählt.
Ausgabe-Konfusionsmatrix Gibt die Verwirrungsmatrix der Klassifikator-Vorhersageergebnisse aus. Diese Option ist standardmäßig ausgewählt.
Speichern Sie Vorhersagen zur Visualisierung. Zeichnen Sie die Vorhersagen des Klassifikators auf, damit sie visuell dargestellt werden können.
Vorhersagen ausgeben. Die Vorhersageergebnisse der Testdaten ausgeben. Beachten Sie, dass bei der Kreuzvalidierung die Nummer einer Instanz nicht ihre Position im Datensatz widerspiegelt.
Kostensensitive Auswertung Der Fehler wird anhand einer Wertematrix abgeschätzt. Über die Schaltfläche „Setzen…“ wird die Wertematrix festgelegt.
Zufälliger Startwert für xval / % Split Gibt einen zufälligen Startwert an, der zum Randomisieren der Daten verwendet wird, wenn sie zu Auswertungszwecken aufgeteilt werden müssen.
Textergebnisanalyse
Klicken Sie auf die Schaltfläche „Start“ und die Textergebnisinformationen werden im Klassifikator-Ausgabefenster angezeigt:
Laufinformationen Laufinformationen
Klassifikatormodell (vollständiger Trainingssatz) Ein Klassifizierungsmodell, das unter Verwendung aller Trainingsdaten erstellt wurde
Zusammenfassung Zusammenfassung der Vorhersageeffekte für den Trainings-/Testsatz.
Detaillierte Genauigkeit nach Klasse Eine detaillierte Beschreibung der Vorhersagegenauigkeit für jede Klasse.
Verwirrungsmatrix Verwirrungsmatrix, wobei die Zeilen der Matrix die tatsächlichen Klassen, die Spalten der Matrix die vorhergesagten Klassen und die Matrixelemente die Anzahl der entsprechenden Testproben darstellen.
Hauptindikatoren
Korrekt klassifizierte Instanzen. Korrekte Klassifizierungsrate
Falsch klassifizierte Instanzen Fehlerklassifizierungsrate
Kappa-Statistik Kappa-Statistik
Mittlerer absoluter Fehler mittlerer absoluter Fehler
Mittlerer quadratischer Fehler. Mittlerer quadratischer Fehler
Relativer absoluter Fehler Relativer absoluter Fehler
Relativer Quadratwurzelfehler der Wurzel relativer Quadratwurzelfehler
TP-Rate (schlecht/gut) korrekte Rate
FP-Rate (schlecht/gut): Falsch-Positiv-Rate
Präzision (schlecht/gut) Genauigkeit
Erinnerungs-Feedback-Rate (schlecht/gut).
F-Maß (schlecht/gut) F-Maß
Zum Erstellen des Modells benötigte Zeit. Zum Erstellen des Modells benötigte Zeit
Grafische Ergebnisse ausgeben
Ansicht im Hauptfenster. Sehen Sie sich die Ausgabe im Hauptfenster an.
Ansicht in separatem Fenster. Öffnen Sie ein separates neues Fenster, um die Ergebnisse anzuzeigen.
Ergebnispuffer speichern (Ergebnispuffer speichern). Es öffnet sich ein Dialogfeld zum Speichern der Ausgabeergebnisse in einer Textdatei.
Modell laden (Download-Modus). Laden Sie ein vorab trainiertes Modusobjekt aus einer Binärdatei.
Modell speichern. Speichern Sie ein Schemaobjekt in einer Binärdatei, also im seriellen Objektformat von JAVA.
Modell auf aktuellem Testsatz neu bewerten (aktuellen Testsatz neu bewerten). Testen Sie den angegebenen Datensatz anhand des festgelegten Schemas und verwenden Sie die Schaltfläche „Setzen“ unter der Option „Gelieferter Testsatz“.
Visualisieren Sie Klassifikatorfehler. Es öffnet sich ein Visualisierungsfenster, in dem das Ergebnisdiagramm des Klassifikators angezeigt wird. Dabei werden korrekt klassifizierte Instanzen durch Kreuze dargestellt, während falsch klassifizierte Instanzen durch kleine Quadrate dargestellt werden.
Streudiagramm der tatsächlichen gegenüber den vorhergesagten Klassen. Die Ergebnisse einer korrekten Klassifizierung werden durch Kreuze dargestellt, die Ergebnisse einer falschen Klassifizierung durch Kästchen.
Baum visualisieren (Baumvisualisierung). Wenn möglich, wird eine grafische Oberfläche angezeigt, um die Struktur des Klassifikatormodells zu beschreiben (dies ist nur für einige Klassifikatoren verfügbar). Klicken Sie mit der rechten Maustaste auf einen leeren Bereich, um ein Menü aufzurufen, ziehen Sie die Maus im Bedienfeld und klicken Sie, um die Trainingsinstanzen anzuzeigen, die jedem Knoten entsprechen.
Margenkurve visualisieren. Erstellen Sie ein Streudiagramm, das die Vorhersagespannen darstellt. Die Marge ist definiert als die Differenz zwischen der Wahrscheinlichkeit, einen wahren Wert vorherzusagen, und der höchsten Wahrscheinlichkeit, etwas anderes als den wahren Wert vorherzusagen. Beschleunigte Algorithmen funktionieren beispielsweise besser bei Testdatensätzen, indem sie die Ränder des Trainingsdatensatzes vergrößern.
Erstellen Sie ein Streudiagramm mit den vorhergesagten Randwerten.
vier Variablen
Marge: vorhergesagter Grenzwert
Instanznummer: Seriennummer der Inspektionsinstanz
Aktuell: Die Anzahl der Instanzen mit dem aktuell vorhergesagten Margenwert
Kumulativ: Die Anzahl der Instanzen, die kleiner oder gleich dem vorhergesagten Randwert sind (im Einklang mit Instance_number)
Klicken Sie auf Testinstanz Nr. 8, die zeigt, dass der Randwert dieses Punktes 0,5 beträgt und es 7 Instanzen mit Randwerten unter 0,5 gibt.
Schwellenkurve visualisieren (Visualisierung der Schwellenkurve). Zur Beschreibung des Kompromissproblems bei der Vorhersage wird ein Streudiagramm erstellt, bei dem der Kompromiss durch Variation des Schwellenwerts zwischen den Klassen erfasst wird. Der Standardschwellenwert liegt beispielsweise bei 0,5 und die Wahrscheinlichkeit, dass eine Instanz als positiv vorhergesagt wird, muss größer als 0,5 sein, da die Instanz genau bei 0,5 als positiv vorhergesagt wird. Und Diagramme können verwendet werden, um den Kompromiss zwischen Genauigkeit und Feedback-Rate zu visualisieren, z. B. die ROC-Kurvenanalyse (positives Verhältnis von korrektem und positivem Fehlerverhältnis) und andere Kurven.
Der Schwellenwert ist die minimale Wahrscheinlichkeit, die Testinstanz in die aktuelle Klasse einzuordnen. Die Farbe des Punktes wird zur Darstellung des Schwellenwerts verwendet.
Jeder Punkt auf der Kurve wird durch Ändern der Größe des Schwellenwerts generiert
Eine ROC-Analyse kann durchgeführt werden
Die X-Achse wählt die Falsch-Positiv-Rate aus
Y-Achse wählt die wahre Rate aus
ROC-Kurve
Die ROC-Kurve (Receiver Operating Characteristic Curve) ist eine grafische Methode, die den Kompromiss zwischen der True-Positive-Rate und der False-Positive-Rate des Klassifizierungsmodells zeigt.
Unter der Annahme, dass Stichproben in positive und negative Kategorien unterteilt werden können, interpretieren Sie einige konzeptionelle Definitionen von ROC-Diagrammen:
True Positive (TP), eine positive Probe, die vom Modell als positiv vorhergesagt wird
Falsch negativ (FN) ist eine positive Probe, die vom Modell als negativ vorhergesagt wird
Falsch positiv (FP) ist eine negative Probe, die vom Modell als positiv vorhergesagt wird
True Negative (TN) Negative Proben, die vom Modell als negativ vorhergesagt wurden
True Positive Rate (TPR) oder Sensitivität TPR = TP / (TP FN) Anzahl positiver Probenvorhersageergebnisse/tatsächliche Anzahl positiver Proben
Falsch-Positiv-Rate (FPR) FPR = FP / (FP TN) Anzahl der als positiv vorhergesagten negativen Probenergebnisse/tatsächliche Anzahl negativer Proben
(TPR=1,FPR=0) ist ein ideales Modell
Ein gutes Klassifizierungsmodell sollte so nah wie möglich an der oberen linken Ecke des Diagramms liegen.
Kostenkurve visualisieren (Visualisierung der Kostenkurve). Erstellen Sie ein Streudiagramm, das die erwarteten Kosten genau darstellt, wie von Drummond und Holte beschrieben.
ClusterCluster
Bei der Clusteranalyse werden jedem Cluster Objekte zugeordnet, sodass Objekte im selben Cluster ähnlich und Objekte in verschiedenen Clustern unterschiedlich sind.
WEKA stellt Cluster-Analyse-Tools im „Cluster“ der „Explorer“-Oberfläche zur Verfügung
Zu den wichtigsten Algorithmen gehören:
SimpleKMeans – K-Means-Algorithmus, der kategoriale Attribute unterstützt
displayStdDevs: ob die Standardabweichung numerischer Attribute und die Anzahl kategorialer Attribute angezeigt werden sollen
distanceFunction: Wählen Sie die Abstandsfunktion für Vergleichsinstanzen aus
(Standard: weka.core.EuclideanDistance)
dontReplaceMissingValues: Ob Mittelwert/Modus nicht zum Ersetzen fehlender Werte verwendet werden soll.
maxIterations: maximale Anzahl von Iterationen
numClusters: Anzahl der Cluster für das Clustering
PreserveInstancesOrder: Ob die Reihenfolge der Instanzen vorab festgelegt werden soll
Seed: Legt einen zufälligen Seed-Wert fest
DBScan – Dichtebasierter Algorithmus, der kategoriale Attribute unterstützt
EM – Mischungsmodellbasierter Clustering-Algorithmus
FathestFirst – K-Center-Point-Algorithmus
OPTICS – ein weiterer Algorithmus basierend auf der Dichte
Cobweb – Konzept-Clustering-Algorithmus
sIB – Clustering-Algorithmus basierend auf Informationstheorie, unterstützt keine kategorialen Attribute
XMeans – ein erweiterter K-Means-Algorithmus, der die Anzahl der Cluster automatisch bestimmen kann. Er unterstützt keine kategorialen Attribute.
Cluster-ModusCluster-Modus
Trainingssatz verwenden – meldet Clustering- und Gruppierungsergebnisse für Trainingsobjekte
Trainingssatz verwenden – meldet Clustering- und Gruppierungsergebnisse für Trainingsobjekte
Mitgelieferter Testsatz – meldet Clustering-Ergebnisse für Trainingsobjekte und Gruppierungsergebnisse für zusätzliche Testobjekte
Prozentuale Aufteilung – meldet Clustering-Ergebnisse für alle Objekte, Clustering-Ergebnisse für Trainingsobjekte und Gruppierungsergebnisse für Testobjekte
Überwachte Auswertung (Klassen-zu-Cluster-Auswertung) – meldet Clustering- und Gruppierungsergebnisse, Klassen-/Cluster-Verwechslungsmatrizen und Fehlgruppierungsinformationen für Trainingsobjekte
Clustering-Algorithmus ausführen
Klicken Sie auf die Schaltfläche „Start“, um den Clustering-Algorithmus auszuführen
Beobachten Sie die Clustering-Ergebnisse
Beobachten Sie die Clustering-Ergebnisse unter „Clusterer-Ausgabe“ auf der rechten Seite. Sie können auch mit der rechten Maustaste auf die dieses Mal generierten Ergebnisse in der „Ergebnisliste“ in der unteren linken Ecke und „In separatem Fenster anzeigen“ klicken, um die Ergebnisse in einem neuen Fenster zu durchsuchen.
Hinweis: Die obigen Ausführungsinformationen werden nur angezeigt, wenn überwachtes Clustering verwendet wird (d. h. die Klassenbezeichnung des Modellierungsdatensatzes ist bekannt).
Textanalyse
SimpleKManes
Unüberwachter Modus: Laufinformationen, KMeans-Ergebnisse (Anzahl der Iterationen, SSE, Clusterzentren), Gruppierungsinformationen von Inspektionsobjekten
Überwachter Modus: Laufinformationen, KMeans-Ergebnisse (Anzahl der Iterationen, SSE, Clusterzentren), Klassen-/Cluster-Verwirrungsmatrix, Anzahl und Anteil falsch gruppierter Objekte
Clusterzentrum: Mittelwert für numerische Attribute und Modus für kategoriale Attribute
DBScan
Unüberwachter Modus: Laufinformationen, DBScan-Ergebnisse (Anzahl der Iterationen, Gruppierungsinformationen jedes Trainingsobjekts), Gruppierungsinformationen von Testobjekten
Überwachungsmodus: Laufinformationen, DBScan-Ergebnisse (Anzahl der Iterationen, Gruppierungsinformationen jedes Trainingsobjekts), Klassen-/Cluster-Verwirrungsmatrix, Anzahl und Anteil falsch gruppierter Objekte
grafische Analyse
Store-Cluster zur Visualisierung müssen überprüft werden
Clusterzuweisungen visualisieren: 2D-Streudiagramm, das die Klassen-/Cluster-Verwirrungsmatrix visualisieren kann
Wichtige Ausgabeinformationen
„Innerhalb des Clusters Summe der quadratischen Fehler“ ist der Standard zur Bewertung der Qualität des Clusterings – SSE, also die Summe der quadratischen Fehler. Je kleiner der SSE-Wert ist, desto besser ist das Clustering-Ergebnis.
Auf „Clusterschwerpunkte:“ folgt die Position jedes Clusterzentrums. Bei numerischen Attributen ist das Clusterzentrum der Mittelwert (Mean) und bei kategorialen Attributen der Modus (Mode).
„Clustered Instances“ ist die Anzahl und der Prozentsatz der Instanzen in jedem Cluster.
Beobachten Sie die visuellen Clustering-Ergebnisse
Klicken Sie mit der rechten Maustaste auf die in der „Ergebnisliste“ unten links aufgeführten Ergebnisse und klicken Sie auf „Clusterzuordnungen visualisieren“.
Das Popup-Fenster zeigt das Streudiagramm jeder Instanz.
Die beiden oberen Felder dienen zur Auswahl der Abszisse und der Ordinate
Die „Farbe“ in der zweiten Zeile ist die Grundlage für die Einfärbung des Streudiagramms. Standardmäßig werden die Instanzen entsprechend den verschiedenen Clustern „Cluster“ mit unterschiedlichen Farben markiert.
Vereinsregeln
Durch das Lernen von WEKA-Assoziationsregeln können Abhängigkeiten zwischen Attributgruppen ermittelt werden:
Zum Beispiel Milch, Butter Brot, Eier (Konfidenz 0,9 und Unterstützung 2000)
Für die Assoziationsregel L->R
Unterstützung – die Wahrscheinlichkeit, sowohl das Antezedens als auch das Konsequente zu beobachten Unterstützung = Pr(L,R)
Vertrauen – die Wahrscheinlichkeit, dass die Konsequenz eintritt, wenn die Antezedenz eintritt. Vertrauen = Pr(L,R)/Pr(L)
Hauptalgorithmen für das Assoziationsregel-Mining
Die wichtigsten Algorithmen für das Assoziationsregel-Mining auf der WEKA-Data-Mining-Plattform sind:
Apriori – kann alle Assoziationsregeln ableiten, die die Mindestunterstützung und die Mindestunterstützung erfüllen.
car: Wenn auf „true“ gesetzt, werden Klassenassoziationsregeln anstelle globaler Assoziationsregeln ermittelt.
classindex: Klassenattributindex. Wenn es auf -1 gesetzt ist, wird das letzte Attribut als Klassenattribut behandelt.
Delta: Verwenden Sie diesen Wert als Iterationsdekrementierungseinheit. Die Unterstützung wird kontinuierlich reduziert, bis die Mindestunterstützung erreicht ist oder Regeln generiert werden, die den quantitativen Anforderungen genügen.
LowerBoundMinSupport: Untergrenze der minimalen Unterstützung.
metricType: Metriktyp, legen Sie die Metrikbasis für Sortierregeln fest. Es kann sein: Selbstvertrauen (Klassenzugehörigkeitsregeln können nur mit Selbstvertrauen umgesetzt werden), Auftrieb, Hebelwirkung und Überzeugung.
In Weka werden mehrere dem Vertrauen ähnliche Maße eingerichtet, um den Grad der Assoziation von Regeln zu messen:
Lift: das Verhältnis von Vertrauen zu konsequenter Unterstützung Auftrieb = Pr(L,R) / (Pr(L)Pr(R)) Wenn Lift = 1 ist, bedeutet dies, dass L und R unabhängig sind. Je größer die Zahl (>1), desto mehr deutet dies darauf hin, dass die Existenz von L und B im selben Warenkorb kein Zufall ist und eine starke Korrelation besteht.
Hebelwirkung, Gleichgewicht: Unter der Annahme, dass Antezedens und Konsequenz statistisch unabhängig sind, der Anteil der Instanzen, die den erwarteten Wert überschreiten und sowohl vom Antezedens als auch von der Konsequenz abgedeckt werden. Hebelwirkung = Pr(L,R) - Pr(L)Pr(R) Wenn Leverage = 0, sind L und R unabhängig. Je größer der Leverage, desto enger ist die Beziehung zwischen L und R.
Überzeugung, Glaubwürdigkeit: Wird auch verwendet, um die Unabhängigkeit von Antezedens und Konsequenz zu messen. Überzeugung = Pr(L)Pr(!R) / Pr(L,!R) (!R bedeutet, dass R nicht aufgetreten ist) Aus seiner Beziehung zum Auftrieb (kehren Sie R um und ermitteln Sie den Kehrwert, nachdem Sie ihn in die Auftriebsformel eingesetzt haben) können wir erkennen, dass L und R umso relevanter sind, je größer dieser Wert ist.
minMtric: Mindestwert der Metrik.
numRules: Anzahl der zu entdeckenden Regeln.
OutputItemSets: Wenn auf true gesetzt, werden Itemsets im Ergebnis ausgegeben.
removeAllMissingCols: Alle Spalten mit fehlenden Werten entfernen.
Signifikanzniveau: Wichtigkeitsniveau. Signifikanztest (nur für Vertrauen).
UpperBoundMinSupport: Die Obergrenze der Mindestunterstützung. Ausgehend von diesem Wert wird die Mindestunterstützung iterativ verringert.
verbose: Wenn auf true gesetzt, wird der Algorithmus im ausführlichen Modus ausgeführt.
PredictiveApriori – kombiniert Vertrauen und Unterstützung bei der Vorhersagegenauigkeit zu einer Ein-Grad-Messmethode und findet Assoziationsregeln sortiert nach Vorhersagegenauigkeit.
Terius – sucht nach Regeln, die auf dem Grad der Bestätigung basieren. Wie Apriori sucht es nach Regeln, deren Schlussfolgerungen mehrere Bedingungen enthalten, aber der Unterschied besteht darin, dass diese Bedingungen „oder“ zueinander und nicht „und“ sind.
Keiner dieser drei Algorithmen unterstützt numerische Daten.
Tatsächlich unterstützen die meisten Assoziationsregelalgorithmen keine numerischen Typen. Daher müssen die Daten verarbeitet, in Segmente unterteilt und in Bins diskretisiert werden.
Informationen zum Betrieb des Assoziationsregel-Mining-Algorithmus
Wählen Sie Attribute aus. Wählen Sie Attribute aus
Bei der Attributauswahl werden alle möglichen Kombinationen aller Attribute im Datensatz durchsucht, um den Attributsatz mit dem besten Vorhersageeffekt zu finden.
Um dieses Ziel zu erreichen, müssen Attributbewerter und Suchstrategien festgelegt werden.
Der Bewerter bestimmt, wie einer Reihe von Attributen ein Wert zugewiesen wird, der angibt, wie gut oder schlecht sie sind.
Die Suchstrategie bestimmt, wie die Suche durchgeführt wird.
Optionen
In der Spalte „Attributauswahlmodus“ gibt es zwei Optionen.
Vollständigen Trainingssatz verwenden Verwenden Sie die gesamten Trainingsdaten, um zu bestimmen, wie gut ein Satz von Attributen ist.
Kreuzvalidierung Die Qualität einer Reihe von Attributen wird durch einen Kreuzvalidierungsprozess bestimmt. Fold und Seed geben jeweils die Fold-Nummer der Kreuzvalidierung und den zufälligen Seed beim Verschlüsseln der Daten an.
Wie im Abschnitt „Klassifizieren“ gibt es auch hier ein Dropdown-Feld zur Angabe des Klassenattributs.
Auswahl ausführen
Klicken Sie auf die Schaltfläche „Start“, um mit der Attributauswahl zu beginnen. Nach Abschluss werden die Ergebnisse im Ergebnisbereich ausgegeben und ein Eintrag zur Ergebnisliste hinzugefügt.
Wenn Sie mit der rechten Maustaste auf die Ergebnisliste klicken, erhalten Sie mehrere Optionen. Die ersten drei (Im Hauptfenster anzeigen, In separatem Fenster anzeigen und Ergebnispuffer speichern) sind dieselben wie im Klassifizierungsbereich.
Sie können auch reduzierte Datensätze visualisieren (Reduzierte Daten visualisieren)
Fähigkeit zur Visualisierung transformierter Datensätze (Transformierte Daten visualisieren)
Reduzierte/transformierte Daten können mit der Option Reduzierte Daten speichern... oder Transformierte Daten speichern... gespeichert werden.
DatenvisualisierungVisualisieren
Die Visualisierungsseite von WEKA kann die aktuelle Beziehung in einem zweidimensionalen Streudiagramm visuell durchsuchen.
Streudiagrammmatrix
Wenn das Bedienfeld „Visualisieren“ ausgewählt ist, wird für alle Attribute eine Streudiagrammmatrix angezeigt, die entsprechend dem ausgewählten Klassenattribut gefärbt wird.
Hier können Sie die Größe jedes 2D-Streudiagramms ändern, die Größe jedes Punkts ändern und die Daten nach dem Zufallsprinzip jittern (wodurch ausgeblendete Punkte angezeigt werden).
Sie können auch die zum Färben verwendeten Attribute ändern, Sie können nur eine Teilmenge eines Satzes von Attributen auswählen, um sie in die Streudiagrammmatrix einzufügen, und Sie können auch eine Teilstichprobe der Daten erstellen.
Beachten Sie, dass diese Änderungen erst wirksam werden, nachdem Sie auf die Schaltfläche „Aktualisieren“ geklickt haben.
Wählen Sie einzelne 2D-Streudiagramme aus
Nach dem Klicken auf ein Element der Streudiagrammmatrix öffnet sich ein separates Fenster zur Visualisierung des ausgewählten Streudiagramms.
Die Datenpunkte sind über den Hauptbereich des Fensters verteilt. Oben befinden sich zwei Dropdown-Felder zur Auswahl der Koordinatenachsen für die Punkte. Auf der linken Seite befinden sich Eigenschaften, die als x-Achse verwendet werden; auf der rechten Seite werden Eigenschaften angezeigt, die als y-Achse verwendet werden.
Neben der X-Achsen-Auswahl befindet sich ein Dropdown-Feld zur Auswahl eines Farbschemas. Es färbt Punkte basierend auf ausgewählten Attributen ein.
Unterhalb des gepunkteten Bereichs befindet sich eine Legende, die erklärt, welchen Wert jede Farbe darstellt. Wenn die Werte diskret sind, können die Farben durch Anklicken im neuen Fenster, das sich öffnet, geändert werden.
Rechts neben dem Punktbereich befinden sich einige horizontale Balken. Jeder Balken stellt ein Attribut dar und die darin enthaltenen Punkte stellen die Verteilung der Attributwerte dar. Diese Punkte sind in vertikaler Richtung zufällig verteilt, sodass die Dichte der Punkte erkennbar ist.
Klicken Sie auf diese Balken, um die für das Hauptdiagramm verwendeten Achsen zu ändern. Klicken Sie mit der linken Maustaste, um die Eigenschaften der x-Achse zu ändern. Klicken Sie mit der rechten Maustaste, um die y-Achse zu ändern. „X“ und „Y“ neben dem horizontalen Balken stellen das von der aktuellen Achse verwendete Attribut dar („B“ zeigt an, dass es sowohl für die x-Achse als auch für die y-Achse verwendet wird).
Über der Eigenschaftsleiste befindet sich ein Cursor mit der Bezeichnung „Jitter“. Es kann die Position jedes Punkts im Streudiagramm zufällig verschieben, was zu Jitter führt. Durch Ziehen nach rechts wird die Amplitude des Jitters erhöht, was zur Identifizierung der Punktdichte hilfreich ist.
Wenn Sie dieses Dithering nicht verwenden, sehen Zehntausende Punkte zusammen wie ein einzelner Punkt aus.
Unterhalb der Y-Achsen-Auswahlschaltfläche befindet sich eine Dropdown-Schaltfläche, die die Methode zur Auswahl von Datenpunkten festlegt.
Datenpunkte können auf die folgenden vier Arten ausgewählt werden:
Durch Klicken auf jeden Datenpunkt wird ein Fenster geöffnet, in dem seine Attributwerte aufgeführt sind. Wenn mehr als ein Punkt angeklickt wird, werden auch mehrere Sätze von Attributwerten aufgelistet.
Rechteck: Erstellen Sie ein Rechteck, indem Sie Punkte darin ziehen und auswählen.
Polygon. Erstellt ein Freiformpolygon und wählt seine Punkte aus. Klicken Sie mit der linken Maustaste, um die Eckpunkte des Polygons hinzuzufügen, und klicken Sie mit der rechten Maustaste, um die Eckpunkteinstellungen abzuschließen. Die Start- und Endpunkte werden automatisch verbunden, sodass das Polygon immer geschlossen ist.
Sie können eine Polylinie erstellen, um die Punkte auf beiden Seiten davon zu trennen. Klicken Sie mit der linken Maustaste, um Polylinienscheitelpunkte hinzuzufügen, und klicken Sie mit der rechten Maustaste, um die Einstellung zu beenden. Polylinien sind immer offen (im Gegensatz zu geschlossenen Polygonen).
Wenn Sie einen Bereich eines Streudiagramms mithilfe von Rechteck, Polygon oder Polylinie auswählen, wird der Bereich grau.
Wenn Sie zu diesem Zeitpunkt auf die Schaltfläche „Senden“ klicken, werden alle Instanzen entfernt, die außerhalb des Graubereichs liegen.
Durch Klicken auf die Schaltfläche „Löschen“ wird der ausgewählte Bereich gelöscht, ohne dass dies Auswirkungen auf die Grafik hat. Wenn alle Punkte aus dem Diagramm entfernt werden, ändert sich die Schaltfläche „Senden“ in eine Schaltfläche „Zurücksetzen“. Mit dieser Schaltfläche können alle vorherigen Entfernungen abgebrochen und das Diagramm in den Ausgangszustand zurückversetzt werden, in dem sich alle Punkte befinden.
Klicken Sie abschließend auf die Schaltfläche „Speichern“, um die aktuell sichtbare Instanz in einer neuen ARFF-Datei zu speichern.
Wissensflussschnittstelle KnowledgeFlow
KnowledgeFlow stellt Weka eine grafische „Wissensfluss“-Oberfläche zur Verfügung.
Benutzer können Komponenten aus einer Symbolleiste auswählen, sie auf dem Panel platzieren und in einer bestimmten Reihenfolge verbinden, um einen „Wissensfluss“ zur Verarbeitung und Analyse von Daten zu bilden.
Zum Beispiel: „Datenquelle“ -> „Filter“ -> „Klassifizierung“ -> „Bewertung“
Weka-Klassifizierer, Filter, Clusterer, Lader, Sparer und einige andere Funktionen können in KnowledgeFlow verwendet werden.
Das Knowledge Flow-Layout kann gespeichert und erneut geladen werden.
Verfügbare Komponenten von KnowledgeFlow
Oben im KnowledgeFlow-Fenster befinden sich acht Registerkarten:
DataSources – Datenlader
DataSinks – Datensparer
Filter – Filter
Klassifikatoren – Klassifikatoren
Clusterer – Cluster
Verbände – Assoziatoren
Bewertung – Bewerter
TrainingSetMaker – Machen Sie einen Datensatz zu einem Trainingssatz
TestSetMaker – Machen Sie einen Datensatz zu einem Testsatz
CrossValidationFoldMaker – teilt jeden Datensatz, Trainingssatz oder Testsatz zur Kreuzvalidierung in mehrere Falten auf
TrainTestSplitMaker – Teilen Sie jeden Datensatz, Trainingssatz oder Testsatz in einen Trainingssatz und einen Testsatz auf
ClassAssigner – Verwenden Sie eine Spalte als Klassenattribut eines beliebigen Datensatzes, Trainingssatzes oder Testsatzes
ClassValuePicker – Wählen Sie eine bestimmte Kategorie als „positive“ Klasse aus. Dies kann beim Generieren von Daten für ROC-Formkurven nützlich sein
ClassifierPerformanceEvaluator – Bewerten Sie die Leistung eines trainierten oder getesteten Klassifikators im Batch-Modus
IncrementalClassi¯erEvaluator – Bewerten Sie die Leistung von Klassifikatoren, die im inkrementellen Modus trainiert wurden
ClustererPerformanceEvaluator – Bewerten Sie die Leistung trainierter oder getesteter Clusterer im Batch-Modus
PredictionAppender – Fügt den Vorhersagewert des Klassifikators zum Testsatz hinzu. Für diskrete Klassifizierungsprobleme können Sie vorhergesagte Klassenmarker oder Wahrscheinlichkeitsverteilungen hinzufügen
Visualisierung – Visualisierung
DataVisualizer: Diese Komponente öffnet ein Bedienfeld, das die Visualisierung der Daten in einem separaten, größeren Streudiagramm ermöglicht.
ScatterPlotMatrix – Diese Komponente kann ein Panel mit einer Matrix anzeigen, die aus einigen kleinen Streudiagrammen besteht (durch Klicken auf jedes kleine Streudiagramm wird ein großes Streudiagramm angezeigt).
AttributeSummarizer – Diese Komponente öffnet ein Panel mit einer Matrix von Histogrammen. Jedes Histogramm entspricht einem Attribut in den Eingabedaten.
ModelPerformanceChart – Diese Komponente kann ein Panel zur Visualisierung von Schwellenwertkurven (z. B. ROC-Kurven) öffnen.
TextViewer – Diese Komponente wird zum Anzeigen von Textdaten verwendet und kann zum Anzeigen von Datensätzen und Statistiken zur Messung der Klassifizierungsleistung usw. verwendet werden.
GraphViewer – Diese Komponente kann ein Panel zur Visualisierung baumbasierter Modelle öffnen
StripChart – Diese Komponente kann ein Fenster öffnen, das ein fortlaufendes Datenstreudiagramm anzeigt (zur sofortigen Beobachtung der Leistung des inkrementellen Klassifikators).