Mindmap-Galerie Mindmap für Data-Mining- und Analysetechnologie
Ein Rechenprozess, der Methoden wie künstliche Intelligenz, maschinelles Lernen und Statistik nutzt, um aus riesigen Datenmengen nützliche, bisher unbekannte Muster oder Erkenntnisse zu extrahieren.
Bearbeitet um 2021-12-27 22:46:49Welche Preismethoden gibt es für Projektunteraufträge im Rahmen des EPC-Generalvertragsmodells? EPC (Engineering, Procurement, Construction) bedeutet, dass der Generalunternehmer für den gesamten Prozess der Planung, Beschaffung, Konstruktion und Installation des Projekts verantwortlich ist und für die Testbetriebsdienste verantwortlich ist.
Die Wissenspunkte, die Java-Ingenieure in jeder Phase beherrschen müssen, werden ausführlich vorgestellt und das Wissen ist umfassend. Ich hoffe, es kann für alle hilfreich sein.
Das Software-Anforderungs-Engineering ist ein Schlüsselkapitel für Systemanalytiker. Zu den Kapiteln „Anforderungserhebung“ und „Anforderungsanalyse“ gehören häufig Veröffentlichungen.
Welche Preismethoden gibt es für Projektunteraufträge im Rahmen des EPC-Generalvertragsmodells? EPC (Engineering, Procurement, Construction) bedeutet, dass der Generalunternehmer für den gesamten Prozess der Planung, Beschaffung, Konstruktion und Installation des Projekts verantwortlich ist und für die Testbetriebsdienste verantwortlich ist.
Die Wissenspunkte, die Java-Ingenieure in jeder Phase beherrschen müssen, werden ausführlich vorgestellt und das Wissen ist umfassend. Ich hoffe, es kann für alle hilfreich sein.
Das Software-Anforderungs-Engineering ist ein Schlüsselkapitel für Systemanalytiker. Zu den Kapiteln „Anforderungserhebung“ und „Anforderungsanalyse“ gehören häufig Veröffentlichungen.
Data-Mining- und Analysetechnologie
Kapitel 1 Überblick über Data Mining
Vor dem Unterricht verstehen
Zusammenfassung
maschinelles Lernen
Arbeitsanweisungen
Datenimport
Datenvorverarbeitung
Feature-Engineering
Teilt
Trainingsmodell
Bewertungsmodell
Prognostizieren Sie neue Daten
KI
Merkmale von Big Data
Eine Menge
Vielfältig
hohe Geschwindigkeit
Wert
1.1 Einführung in Data Mining
Definition
Ein Rechenprozess, der Methoden wie künstliche Intelligenz, maschinelles Lernen und Statistik nutzt, um aus riesigen Datenmengen nützliche, bisher unbekannte Muster oder Erkenntnisse zu extrahieren.
Hintergrund
Die Menge an Daten hat dramatisch zugenommen und neue Forschungsrichtungen hervorgebracht: datenbankbasierte Wissensentdeckung und Forschung zu entsprechenden Data-Mining-Theorien und -Technologien.
Der nächste Technologie-Hotspot nach dem Internet
Während eine große Menge an Informationen den Menschen Bequemlichkeit bringt, bringt sie auch viele Probleme mit sich.
Zu viele Informationen und schwer verdaulich
Es ist schwierig, die Authentizität von Informationen zu erkennen
Informationssicherheit ist schwer zu gewährleisten
Informationen liegen in unterschiedlicher Form vor und lassen sich nur schwer einheitlich verarbeiten
Brisante Daten, aber mangelndes Wissen
Die Entwicklung von Geschäftsdaten zu Geschäftsinformationen
Datenerfassung → Datenzugriff → Data Warehouse, Entscheidungsunterstützung → Data Mining (Bereitstellung prädiktiver Informationen)
Bühne
Datenvorverarbeitung
Bereinigen, integrieren, auswählen, transformieren
Data-Mining
Modellbewertung
Verfahren
Daten, Informationen, Wissen
Daten
„8000m“, „10000m“
Entstanden aus der Beobachtung und Messung objektiver Dinge, bezeichnen wir die untersuchten objektiven Dinge als Entitäten
Information
„8000 m ist die maximale Flughöhe für Flugzeuge“, „10000 m hoher Berg“
Wissen
„Flugzeuge können diesen Berg nicht überfliegen“
Weisheit
Hauptinhalt
Assoziationsregel-Mining
Bier und Windeln
überwachtes maschinelles Lernen
Diskrete Etikettenvorhersage – Etikettenklassifizierung
Kontinuierliche Etikettenvorhersage – numerische Vorhersage
Unüberwachtes maschinelles Lernen – Clustering (Ähnlichkeitsalgorithmus)
zurückkehren
Stellen Sie quantitative Beziehungen zwischen mehreren Variablen her
Klassifizierung von Algorithmen
überwachtes Lernen
Lernen Sie eine Funktion (Modell) aus den gegebenen Trainingsdaten. Wenn neue Daten eintreffen, kann das Ergebnis basierend auf dieser Funktion (Modell) vorhergesagt werden.
Trainingsdaten haben eine klare Identifizierung oder Ergebnisse
Regressionsalgorithmus, neuronales Netzwerk, SVM-Support-Vektor-Maschine
Regressionsalgorithmus
lineare Regression
Behandeln Sie numerische Probleme, und das endgültige Vorhersageergebnis ist eine Zahl, wie zum Beispiel: Hauspreis
logistische Regression
Gehört zu einem Klassifizierungsalgorithmus, z. B. zur Feststellung, ob es sich bei einer E-Mail um Spam handelt
Neuronale Netze
Wird auf visuelle Erkennung und Spracherkennung angewendet
SVM unterstützt den Vektormaschinenalgorithmus
Verbesserung des logistischen Regressionsalgorithmus
unbeaufsichtigtes Lernen
Trainingsdaten sind nicht speziell gekennzeichnet
Clustering-Algorithmus, Dimensionsreduktionsalgorithmus
Clustering-Algorithmus
Berechnen Sie die Entfernung in der Grundgesamtheit und teilen Sie die Daten basierend auf der Entfernung in mehrere Grundgesamtheiten auf
Algorithmus zur Dimensionsreduktion
Reduzieren Sie die Daten von hoher Dimensionalität auf niedrige Dimensionalität. Die Dimension stellt die Größe der Merkmalsmenge der Daten dar. Beispielsweise enthält der Hauspreis die vier Merkmale Länge, Breite, Fläche und Anzahl der Räume des Hauses Die Dimension besteht aus 4-dimensionalen Daten, und die obigen Informationen überschneiden sich mit den durch Fläche = Länge × Breite dargestellten Informationen. Redundante Informationen werden durch Dimensionsreduzierung entfernt.
Komprimieren Sie Daten und verbessern Sie die Effizienz des maschinellen Lernens
Unternehmensdatenanwendungen
halbüberwachtes Lernen
Wie man eine kleine Anzahl beschrifteter Proben und eine große Anzahl unbeschrifteter Proben für Trainings- und Klassifizierungsprobleme verwendet
Bildidentifikation
Verstärkungslernen
Lernsubjekte fällen ihre Urteile auf der Grundlage von Rückmeldungen aus ihrer beobachteten Umgebung
Robotersteuerung
1.2 Grundlegende Prozesse und Methoden des Data Mining
grundlegende Methode
Predictive Mining
Extrapolieren Sie aktuelle Daten, um Vorhersagen zu treffen
Beschreibender Bergbau
Charakterisieren Sie die allgemeinen Merkmale der Daten in der Datenbank (Korrelation, Trend, Clustering, Anomalie...)
Data-Mining-Flussdiagramm
Wichtigste Data-Mining-Methoden in der sechsten Mittelschule (P6)
Zusammenfassende Zusammenfassung des Datensatzes
Regeln für die Datenzuordnung
Eine Möglichkeit zur Beschreibung potenzieller Verbindungen zwischen Daten, normalerweise dargestellt durch die Implikation A-B
Klassifizierung und Vorhersage
Clusterbildung
Heterogene Erkennung
Zeitreihenmodell
1.3 Anwendung von Data Mining
Geschäft
Gesundheitswesen und Medizin
Banken und Versicherungen
sozialen Medien
Werkzeug
Weka, Matlab, Java
Relevante Information
Unterthema
Kapitel 2 Datenbeschreibung und Visualisierung
2.1 Übersicht
Analysieren Sie Datenattribute und Datenwerte → Datenbeschreibung und Visualisierung
2.2 Datenobjekte und Attributtypen
Datensatz
Bestehend aus Datenobjekten
Verkaufsdatenbank: Kunden, Ladenartikel, Verkäufe Medizinische Datenbank: Patienten- und Behandlungsinformationen Universitätsdatenbank: Informationen zu Studenten, Professoren und Kursen
Datenobjekt
Ein Datenobjekt repräsentiert eine Entität
Bekannt als: Beispiel, Beispiel, Instanz, Datenpunkt, Objekt, Tupel
Attribute
ein Merkmal eines Datenobjekts
der Begriff
Datenbank: Dimension
Maschinelles Lernen: Funktionen
Statistik: Variablen
Data Mining, Datenbanken: Eigenschaften
Einstufung
Nominale Eigenschaften
Nominale Attributwerte sind einige Symbole oder Namen von Dingen, die Kategorien und Namen darstellen
Nominales Attribut: Haarfarbe, mögliche Werte: schwarz, weiß, braun Nominales Attribut: Familienstand, mögliche Werte: verheiratet, ledig, geschieden, verwitwet
Binäre Attribute (spezielle nominale Attribute)
Es gibt nur zwei Kategorien und Status
symmetrisches Binärsystem
Der Unterschied in der Datengröße ist gering Beispiel: Geschlecht – männlich, weiblich
asymmetrische Binärdatei
Die Datengröße variiert stark Beispiel: Medizinischer Test – negativ, positiv
Ordnungseigenschaften
Es gibt eine Reihenfolge, aber der Unterschied zwischen ihnen ist unbekannt. Sie wird normalerweise zur Bewertung verwendet.
Lehrertitel, militärischer Rang, Kundenzufriedenheit
Numerische Eigenschaften
Intervallskalierungseigenschaften
Sequentiell in Längeneinheiten gemessen
Eigenschaften der Verhältnisskala
Hat einen festen Nullpunkt, ist geordnet und kann Vielfache berechnen
Diskrete und kontinuierliche Attribute
2.3 Grundlegende statistische Beschreibung von Daten
Maß der zentralen Tendenz
Mittelwert, Median, Modus
Verbreitung metrischer Daten
Bereich, Quartil, Quartilbereich
Fünf-Zahlen-Zusammenfassung, Boxplots und Ausreißer
Varianz, Standardabweichung
Grafische Darstellung grundlegender Datenstatistiken
Quantildiagramm
Quantil – Quantildiagramm
Histogramm
Höhe - Menge, Häufigkeit
Streudiagramm
Entdecken Sie Zusammenhänge zwischen Attributen
2.4 Datenvisualisierung
Definition
Drücken Sie Daten effektiv durch Grafiken aus
Drei Visualisierungsmethoden
Boxplot (Boxplot)
Analysieren Sie die Streuungsunterschiede mehrerer Attributdaten
Kann die Verteilung von Daten und Ausreißer anzeigen (müssen gelöscht werden)
Histogramm
Analysieren Sie die Änderungsverteilung eines einzelnen Attributs in verschiedenen Intervallen
Streudiagramm
Zeigen Sie die Korrelationsverteilung zwischen zwei Datensätzen an
2.4.1 Pixelbasierte Visualisierung
Eine einfache Möglichkeit, eindimensionale Werte zu visualisieren, besteht darin, Pixel zu verwenden, deren Farbe den Wert dieser Dimension widerspiegelt
Geeignet für eindimensionale Werte, nicht geeignet für die Verteilung mehrdimensionaler räumlicher Daten
2.4.2 Geometrische Projektionsvisualisierung
Helfen Sie Benutzern, Projektionen mehrdimensionaler Daten zu entdecken. Die größte Herausforderung der geometrischen Projektionstechnologie besteht darin, herauszufinden, wie sich hochdimensionaler Raum in zwei Dimensionen visualisieren lässt.
Für zweidimensionale Datenpunkte wird normalerweise ein Streudiagramm des kartesischen Koordinatensystems verwendet. Im Streudiagramm können verschiedene Farben oder Formen als dritte Dimension der Daten verwendet werden.
(Wird für dreidimensionale Datensätze verwendet) Streudiagramme, Streudiagrammmatrizen und parallele Koordinatenvisualisierung (wenn die Anzahl der Dimensionen groß ist)
2.4.3 Symbolbasierte Visualisierung
Stellen Sie mehrdimensionale Datenwerte mit einer kleinen Anzahl von Symbolen dar
Zwei häufig verwendete Symbolmethoden
Tschernows Gesicht (ermöglicht die Visualisierung von bis zu 36 Dimensionen)
Zeigen Sie Datentrends auf
Elemente wie Augen, Mund und Nase des Gesichts verwenden unterschiedliche Formen, Größen, Positionen und Richtungen, um Bemaßungswerte darzustellen.
Jedes Gesicht stellt einen n-dimensionalen Datenpunkt (n ≤ 18) dar, und die Bedeutung verschiedener Gesichtsmerkmale wird durch die Identifizierung kleiner Unterschiede in den Gesichtern verstanden.
Zeichenlinienzeichnung
2.4.4 Hierarchische Visualisierung
Teilen Sie alle Dimensionen in Teilmengen (d. h. Teilräume) auf und visualisieren Sie diese Teilräume hierarchisch
Zwei häufig verwendete hierarchische Visualisierungsmethoden
X-Achsen-Y-Achsen-Teilmengenhierarchie
Zahlendiagramm
2.4.5 Visualisierung komplexer Objekte und Beziehungen
Schlagwortwolke
2.5 Messung der Datenähnlichkeit und -unähnlichkeit
Konzept
Ähnlichkeit
Misst, wie ähnlich zwei Datenobjekte sind. Je größer der Wert, desto ähnlicher sind sie. Der übliche Wertebereich ist [0,1].
Unähnlichkeit
Misst den Grad der Differenz zwischen zwei Datenobjekten. Je kleiner der Wert, desto ähnlicher sind die Daten. Die minimale Unähnlichkeit beträgt normalerweise 0.
Nähe
Bezieht sich auf Ähnlichkeit oder Unähnlichkeit
Stellt zwei Datenstrukturen bereit
Datenmatrix (Objekt – Attributmatrix)
Speichern Sie n Datenobjekte, jedes n Datenobjekt hat n Zeilen und p Attributmerkmale haben p Spalten.
Unähnlichkeitsmatrix (Objekt - Objektmatrix)
Unähnlichkeitswert, der zum Speichern von Datenobjekten verwendet wird
Normalerweise eine dreieckige Matrix
Näherungsmaß für nominale Attribute
Näherungsmaß für binäre Attribute
Unähnlichkeit in numerischen Attributen
Mehrere gängige Methoden zur Berechnung von Distanzmaßen für die Unähnlichkeit numerischer Attributobjekte
Euklidische Entfernung
Manhattan-Entfernung
Ou und Man erfüllen gleichzeitig die folgenden Eigenschaften
Minkowski-Distanz
Förderung von Ouyuman
Höchster Abstand
gibt den Maximalwert der Differenz zwischen Objekten an
Näherungsmaße für Ordinalattribute
Unähnlichkeit gemischter Attribute
Jeder Attributtyp wird in eine Gruppe unterteilt, und für jeden Typ wird eine Data-Mining-Analyse (z. B. Clusteranalyse) durchgeführt. Wenn diese Analysen die gleichen Ergebnisse liefern, funktioniert die Methode, aber in praktischen Anwendungen ist es schwierig, für jede Attributtypklassifizierung die gleichen Ergebnisse zu erhalten.
Ein besserer Ansatz: Führen Sie einfach eine einzelne Analyse durch, kombinieren Sie die verschiedenen Attribute in einer einzigen Unähnlichkeitsmatrix und transformieren Sie die Attribute in ein gemeinsames Intervall [0,0,0,1].
Beispiel
Unterthema
Kosinusähnlichkeit (einfach verstehen)
Text-Retrieval, Biological Information Mining
Dokumentvektor, Worthäufigkeitsvektor
Frequenzvektoren sind normalerweise lang und dünnbesetzt (haben viele 0-Werte)
Kapitel 7 Support Vector Machine
Klassifizierung von Support-Vektor-Maschinen
Problem der linearen binären Klassifizierung
Finden Sie die optimale Hyperebene
Kapitel 6 Klassifizierung und Vorhersage
6.1 Datenklassifizierung
kontinuierliche Variable
Größe, Gewicht
Kategorische Variablen
Ungeordnete kategoriale Variable
Geordnete Klassifizierung
Allgemeine Methoden zur Datenklassifizierung
Klassifizierung, Reihenfolge, Abstand, Verhältnis
6.2 Entscheidungsbaummodell
Entscheidungsbaum generieren
Entscheidungsbaum beschneiden
6.2.1 Wie Entscheidungsbäume funktionieren
6.3 Bayesianisches Klassifizierungsmodell
maximal a posteriori-Hypothese
Der Lernende wählt die wahrscheinlichste Hypothese h aus dem Kandidatenhypothesesatz H aus, wenn ihm die Daten D vorliegen. h wird als Maximum-Posteriori-Hypothese bezeichnet.
Es muss nach der gemeinsamen Wahrscheinlichkeit gefragt werden
Normalerweise wird davon ausgegangen, dass jedes Attribut unabhängig und identisch verteilt ist
Zuvor müssen Korrelationsberechnungen und Zusammenführungen durchgeführt werden, um die Korrelation zwischen Attributen zu minimieren.
Merkmale
Attribute können diskret oder kontinuierlich sein
Solide mathematische Grundlage und stabile Klassifizierungseffizienz
Unempfindlich gegenüber fehlenden Daten, verrauschten Daten und Ausreißern
Wenn die Attribute nicht relevant sind, ist der Klassifizierungseffekt sehr gut
6.4 Lineares Diskriminanzmodell
6.5 Logistisches Regressionsmodell
6.6 Modellbewertung und -auswahl
Kapitel 5 Assoziationsregel-Mining
5.1 Übersicht
Konzept
Das Mining von Assoziationsregeln wird verwendet, um die Korrelation zwischen Elementsätzen in der Transaktionsdatenbank zu ermitteln und alle Assoziationsregeln zu ermitteln, die die Mindestschwellenwertanforderungen an Unterstützung und Vertrauen erfüllen.
Assoziationsregeln werden verwendet, um potenziell nützliche Abhängigkeiten zwischen Datenelementen in großen Datenmengen zu finden.
häufige Itemsets
Artikelset, das ein Mindestmaß an Unterstützung und Glaubwürdigkeit erfüllt
Unterstützung
Glaubwürdigkeit
Starke Regeln
Regeln, die das Mindestmaß an Unterstützung und Vertrauen erfüllen oder übertreffen
Hauptschritte des Data Mining
Suchen Sie im Artikelsatz von Big Data nach der Häufigkeitsanzahl ≥ des häufigen Artikelsatzes
Legen Sie aus den oben erhaltenen häufigen Itemsets Assoziationsregeln fest, die die Mindestbedingungen für Unterstützung und Glaubwürdigkeit erfüllen.
5.2 Klassifizierung
5.3 Rechercheschritte
5.4 Analyse des Apriori-Algorithmus
5.6 Verallgemeinerung der Verbandsregeln (GRI)
Tiefensuche
5.7 Eingehende Untersuchung der Assoziationsregeln
Kapitel 4 Datenreduktion (Datenreduktion)
4. 1 Übersicht über die Wartung
Optimieren Sie Daten weitestgehend und behalten Sie gleichzeitig das ursprüngliche Erscheinungsbild der Daten bei
4.2 Attributauswahl und numerische Reduzierung
Bewertungskriterien für Attribute (P58)
Konsistenzmessung
Der Grad der Konsistenz zwischen zwei Attributen
Der Grad der Übereinstimmung zwischen Bildungsniveau und VIP-Niveau
Korrelationsmessung
Die Korrelation zwischen verschiedenen Attributen bezieht sich auf die Beziehung zwischen ihnen
Zusammenhang zwischen Bildungsniveau und VIP-Niveau
Je höher die Korrelation zwischen zwei Attributen ist, desto genauer lässt sich der Wert eines Attributs aus dem Wert des anderen Attributs ableiten.
Messung der Unterscheidungsfähigkeit
Die Fähigkeit eines bestimmten Attributs, Datensätze in der Datenbank zu unterscheiden
Informationsmessung
Je mehr Informationen ein Attribut enthält, desto wichtiger ist es
Die Informationsmenge wird üblicherweise anhand der „Informationsentropie“ gemessen.
Methode zur Auswahl der Attributteilmenge
Wählen Sie Schritt für Schritt weiter
Setzen Sie die Zieleigenschaft auf leer
Bei jeder Iteration wird das beste Attribut aus den verbleibenden Attributen im Originaldatensatz ausgewählt und zum Zielattributsatz hinzugefügt.
Entfernen Sie das Attribut aus dem Originaldatensatz
Wiederholen Sie diesen Vorgang, bis der Zielsatz den Anforderungen entspricht
Schritt für Schritt Rückwärtsauswahl
Ordnen Sie zunächst den ursprünglichen Attributsatz dem Nicht-Ziel-Attributsatz zu
In jeder Iteration wird das Attribut mit der schlechtesten Gesamtbewertung aus dem Zielattributsatz entfernt.
Wiederholen Sie diesen Vorgang, bis der Zielattributsatz die Anforderungen erfüllt
numerische Reduzierung
Transformieren Sie Eigenschaften in Variablen, um ihren Dynamikbereich zu reduzieren
Einfache Funktionstransformation
Standardisierung von Daten
Diskretisieren Sie Attribute und kodieren Sie sie mit ganzen Zahlen
Diskretisierung gleicher Breite, Diskretisierung gleicher Tiefe
Binärisieren Sie das Attribut, sodass es nur zwei Werte hat
Wenn es sich bei dem Attributwert um ein Signal oder ein Bild handelt, kann auch eine Komprimierungskodierung durchgeführt werden
4.3 Lineare Regression
Definition
Ist die Untersuchung der Beziehung zwischen einer einzelnen abhängigen Variablen und einer oder mehreren unabhängigen Variablen
Nützlichkeit
Vorhersage bezieht sich auf die Verwendung beobachteter Variablen zur Vorhersage abhängiger Variablen
Die Kausalanalyse behandelt die unabhängige Variable als Ursache der abhängigen Variablen.
lineare Regression
Multiple Regression
nichtlineare Regression
Modelldaten, die keine linearen Abhängigkeiten aufweisen
Verwenden Sie die Methode der polynomialen Regressionsmodellierung, führen Sie dann eine Variablentransformation durch, um das nichtlineare Modell in ein lineares Modell umzuwandeln, und lösen Sie es dann mithilfe der Methode der kleinsten Quadrate
4. 4 Hauptkomponentenanalyse (PCA-Hauptkomponentenanalyse)
Häufig verwendete Methoden zur Dimensionsreduktion hochdimensionaler Daten
Erstellen Sie eine lineare Kombination der ursprünglichen Variablen und spiegeln Sie alle oder die meisten Informationen der ursprünglichen Größe durch einige kombinierte Variablen wider.
Die kombinierte Variable ist die Hauptkomponente
Kapitel 3 Datenerfassung und Vorverarbeitung (Bereinigung, Integration, Reduktion, Transformation)
3.1 Übersicht
Merkmale der Big-Data-Erfassung
Der erste Schritt im Big-Data-Lebenszyklus
Im Vergleich zu herkömmlichen Daten sind Big-Data-Daten umfangreich, vielfältig und heterogen.
Von der Erfassung bis zur Verarbeitung müssen bei Big Data Konsistenz, Verfügbarkeit und Partitionsfehlertoleranz abgewogen werden.
Big-Data-Erfassungsmethoden (verstehen)
Protokollsammlung verteilter Systeme
Netzwerkdatenerfassung
Webcrawler, öffentliche Website-API (Anwendungsprogrammierschnittstelle)
DPI Deep Packet Inspection
DFI-Tiefen-/Dynamische Strömungsinspektion
Spezifische Systemschnittstellen-Datenerfassung
3.2 Zweck und Aufgaben der Datenvorverarbeitung
Zweck
Verbessern Sie die Datenqualität
Hauptmission
Datenreinigung
Klären Sie Datenrauschen und korrigieren Sie Inkonsistenzen
Datenintegration
Konsolidieren Sie Daten aus mehreren Datenquellen in einem konsistenten Datenspeicher, beispielsweise einem Data Warehouse
Datentransformation (z. B. Normalisierung)
Daten in kleinere Intervalle komprimieren
3.3 Datenbereinigung
Das Wesentliche ist ein Prozess der Änderung des Datenmodells
Datenbereinigungspfad (verstehen)
1. Reinigung fehlender Werte
Fehlende Werte entfernen
mittlere Unterstellung
Heißkarten-Füllmethode
Methode zum Ausfüllen der Entscheidung über die nächste Entfernung
Regressionsimputation
mehrere Imputationsmethoden
k – Methode des nächsten Nachbarn
Bayesianischer Ansatz
2. Bereinigen von Ausreißern (Ausreißer, Wildwerte)
Definition und Identifizierung von Ausreißern
Umgang mit Ausreißern
3. Bereinigung des Formatinhalts
4. Bereinigung von Logikfehlern
Duplikate entfernen
Entfernen Sie unangemessene Werte
5. Nicht erforderliche Datenbereinigung
6.Relevanzüberprüfung
3.4 Datenintegration
Konzept
Datenintegration im klassischen Sinne
Kombinieren Sie Daten aus mehreren Datenspeichern und speichern Sie sie in einem einzigen Datenspeicher, beispielsweise einem Data Warehouse
Datenintegration im Allgemeinen
ETL – Extrahieren, Transformieren, Laden (zum Ziel) Es ist ein wichtiger Teil beim Aufbau eines Data Warehouse
Der Benutzer extrahiert die erforderlichen Daten aus der Datenquelle, bereinigt die Daten und lädt sie schließlich gemäß dem vordefinierten Data Warehouse-Modell in das Data Warehouse.
Bedeutung von Modellen
Standardisieren Sie die Definition von Daten, um eine einheitliche Codierung, Klassifizierung und Organisation zu erreichen
Bei der Integration mehrerer Datenbanken kommt es häufig zu Datenredundanz
Erkennen Sie redundante Attribute
Korrelationsanalyse
Diskrete Variable
Chi-Quadrat-Test
Je größer der Wert, desto relevanter ist er
kontinuierliche Variable
Korrelationskoeffizient
Gleich 1, -1, völlig linear verknüpft
Größer als 0, positive Korrelation
Bei einem Wert von 0 besteht kein linearer Zusammenhang
Kleiner als 0, negative Korrelation
Analyse der Kovarianz
Größer als 0, positive Korrelation
gleich 0, Unabhängigkeit
Einige Daten haben eine Kovarianz von 0, sind jedoch nicht unabhängig
Kleiner als 0, negative Korrelation
Strategie zur Datenreduzierung
Dimensionsreduktion
Szenarien, die eine Reduzierung der Dimensionalität erfordern
Die Daten sind spärlich und haben große Dimensionen
Hochdimensionale Daten verwenden eine regelbasierte Klassifizierungsmethode
Verwenden Sie komplexe Modelle (z. B. Deep Learning), aber die Anzahl der Trainingssätze ist gering
Muss visualisiert werden
Typische Methode zur Dimensionsreduktion – PCA-Hauptkomponentenanalyse
einführen
Es gibt einige Korrelationen zwischen vielen Attributen in den Daten.
Können Sie eine Möglichkeit finden, mehrere verwandte Attribute zu kombinieren, um nur ein Attribut zu bilden?
Konzept
Kombinieren Sie mehrere Originalattribute mit bestimmten Korrelationen (z. B. p-Attribute) zu einem Satz unabhängiger umfassender Attribute, um die Originalattribute zu ersetzen. Normalerweise besteht die mathematische Behandlung darin, die ursprünglichen Attribute von p linear mit den umfassenden Attributen des Antragstellers zu kombinieren.
Zum Beispiel: Schülernoten, Sprache, Mathematik, Außenpolitik, Geschichte, Geographie usw. werden in zwei Attribute unterteilt: Geisteswissenschaften und Naturwissenschaften.
Datenreduktion – Stichprobenziehung
Datenkompression
Reduzieren Sie die Größe der Daten, indem Sie deren Qualität, z. B. Pixel, reduzieren
3.5 Datentransformation
Datentransformationsstrategie
Glätte, Attributkonstruktion, Aggregation, Normalisierung, Diskretisierung, Konzeptschichtung
Häufig verwendete Datentransformationsmethoden
Transformieren Sie Daten durch Normalisierung
Diskretisierung durch Binning
Diskretisierung durch Histogramm-Binning
Diskretisierung durch Clustering, Entscheidungsbäume und Korrelationsanalyse
Konzeptionelle Schichtung nominaler Daten
Diskretisierung
Methode gleicher Breite
Gleichfrequenzmethode
Clustering-Methode