Mindmap-Galerie Theorie und Praxis der Datenwissenschaft, Kapitel 4
Datenwissenschaft und Big-Data-Struktur, Datenwissenschaft und Big-Data-Industriekette bieten technische Unterstützung für die Big-Data-Analyse, einschließlich Datenanalyseplattform, Datenwissenschaftsplattform, soziale Analyse, maschinelles Lernen usw. Datenressourcen repräsentieren die Institutionen, die Daten generieren, einschließlich Inkubatoren, Schulen und Forschungseinrichtungen.
Bearbeitet um 2023-10-21 15:49:41Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Projektmanagement ist der Prozess der Anwendung von Fachwissen, Fähigkeiten, Werkzeugen und Methoden auf die Projektaktivitäten, so dass das Projekt die festgelegten Anforderungen und Erwartungen im Rahmen der begrenzten Ressourcen erreichen oder übertreffen kann. Dieses Diagramm bietet einen umfassenden Überblick über die 8 Komponenten des Projektmanagementprozesses und kann als generische Vorlage verwendet werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Projektmanagement ist der Prozess der Anwendung von Fachwissen, Fähigkeiten, Werkzeugen und Methoden auf die Projektaktivitäten, so dass das Projekt die festgelegten Anforderungen und Erwartungen im Rahmen der begrenzten Ressourcen erreichen oder übertreffen kann. Dieses Diagramm bietet einen umfassenden Überblick über die 8 Komponenten des Projektmanagementprozesses und kann als generische Vorlage verwendet werden.
Technologie und Werkzeuge
Datenwissenschaftliches Technologiesystem
Infrastruktur
Bereitstellung von Datenberechnung, Datenverwaltung und -überwachung usw.
Analysetool
Die Industriekette Data Science und Big Data bietet technische Unterstützung für die Big-Data-Analyse, einschließlich Datenanalyseplattform, Data-Science-Plattform, soziale Analyse, maschinelles Lernen usw.
Geschäftliche Anwendungen
Organisationen stellen Anwendungstechnologien oder -tools auf Unternehmensebene bereit, darunter Vertrieb und Marketing, Kundenservice, Humankapital und andere spezifische Dienstleistungen
Branchenanwendung
Lösen Sie gängige Branchenprobleme und stellen Sie eine Technologieplattform für Unternehmensanwendungen bereit
Plattformübergreifende Infrastruktur und Analysetools
Bereitstellung einer plattformübergreifenden Infrastruktur und plattformübergreifender Analysetools wie Microsoft usw.
Open-Source-Tools
Technisches Design-Framework, Abfragedatenfluss, Datenzugriffskoordination, Stream-Verarbeitung, statistische Tools, künstliche Intelligenz, maschinelles Lernen, tiefes Lernen, Suchprotokollanalyse, Visualisierung, Zusammenarbeit und Sicherheit
Datenquelle und APP
Gesundheit, Internet der Dinge, Finanzen und Wirtschaft usw.
Datenressourcen
Datenressourcen repräsentieren die Institutionen, die die Daten generieren, einschließlich Gründerzentren, Schulen und Forschungseinrichtungen.
Karte verkleinern
Ein verteiltes Computermodell
Kartenfunktion
Die benutzerdefinierte Kartenfunktion empfängt die Schlüssel-Wert-Paare in den Eingabedaten und nach der Berechnung durch die Kartenfunktion wird ein Satz zwischenliegender Schlüssel-Wert-Paare erhalten.
Funktion reduzieren
Die benutzerdefinierte Reduzierungsfunktion empfängt einen Zwischenschlüsselwert und einen zugehörigen Satz von Wertwerten.
Die drei wichtigsten Veröffentlichungen von Google
Umsetzungsprozess
Haupteigenschaften
Ausführung in Form einer Master-Slave-Struktur
Datenverarbeitung zwischen Kartenfunktion und Reduzierungsfunktion
Shuffle-Verarbeitung
Combiner-Verarbeitung
Partitionsfunktion
Eingabe und Ausgabe des Schlüsselwerttyps
Die Komplexität von Fehlertoleranzmechanismen
Versagen des Arbeiters
Meisterversagen
Vielfalt an Datenspeicherorten
Quelldatei:GFS
Ergebnisse der Kartenverarbeitung: lokaler Speicher
Verarbeitungsergebnisse reduzieren: GFS
Protokoll:GFS
Die Bedeutung der Aufgabengranularität
Die Notwendigkeit eines Task-Backup-Mechanismus
Schlüsseltechnologie
Partitionsfunktion
Combiner-Funktion
Überspringen Sie beschädigte Datensätze
lokale Ausführung
Statusinformationen
Schalter
Implementierung und Verbesserung von MapReduce
MRv1
Programmiermodell
Datenverarbeitungsmaschine
Laufzeitumgebung
Schlechte Erweiterung
Schlechte Zuverlässigkeit
Geringe Ressourcenauslastung
Es können nicht mehrere Computer-Frameworks unterstützt werden
Hadoop
Apache bietet einen vollständigen Satz an Open-Source-Systembibliotheken für zuverlässiges skalierbares und verteiltes Computing
Hadoop MapReduce
Betrieb
Abgabe von Aufgaben
Jobinitialisierung
Prozess- und Statusaktualisierungen
Erledigung der Hausaufgaben
Aufgabe
Aufgabenverteilung
Ausführung von Aufgaben
jobTracker und TaskTracker
Eingabe-Slice
Optimierung der Datenlokalisierung
Der Client sendet die MapReduce-Aufgabe
JobTracker koordiniert die Ausführung von Jobs
TaskTracker führt die aufgeteilten Aufgaben aus
HDFS wird verwendet, um Auftragsdateien zwischen anderen Entitäten zu teilen
HDFS
Unterstützt sehr große Dateien
Basierend auf kommerzieller Hardware
Streaming-Datenzugriff
Hoher Durchsatz
Bienenstock
Es kann strukturierte Datendateien einer Datenbanktabelle zuordnen, einfache HiveQL-Abfragefunktionen bereitstellen und HiveQL-Anweisungen zur Ausführung in MapReduce-Aufgaben konvertieren.
Schwein
Schweinelatein, eine Beschreibungssprache für die Datenanalyse
Einfach zu programmieren
Einfach zu optimieren
Flexibilität
Pig-Ausführungsumgebung
Mahout
Bereitstellung skalierbarer Algorithmen für maschinelles Lernen und deren Implementierung
HBase
Skalierbare, äußerst zuverlässige, leistungsstarke, verteilte und spaltenorientierte dynamische Schemadatenbank für strukturierte Daten
Logisches HBase-Modell
Physikalisches HBase-Modell
Zookeeper
Einfachheit
Selbstreplikation
Sequentieller Zugriff
High-Speed-Lesen
Flueme
Hohe Zuverlässigkeit
Skalierbarkeit
Unterstützen Sie eine komfortable Verwaltung
Unterstützen Sie die Benutzeranpassung
Sqoop
Funke
Eine kurze Geschichte mit Hadoop
Hauptmerkmal
hohe Geschwindigkeit
Vielseitigkeit
Benutzerfreundlichkeit
Technischer Aufbau
Resourcenmanagement
Spark-Kernschicht
Serviceschicht
Grundlegender Prozess
Clustermanagement
Schlüsseltechnologie
RDD
eine Reihe von Partitionen
Eine Funktion, die jede Partition berechnet
verlassen
Bevorzugter Standort
Partitionierer
Transformation
Aktion
Planer
DAGScheduler ist für die Erstellung von Ausführungsplänen verantwortlich
TaskScheduler ist für die Zuweisung von Aufgaben und die Planung der Ausführung von Workern verantwortlich
Mischen
SparkR
Datentypzuordnung
Neudefinition des Sitzungsprozesses
Bietet mehrere APIs
Unterstützt benutzerdefinierte verteilte Lauffunktionen
Unterstützt eine Vielzahl von R-Code-Bearbeitungs- und Ausführungsumgebungen
Lambda-Architektur
NoSQL und NewSQL
Vor- und Nachteile relationaler Datenbanken
Hohe Datenkonsistenz
Geringe Datenredundanz
Starke komplexe Abfragefähigkeiten und hohe Produktreife
NoSQL-Technologie
Einfache dezentrale Speicherung und Verarbeitung von Daten
Die Kosten für häufige Datenoperationen sind gering und die einfache Verarbeitung von Daten ist äußerst effizient.
Geeignet für Anwendungsszenarien, in denen sich Datenmodelle ständig ändern
Beziehungswolke
Datenmodell
Datenverteilung
Zersplitterung
Großer Tisch
Master-Slave-Replikation
Peer-to-Peer-Replikation
Datenkonsistenz
schwache Konsistenz
letztendliche Konsistenz
Konsistenz aktualisieren
Lese- und Schreibkonsistenz
Sitzungskonsistenz
CAP-Theorie und BASE-Prinzipien
Anwendung
Ein verteiltes System kann die Anforderungen an Konsistenz, Verfügbarkeit und Partitionsfehlertoleranz nicht gleichzeitig erfüllen. Es kann höchstens zwei dieser Merkmale gleichzeitig erfüllen.
BASE-Prinzip
Bei praktischen Anwendungen von NoSQL müssen Konsistenz und Verfügbarkeit abgewogen werden
Ansichten und materialisierte Ansichten
materialisierte Sicht
Ereignis ausgelöst
Zeit ausgelöst
Materialisierte Ansicht in der Kartenphase
Materialisierte Ansicht der Reduzierphase
Transaktions- und Versionsstempel
Zustandsaktualisierung
Versionsstempel
Typische Produkte
R und Python
Die R-Sprache unterstützt vektorisierte Berechnungen
Rufen Sie professionelle Dienste für datenwissenschaftliche Aufgaben über das R-Sprach-R-Paket an
Die Entwickler der Mainstream-R-Pakete sind allesamt Experten für Statistik, maschinelles Lernen und andere Datenbereiche.
Integration von Data Lake und Lake Warehouse
Data Lake ist ein Ansatz, bei dem die Speicherung von Daten in einem natürlichen Format im Vordergrund steht und die Konfiguration von Daten in verschiedenen Schemata und Strukturen unterstützt wird.
Datenbank
Datensee
Data Lake Warehouse
Entwicklungstrend
Entwicklungstrends der Datenverarbeitungsschicht
Verkauf von Software, Hardwareprodukten oder Informationsressourcen an Benutzer
Verantwortlich für die Verwaltung und Wartung ihrer Software- und Hardwareausrüstung oder Informationsressourcen im Namen der Benutzer
Entwicklungstrends im Datenmanagement
Vom Datenmanagement-Perfektionisten zum Realisten
Von „Schema First“ zu „Schema First“, „Schema Later“ und „Schemaless“ existieren nebeneinander.
Von einem Fokus auf komplexe Verarbeitung hin zu einem Schwerpunkt auf einfacher Verarbeitung
Vom Streben nach starker Konsistenz bis hin zu einem vielfältigen Verständnis der Datenkonsistenz
Von der Betonung der negativen Auswirkungen der Datenredundanz bis hin zur Betonung der positiven Auswirkungen der Datenredundanz
Vom Streben nach Rückrufrate und Präzisionsrate bis hin zur Betonung der Antwortgeschwindigkeit auf Abfragen
Der Übergang von Datenbankmanagementsystemen als Produkt zu Datenbankmanagementsystemen als Dienstleistung
Von der Standardisierung der Datenverwaltungstechnologie bis zur Diversifizierung der Datenverwaltungstechnologie
Von der ausschließlichen Verwendung einer einzigen Technologie bis hin zur Integration mehrerer Technologien
Data Science-Plattform
Was ist Cloud Computing?
Wirtschaft
Starke Berechnung
On-Demand-Dienste
Virtualisierung