Galería de mapas mentales Árbol de conocimiento de big data
Marco, conceptos y contenido de Big Data, utilizados para clasificar la estructura del conocimiento, incluida la plataforma Hadoop, la estructura del almacén de datos, la colmena, etc.
Editado a las 2024-04-18 16:59:36,Este es un mapa mental sobre una breve historia del tiempo. "Una breve historia del tiempo" es una obra de divulgación científica con una influencia de gran alcance. No sólo presenta los conceptos básicos de cosmología y relatividad, sino que también analiza los agujeros negros y la expansión. del universo. temas científicos de vanguardia como la inflación y la teoría de cuerdas.
¿Cuáles son los métodos de fijación de precios para los subcontratos de proyectos bajo el modelo de contratación general EPC? EPC (Ingeniería, Adquisiciones, Construcción) significa que el contratista general es responsable de todo el proceso de diseño, adquisición, construcción e instalación del proyecto, y es responsable de los servicios de operación de prueba.
Los puntos de conocimiento que los ingenieros de Java deben dominar en cada etapa se presentan en detalle y el conocimiento es completo, espero que pueda ser útil para todos.
Este es un mapa mental sobre una breve historia del tiempo. "Una breve historia del tiempo" es una obra de divulgación científica con una influencia de gran alcance. No sólo presenta los conceptos básicos de cosmología y relatividad, sino que también analiza los agujeros negros y la expansión. del universo. temas científicos de vanguardia como la inflación y la teoría de cuerdas.
¿Cuáles son los métodos de fijación de precios para los subcontratos de proyectos bajo el modelo de contratación general EPC? EPC (Ingeniería, Adquisiciones, Construcción) significa que el contratista general es responsable de todo el proceso de diseño, adquisición, construcción e instalación del proyecto, y es responsable de los servicios de operación de prueba.
Los puntos de conocimiento que los ingenieros de Java deben dominar en cada etapa se presentan en detalle y el conocimiento es completo, espero que pueda ser útil para todos.
Árbol de conocimiento de big data
Fuentes de datos
Descripción general
interno
enterrar el punto
Descripción general
Comparado
proceso
Dimensiones
documento
Caso
externo
competidores
reptil
Oficina Nacional de Estadísticas
Proporcionado por comerciantes amigables.
Almacén de datos DW
Introducción
Almacén de datos (Data Warehouse), denominado DW. Como sugiere el nombre, un almacén de datos es una gran colección de almacenamiento de datos que se crea con el propósito de generar informes analíticos empresariales y respaldar las decisiones para filtrar e integrar diversos datos comerciales. Proporciona a las empresas ciertas capacidades de BI (Business Intelligence) y guía la mejora de los procesos de negocio.
efecto
almacenamiento
extracto
Aplicaciones interdepartamentales
característica
Orientado a temas
integrado
Estable y no fácil de perder
reflejar cambios históricos
Ilustración
Comparar bases de datos
base de datos
OLTP
Procesamiento de transacciones en línea
procesamiento de transacciones en línea
base de datos
OLAP
Procesamiento de transacciones en línea
Procesamiento analítico en línea
Tabla de comparación
Arquitectura
Objetivos de diseño
arquitectura en capas
Gestión de metadatos
dato de governancia
datos sucios
principios de gobernanza
plataforma hadoop
Introducción
Plataforma informática y de almacenamiento distribuido para big data
ventaja
Alta fiabilidad
La capacidad de Hadoop para almacenar y procesar datos bit a bit es digna de confianza
Alta escalabilidad
Hadoop distribuye datos y completa tareas informáticas entre los grupos de computadoras disponibles. Estos grupos se pueden expandir fácilmente a miles de nodos.
Alta eficiencia
Hadoop puede mover datos dinámicamente entre nodos y mantener un equilibrio dinámico de cada nodo, por lo que la velocidad de procesamiento es muy rápida.
Alta tolerancia a fallos
Hadoop puede guardar automáticamente múltiples copias de datos y redistribuir automáticamente las tareas fallidas.
bajo costo
Hadoop es de código abierto, por lo que el coste del software del proyecto se puede reducir considerablemente.
Ecosfera
Descripción general
Clasificación
HDFS
nombre completo
Sistema de archivos distribuido Hadoop
principio
Divida el archivo en bloques de datos de tamaño fijo. El tamaño fijo predeterminado es 128 MB.
Almacenamiento distribuido
Interfaz de acceso unificado
NombreNodo
ventaja
Almacenamiento distribuido
Admite computación distribuida y paralela
Escalabilidad horizontal
componentes básicos
Cliente HDFS
Proporciona comandos para administrar HDFS
NombreNodo
Gestionar metadatos de todo el sistema de archivos, responsabilidades laborales: gestionar metadatos, mantener la estructura del directorio, responder a las solicitudes de los clientes.
Nodo de datos
Copie y administre bloques de datos de archivos del usuario, responsabilidades laborales: administre datos enviados por el usuario, mecanismo de latido, informe de bloqueo
Nodo de nombre secundario
El asistente de NameNode ayuda a cargar metadatos y puede ayudar a restaurar datos en situaciones de emergencia (como el tiempo de inactividad de NameNode)
Cuatro mecanismos principales
mecanismo de latido del corazón
Estructura maestro/esclavo
Maestro
NombreNodo
Esclavo
Nodo de datos
El intervalo de tiempo predeterminado para que DataNode envíe solicitudes a NameNode es de 3 segundos
Si el NameNoder no recibe el latido del DataNode durante un tiempo prolongado, también enviará solicitudes al DataNode cada 5 minutos, dos veces en total.
modo seguro
Cuando el clúster HDFS se inicia en frío normalmente, NameNode permanecerá en el estado de modo seguro durante un largo período de tiempo. Simplemente espere a que salga automáticamente del modo seguro.
Copiar estrategia de almacenamiento
Los datos de cada archivo se almacenan en bloques. Cada bloque de datos se guarda con múltiples copias. Estas copias de bloques de datos se distribuyen en diferentes nodos de la máquina.
balanceo de carga
La diferencia entre el valor de mayor capacidad de la máquina y el valor de menor capacidad no puede exceder el 10%.
Ilustración
Mapa reducido
efecto
Computación distribuída
Estrategia
divide y conquistaras
idea
El cálculo se acerca más a los datos en lugar de que los datos se acerquen al cálculo
principio
Mapa
Dividir una tarea en varias tareas
Reducir
Resumir los resultados de la multitarea descompuesta para obtener los resultados del análisis final.
Ilustración
Estratificación del almacén de datos
beneficio
estructura clara
Cada capa de datos tiene su alcance y responsabilidades, lo que facilita su localización y comprensión al utilizar tablas.
Reducir el desarrollo
Estandarice la estratificación de datos y desarrolle algunos datos comunes de nivel medio, que pueden reducir enormes cálculos repetidos.
Una voz
A través de capas de datos, se proporciona una exportación de datos unificada y el calibre de los datos se unifica para la salida externa.
Simplifica el problema
Divida una tarea compleja en varios pasos para completarla, y cada capa resuelva un problema específico
estructura
Caso
Almacén de datos del sitio web de comercio electrónico
colmena
origen
Hive es una herramienta de almacenamiento de datos basada en Hadoop desarrollada por Facebook para resolver el análisis estadístico de datos de registro masivos (posteriormente de código abierto para Apache Software Foundation)
Función
Puede asignar archivos de datos estructurados a una tabla de base de datos y proporcionar funciones de consulta similares a SQL.
Características
Hive en sí no admite el almacenamiento ni el procesamiento de datos, es solo una interfaz de programación orientada al usuario.
Hive se basa en el sistema de archivos distribuido HDFS para almacenar datos
Hive se basa en el modelo de computación paralela distribuida MapReduce para procesar datos
Diseñé un nuevo lenguaje de consulta HiveQL basado en lenguaje SQL.
Principio de consulta