Galería de mapas mentales Teoría y práctica de la ciencia de datos Capítulo 4
La ciencia de datos y la estructura de big data, la ciencia de datos y la cadena industrial de big data brindan soporte técnico para el análisis de big data, incluida la plataforma de análisis de datos, la plataforma de ciencia de datos, el análisis social, el aprendizaje automático, etc., que representan las instituciones que generan datos, incluidos; Incubadoras, escuelas e instituciones de investigación.
Editado a las 2023-10-21 15:49:41,El cáncer de pulmón es un tumor maligno que se origina en la mucosa bronquial o las glándulas de los pulmones. Es uno de los tumores malignos con mayor morbilidad y mortalidad y mayor amenaza para la salud y la vida humana.
La diabetes es una enfermedad crónica con hiperglucemia como signo principal. Es causada principalmente por una disminución en la secreción de insulina causada por una disfunción de las células de los islotes pancreáticos, o porque el cuerpo es insensible a la acción de la insulina (es decir, resistencia a la insulina), o ambas cosas. la glucosa en la sangre es ineficaz para ser utilizada y almacenada.
El sistema digestivo es uno de los nueve sistemas principales del cuerpo humano y es el principal responsable de la ingesta, digestión, absorción y excreción de los alimentos. Consta de dos partes principales: el tracto digestivo y las glándulas digestivas.
El cáncer de pulmón es un tumor maligno que se origina en la mucosa bronquial o las glándulas de los pulmones. Es uno de los tumores malignos con mayor morbilidad y mortalidad y mayor amenaza para la salud y la vida humana.
La diabetes es una enfermedad crónica con hiperglucemia como signo principal. Es causada principalmente por una disminución en la secreción de insulina causada por una disfunción de las células de los islotes pancreáticos, o porque el cuerpo es insensible a la acción de la insulina (es decir, resistencia a la insulina), o ambas cosas. la glucosa en la sangre es ineficaz para ser utilizada y almacenada.
El sistema digestivo es uno de los nueve sistemas principales del cuerpo humano y es el principal responsable de la ingesta, digestión, absorción y excreción de los alimentos. Consta de dos partes principales: el tracto digestivo y las glándulas digestivas.
Tecnología y herramientas
Sistema de tecnología de ciencia de datos.
infraestructura
Proporcionar cálculo de datos, gestión y seguimiento de datos, etc.
herramienta de análisis
La cadena de la industria de ciencia de datos y big data brinda soporte técnico para el análisis de big data, incluida la plataforma de análisis de datos, la plataforma de ciencia de datos, el análisis social, el aprendizaje automático, etc.
Aplicaciones empresariales
Las organizaciones proporcionan tecnologías o herramientas de aplicaciones a nivel empresarial, incluidas ventas y marketing, servicio al cliente, capital humano y otros servicios específicos.
Aplicación industrial
Resolver problemas comunes de la industria y proporcionar una plataforma tecnológica para aplicaciones empresariales.
Herramientas de análisis e infraestructura multiplataforma
Proporcionar infraestructura multiplataforma y herramientas de análisis multiplataforma, como Microsoft, etc.
Herramientas de código abierto
Marco de diseño técnico, consulta de flujo de datos, coordinación de acceso a datos, procesamiento de flujo, herramientas estadísticas, inteligencia artificial, aprendizaje automático, aprendizaje profundo, análisis de registros de búsqueda, visualización, colaboración y seguridad.
Fuente de datos y aplicación.
Salud Internet de las Cosas Finanzas y Economía, etc.
Recursos de datos
Los recursos de datos representan las instituciones que generan los datos, incluidas incubadoras, escuelas e instituciones de investigación.
Mapa reducido
Un modelo de computación distribuida
función de mapa
La función de mapa definida por el usuario recibe los pares clave-valor en los datos de entrada y, después del cálculo mediante la función de mapa, se obtiene un conjunto de pares clave-valor intermedios.
reducir la función
La función de reducción definida por el usuario recibe un valor clave intermedio y un conjunto relacionado de valores.
Los tres artículos principales de Google
Proceso de implementación
Principales características
Ejecutar como una estructura maestro-esclavo
Procesamiento de datos entre la función de mapa y la función de reducción.
Procesamiento aleatorio
procesamiento combinador
función de partición
Entrada y salida de tipo de valor clave
La complejidad de los mecanismos de tolerancia a fallos.
fracaso del trabajador
fracaso maestro
Diversidad de ubicaciones de almacenamiento de datos.
Archivo fuente:GFS
Resultados del procesamiento de mapas: almacenamiento local
Reutilizar resultados del procesamiento: GFS
Registro: GFS
La importancia de la granularidad de las tareas
La necesidad de un mecanismo de copia de seguridad de tareas.
Tecnología clave
función de partición
función combinadora
Saltar registros corruptos
ejecución local
información de estado
encimera
Implementación y mejora de MapReduce
MRv1
modelo de programación
motor de procesamiento de datos
entorno de ejecución
Mala expansión
Poca confiabilidad
Baja utilización de recursos
No se pueden admitir múltiples marcos informáticos
Hadoop
Apache proporciona un conjunto completo de bibliotecas de sistema de código abierto para una computación distribuida y escalable confiable.
Mapa de HadoopReducir
Operación
Presentación de tareas
Inicialización del trabajo
Actualizaciones de procesos y estados
finalización de la tarea
Tarea
asignación de tareas
ejecución de tareas
jobTracker y TaskTracker
segmento de entrada
Optimización de la localización de datos
El cliente envía la tarea MapReduce
JobTracker coordina la ejecución de trabajos
TaskTracker ejecuta las tareas divididas
HDFS se utiliza para compartir archivos de trabajo entre otras entidades
HDFS
Admite archivos muy grandes
Basado en hardware comercial
Acceso a datos en streaming
Alto rendimiento
Colmena
Puede asignar archivos de datos estructurados a una tabla de base de datos, proporcionar funciones de consulta HiveQL simples y convertir declaraciones HiveQL en tareas MapReduce para su ejecución.
Cerdo
Lengua latina porcina, un lenguaje de descripción para el análisis de datos
Fácil de programar
Fácil de optimizar
flexibilidad
Entorno de ejecución de cerdo
Cuidador de elefantes
Proporcionar algoritmos escalables de aprendizaje automático y su implementación.
HBase
Base de datos de esquema dinámico escalable, altamente confiable, de alto rendimiento, distribuida y orientada a columnas para datos estructurados
Modelo lógico HBase
Modelo físico HBase
guardián del zoológico
sencillez
autorreplicación
acceso secuencial
lectura de alta velocidad
Flume
Alta fiabilidad
Escalabilidad
Apoyar una gestión conveniente
Admite personalización del usuario
sqoop
Chispa - chispear
Una breve historia con Hadoop
caracteristica principal
alta velocidad
Versatilidad
Facilidad de uso
Estructura técnica
Administracion de recursos
Capa central de chispa
capa de servicio
Proceso básico
Gestión de clústeres
Tecnología clave
RDD
un conjunto de particiones
Una función que calcula cada partición.
confiar
Ubicación preferida
particionador
Transformación
Acción
Programador
DAGScheduler es responsable de crear planes de ejecución.
TaskScheduler es responsable de asignar tareas y programar la ejecución de los trabajadores.
Barajar
chispaR
Mapeo de tipos de datos
Redefinición del proceso de sesión.
Proporcionar múltiples API
Admite funciones de ejecución distribuidas personalizadas
Admite una variedad de entornos de ejecución y edición de código R
arquitectura lambda
NoSQL y NewSQL
Ventajas y desventajas de las bases de datos relacionales
Alta consistencia de datos
Baja redundancia de datos
Fuertes capacidades de consultas complejas y alta madurez del producto.
tecnología no SQL
Almacenamiento y procesamiento de datos fáciles de descentralizar
El costo de las operaciones frecuentes de datos es bajo y el procesamiento simple de datos es altamente eficiente.
Adecuado para escenarios de aplicaciones donde los modelos de datos cambian constantemente
nube de relaciones
modelo de datos
Distribución de datos
Fragmentación
Mesa grande
replicación maestro-esclavo
Replicación de igual a igual
consistencia de los datos
consistencia débil
consistencia eventual
actualizar la consistencia
Coherencia de lectura y escritura
consistencia de la sesión
Teoría CAP y principios BASE
solicitud
Un sistema distribuido no puede cumplir los requisitos de coherencia, disponibilidad y tolerancia de partición al mismo tiempo. Sólo puede cumplir como máximo dos de estas características al mismo tiempo.
principio BÁSICO
En aplicaciones prácticas de NoSQL, es necesario sopesar la coherencia y la disponibilidad.
Vistas y vistas materializadas
vista materializada
evento activado
tiempo activado
Vista materializada en etapa de Mapa
Vista materializada de la fase Reducir
Sello de transacción y versión
actualización de condición
sello de versión
Productos típicos
R y Python
El lenguaje R admite cálculos vectorizados
Llame a servicios de nivel profesional para tareas de ciencia de datos a través del paquete R en lenguaje R
Los desarrolladores de los principales paquetes de R son todos expertos en estadística, aprendizaje automático y otros campos de datos.
Integración de lago de datos y almacén de lago.
El lago de datos es un enfoque que enfatiza el almacenamiento de datos en un formato natural y admite la configuración de datos en varios esquemas y estructuras.
base de datos
lago de datos
Almacén de lago de datos
tendencia de desarrollo
Tendencias de desarrollo de la capa informática de datos.
Vender software, productos de hardware o recursos de información a los usuarios.
Responsable de administrar y mantener sus equipos de software y hardware o recursos de información en nombre de los usuarios.
Tendencias de desarrollo en la gestión de datos.
De perfeccionista en la gestión de datos a realista
De Schema First a Schema First, coexisten Schema Later y Schemaless.
De un enfoque en el procesamiento complejo a un énfasis en el procesamiento simple
De la búsqueda de una sólida coherencia a la comprensión diversificada de la coherencia de los datos
De enfatizar los efectos negativos de la redundancia de datos a enfatizar los efectos positivos de la redundancia de datos
Desde la búsqueda de la tasa de recuperación y la tasa de precisión hasta el énfasis en la velocidad de respuesta a las consultas
La transición de los sistemas de gestión de bases de datos como producto a los sistemas de gestión de bases de datos como servicio
De la estandarización de la tecnología de gestión de datos a la diversificación de la tecnología de gestión de datos
De depender únicamente de una única tecnología a integrar múltiples tecnologías
Plataforma de ciencia de datos
¿Qué es la computación en la nube?
Economía
Computación fuerte
servicios bajo demanda
Virtualización