Galería de mapas mentales Mapa mental de tecnología de análisis y minería de datos
Un proceso informático que utiliza métodos como la inteligencia artificial, el aprendizaje automático y las estadísticas para extraer patrones o conocimientos útiles y previamente desconocidos a partir de cantidades masivas de datos.
Editado a las 2021-12-27 22:46:49,Este es un mapa mental sobre una breve historia del tiempo. "Una breve historia del tiempo" es una obra de divulgación científica con una influencia de gran alcance. No sólo presenta los conceptos básicos de cosmología y relatividad, sino que también analiza los agujeros negros y la expansión. del universo. temas científicos de vanguardia como la inflación y la teoría de cuerdas.
¿Cuáles son los métodos de fijación de precios para los subcontratos de proyectos bajo el modelo de contratación general EPC? EPC (Ingeniería, Adquisiciones, Construcción) significa que el contratista general es responsable de todo el proceso de diseño, adquisición, construcción e instalación del proyecto, y es responsable de los servicios de operación de prueba.
Los puntos de conocimiento que los ingenieros de Java deben dominar en cada etapa se presentan en detalle y el conocimiento es completo, espero que pueda ser útil para todos.
Este es un mapa mental sobre una breve historia del tiempo. "Una breve historia del tiempo" es una obra de divulgación científica con una influencia de gran alcance. No sólo presenta los conceptos básicos de cosmología y relatividad, sino que también analiza los agujeros negros y la expansión. del universo. temas científicos de vanguardia como la inflación y la teoría de cuerdas.
¿Cuáles son los métodos de fijación de precios para los subcontratos de proyectos bajo el modelo de contratación general EPC? EPC (Ingeniería, Adquisiciones, Construcción) significa que el contratista general es responsable de todo el proceso de diseño, adquisición, construcción e instalación del proyecto, y es responsable de los servicios de operación de prueba.
Los puntos de conocimiento que los ingenieros de Java deben dominar en cada etapa se presentan en detalle y el conocimiento es completo, espero que pueda ser útil para todos.
Tecnología de análisis y minería de datos.
Capítulo 1 Descripción general de la minería de datos
entender antes de clase
resumen
aprendizaje automático
Procedimientos de operación
importación de datos
Preprocesamiento de datos
ingeniería de características
Dividir
Modelo de entrenamiento
Modelo de evaluación
Predecir nuevos datos
AI
Características de los grandes datos
Mucho
Diverso
alta velocidad
valor
1.1 Introducción a la minería de datos
definición
Un proceso informático que utiliza métodos como la inteligencia artificial, el aprendizaje automático y las estadísticas para extraer patrones o conocimientos útiles y previamente desconocidos a partir de cantidades masivas de datos.
fondo
La cantidad de datos se ha expandido dramáticamente, dando lugar a nuevas direcciones de investigación: descubrimiento de conocimiento basado en bases de datos e investigación sobre las correspondientes teorías y tecnologías de minería de datos.
El próximo punto de acceso tecnológico después de Internet
Si bien una gran cantidad de información brinda comodidad a las personas, también genera muchos problemas.
Demasiada información y difícil de digerir.
Es difícil distinguir la autenticidad de la información.
La seguridad de la información es difícil de garantizar
La información se presenta en diferentes formas y es difícil de procesar de manera uniforme.
Datos explosivos pero conocimiento escaso
La evolución de los datos empresariales a la información empresarial
Recopilación de datos → acceso a datos → almacén de datos, apoyo a la toma de decisiones → minería de datos (proporcionando información predictiva)
escenario
Preprocesamiento de datos
Limpiar, integrar, seleccionar, transformar
procesamiento de datos
evaluación del modelo
proceso
datos, información, conocimiento
datos
"8000m", "10000m"
Producido a partir de la observación y medición de cosas objetivas, a las cosas objetivas bajo estudio las llamamos entidades.
información
"8000 m es la altitud máxima para el vuelo de un avión", "10000 m de alta montaña"
Conocimiento
"Los aviones no pueden escalar esta montaña"
sabiduría
contenido principal
Minería de reglas de asociación
cerveza y pañales
aprendizaje automático supervisado
Predicción de etiquetas discretas: clasificación de etiquetas
Predicción de etiquetas continua: predicción numérica
Aprendizaje automático no supervisado: agrupación (algoritmo de similitud)
devolver
Establecer relaciones cuantitativas entre múltiples variables.
Clasificación de algoritmos.
aprendizaje supervisado
Aprenda una función (modelo) a partir de los datos de entrenamiento proporcionados. Cuando llegan nuevos datos, el resultado se puede predecir en función de esta función (modelo).
Los datos de entrenamiento tienen una identificación o resultados claros.
Algoritmo de regresión, red neuronal, máquina de vectores de soporte SVM
Algoritmo de regresión
regresión lineal
Resuelva problemas numéricos y el resultado final de la predicción es un número, como por ejemplo: precio de la vivienda
Regresión logística
Pertenece a un algoritmo de clasificación, como por ejemplo: determinar si un correo electrónico es spam
Redes neuronales
Aplicado al reconocimiento visual y al reconocimiento de voz.
Algoritmo de máquina vectorial de soporte SVM
Mejora del algoritmo de regresión logística.
aprendizaje sin supervisión
Los datos de entrenamiento no están etiquetados específicamente
Algoritmo de agrupamiento, algoritmo de reducción de dimensionalidad
Algoritmo de agrupación
Calcule la distancia en la población y divida los datos en varias poblaciones según la distancia
Algoritmo de reducción de dimensionalidad
Reduzca los datos de alta dimensionalidad a baja dimensionalidad. La dimensión representa el tamaño de la cantidad de características de los datos. Por ejemplo: el precio de la casa contiene las cuatro características de largo, ancho, área y número de habitaciones de la casa. , la dimensión son datos de 4 dimensiones y los datos de largo y ancho La información anterior se superpone con la información representada por área = largo × ancho. La información redundante se elimina mediante la reducción de dimensionalidad.
Comprima datos y mejore la eficiencia del aprendizaje automático
Aplicaciones de datos empresariales
aprendizaje semi-supervisado
Cómo utilizar una pequeña cantidad de muestras etiquetadas y una gran cantidad de muestras sin etiquetar para problemas de entrenamiento y clasificación
Identificación de imagen
aprendizaje reforzado
Los sujetos que aprenden emiten juicios basados en la retroalimentación de su entorno observado.
control de robots
1.2 Procesos y métodos básicos de minería de datos.
método básico
Minería predictiva
Extrapolar datos actuales para hacer predicciones.
minería descriptiva
Caracterizar las características generales de los datos de la base de datos (correlación, tendencia, agrupamiento, anomalía...)
Diagrama de flujo de minería de datos
Principales métodos de minería de datos en Sexto de Secundaria (P6)
Resumen resumido del conjunto de datos.
Reglas de asociación de datos
Una forma de describir conexiones potenciales entre datos, generalmente representada por la implicación A-B.
Clasificación y predicción
agrupamiento
Detección heterogénea
modelo de serie de tiempo
1.3 Aplicación de la minería de datos
negocio
Atención sanitaria y medicina
banca y seguros
medios de comunicación social
herramienta
Weka, matlab, Java
Informacion relevante
subtema
Capítulo 2 Descripción y visualización de datos
2.1 Descripción general
Analizar atributos y valores de datos → descripción y visualización de datos
2.2 Objetos de datos y tipos de atributos
conjunto de datos
Compuesto por objetos de datos.
Base de datos de ventas: clientes, artículos de la tienda, ventas. Base de datos médica: paciente, información de tratamiento. Base de datos universitaria: estudiante, profesor, información del curso.
objeto de datos
Un objeto de datos representa una entidad.
Conocido como: muestra, ejemplo, instancia, punto de datos, objeto, tupla
Atributos
una característica de un objeto de datos
el término
Base de datos: Dimensión
Aprendizaje automático: características
Estadísticas: variables
Minería de datos, Bases de datos: Propiedades
Clasificación
Propiedades nominales
Los valores de atributos nominales son algunos símbolos o nombres de cosas que representan categorías y nombres.
Atributo nominal: color de pelo, valores posibles: negro, blanco, castaño Atributo nominal: Estado civil, valores posibles: casado, soltero, divorciado, viudo
Atributos binarios (atributos nominales especiales)
Sólo hay dos categorías y estatus.
binario simétrico
La diferencia en el tamaño de los datos es pequeña. Ejemplo: Género: masculino, femenino
binario asimétrico
El tamaño de los datos varía mucho Ejemplo: prueba médica – negativa, positiva
propiedades ordinales
Existe un orden, pero se desconoce la diferencia entre ellos. Generalmente se usa para calificar.
Título docente, rango militar, satisfacción del cliente.
Propiedades numéricas
propiedades de escala de intervalo
Medido secuencialmente en unidad de longitud
Propiedades de escala de relación
Tiene un punto cero fijo, está ordenado y puede calcular múltiplos
Atributos discretos y continuos
2.3 Descripción estadística básica de los datos
medida de tendencia central
media, mediana, moda
Difusión de datos métricos
Rango, cuartil, rango de cuartiles
Resumen de cinco números, diagramas de caja y valores atípicos
Varianza, desviación estándar
Representación gráfica de estadísticas básicas de datos.
Gráfico cuantil
Cuantil - Gráfico cuantil
histograma
Altura - cantidad, frecuencia
Gráfico de dispersión
Descubra correlaciones entre atributos
2.4 Visualización de datos
definición
Expresar datos de manera efectiva a través de gráficos
Tres métodos de visualización
Diagrama de caja (diagrama de caja)
Analizar las diferencias de dispersión de datos de múltiples atributos.
Puede mostrar la distribución de datos y mostrar valores atípicos (deben eliminarse)
histograma
Analizar la distribución de cambios de un solo atributo en varios intervalos.
Gráfico de dispersión
Mostrar la distribución de correlación entre dos conjuntos de datos.
2.4.1 Visualización basada en píxeles
Una forma sencilla de visualizar valores unidimensionales es utilizar píxeles, cuyo color refleja el valor de esa dimensión.
Adecuado para valores unidimensionales, no adecuado para distribución de datos espaciales multidimensionales
2.4.2 Visualización de proyección geométrica
Ayude a los usuarios a descubrir proyecciones de datos multidimensionales. El principal desafío de la tecnología de proyección geométrica es descubrir cómo visualizar el espacio de alta dimensión en dos dimensiones.
Para puntos de datos bidimensionales, generalmente se usa un diagrama de dispersión del sistema de coordenadas cartesianas. Se pueden usar diferentes colores o formas en el diagrama de dispersión como tercera dimensión de los datos.
(Se utiliza para conjuntos de datos tridimensionales) Gráficos de dispersión, matrices de gráficos de dispersión y visualización de coordenadas paralelas (cuando el número de dimensiones es grande)
2.4.3 Visualización basada en iconos
Representar valores de datos multidimensionales con una pequeña cantidad de íconos.
Dos métodos de iconos de uso común
cara de chernov (permite visualización hasta 36 dimensiones)
Revelar tendencias en los datos
Elementos como los ojos, la boca y la nariz de la cara utilizan diferentes formas, tamaños, posiciones y direcciones para representar valores de dimensión.
Cada rostro representa un punto de datos de n dimensiones (n≤18), y el significado de varios rasgos faciales se comprende identificando pequeñas diferencias en los rostros.
dibujo lineal de personaje
2.4.4 Visualización jerárquica
Divida todas las dimensiones en subconjuntos (es decir, subespacios) y visualice estos subespacios jerárquicamente
Dos métodos de visualización jerárquica comúnmente utilizados
Jerarquía de subconjuntos del eje X y del eje Y
tabla de numeros
2.4.5 Visualización de objetos y relaciones complejos
Nube de etiquetas
2.5 Medición de similitud y disimilitud de datos
concepto
Semejanza
Mide qué tan similares son dos objetos de datos. Cuanto mayor es el valor, más similares son. El rango de valores habitual es [0,1].
Disimilitud
Mide el grado de diferencia entre dos objetos de datos. Cuanto menor es el valor, más similares son los datos. La disimilitud mínima suele ser 0.
Proximidad
Se refiere a similitud o diferencia.
Proporciona dos estructuras de datos.
Matriz de datos (Objeto - Matriz de atributos)
Almacene n objetos de datos, cada n objetos de datos tiene n filas y p características de atributos tienen p columnas)
Matriz de disimilitud (Objeto - Matriz de objeto)
Valor de disimilitud utilizado para almacenar objetos de datos.
Generalmente una matriz triangular.
Medida de proximidad para atributos nominales.
Medida de proximidad para atributos binarios.
Disimilitud en atributos numéricos
Varios métodos comunes para calcular medidas de distancia para la disimilitud de objetos de atributos numéricos
distancia euclidiana
distancia de manhattan
Ou y Man satisfacen simultáneamente las siguientes propiedades
distancia de Minkowski
Promoción de Ouyuman
distancia suprema
da el valor máximo de la diferencia entre objetos
Medidas de proximidad para atributos ordinales
Disimilitud de atributos mixtos
Cada tipo de atributo se divide en un grupo y se realiza un análisis de extracción de datos (como un análisis de conglomerados) en cada tipo. Si estos análisis obtienen los mismos resultados, el método funciona, pero en aplicaciones prácticas es difícil obtener los mismos resultados para cada clasificación de tipo de atributo.
Un mejor enfoque: simplemente haga un análisis único, combine los diferentes atributos en una única matriz de disimilitud y transforme los atributos en un intervalo común [0.0,0.1]
ejemplo
subtema
Similitud del coseno (solo entiéndelo)
Recuperación de texto, minería de información biológica.
Vector de documento, vector de frecuencia de palabra
Los vectores de frecuencia suelen ser largos y escasos (tienen muchos valores 0)
Capítulo 7 Máquina de vectores de soporte
Clasificación de máquinas de vectores de soporte.
Problema de clasificación binaria lineal
Encuentra el hiperplano óptimo
Capítulo 6 Clasificación y Predicción
6.1 Clasificación de datos
variable continua
altura peso
Variables categóricas
Variable categórica desordenada
Clasificación ordenada
Métodos generales para la clasificación de datos.
Clasificación, ordenamiento, distancia, relación.
6.2 Modelo de árbol de decisión
Generar árbol de decisión
Podar el árbol de decisiones
6.2.1 Cómo funcionan los árboles de decisión
6.3 Modelo de clasificación bayesiano
hipótesis máxima a posteriori
El alumno selecciona la hipótesis más probable h del conjunto de hipótesis candidatas H cuando se le dan los datos D. h se denomina hipótesis posterior máxima.
Necesidad de solicitar probabilidad conjunta.
Generalmente se supone que cada atributo está distribuido de forma independiente e idéntica.
Antes de esto, se deben realizar cálculos de correlación y fusiones para minimizar la correlación entre atributos.
Características
Los atributos pueden ser discretos o continuos.
Base matemática sólida y eficiencia de clasificación estable
No es sensible a datos faltantes, datos ruidosos y valores atípicos
Si los atributos no son relevantes, el efecto de clasificación es muy bueno.
6.4 Modelo discriminante lineal
6.5 Modelo de regresión logística
6.6 Evaluación y selección del modelo
Capítulo 5 Regla de Asociación Minería
5.1 Descripción general
concepto
La minería de reglas de asociación se utiliza para extraer la correlación entre conjuntos de elementos en la base de datos de transacciones y extraer todas las reglas de asociación que cumplan con los requisitos mínimos de soporte y confianza.
Las reglas de asociación se utilizan para encontrar dependencias potencialmente útiles entre elementos de datos en grandes cantidades de datos.
conjuntos de elementos frecuentes
Conjunto de elementos que satisfacen un apoyo mínimo y una credibilidad mínima.
Apoyo
Credibilidad
reglas fuertes
Reglas que cumplen o superan el apoyo y la confianza mínimos.
Principales pasos de la minería de datos.
En el conjunto de elementos de big data, encuentre el número de aparición ≥ conjunto de elementos frecuentes
A partir de los conjuntos de ítems frecuentes obtenidos anteriormente, establezca reglas de asociación que cumplan con las condiciones mínimas de apoyo y credibilidad.
5.2 Clasificación
5.3 Pasos de la investigación
5.4 Análisis de algoritmos a priori
5.6 Generalización de las Normas de Asociación (GRI)
primera búsqueda en profundidad
5.7 Exploración en profundidad de las reglas de asociación
Capítulo 4 Reducción de datos (Reducción de datos)
4.1 Descripción general del mantenimiento
Optimice los datos al máximo manteniendo la apariencia original de los datos.
4.2 Selección de atributos y reducción numérica.
Criterios de evaluación de atributos (P58)
medición de consistencia
El grado de coherencia entre dos atributos.
El grado de coherencia entre el nivel educativo y el nivel VIP.
medición de correlación
La correlación entre diferentes atributos se refiere a la relación entre ellos.
Correlación entre nivel educativo y nivel VIP
Cuanto mayor sea la correlación entre dos atributos, mayor será la precisión a la hora de inferir el valor de un atributo a partir del valor del otro atributo.
Medición de la capacidad de discriminación
La capacidad de un determinado atributo para distinguir registros en la base de datos.
medición de información
Cuanto mayor sea la cantidad de información que contenga un atributo, más importante será
La cantidad de información generalmente se mide mediante la "entropía de la información".
Método de selección de subconjunto de atributos
Seleccione avanzar paso a paso
Establecer la propiedad de destino establecida en vacía
Cada iteración selecciona el mejor atributo de los atributos restantes en el conjunto de datos original y lo agrega al conjunto de atributos de destino.
Eliminar el atributo del conjunto de datos original
Repita este proceso hasta que el objetivo establecido cumpla con los requisitos.
selección hacia atrás paso a paso
Primero asigne el conjunto de atributos original al conjunto de atributos no objetivo
En cada iteración, el atributo con la peor puntuación integral se elimina del conjunto de atributos objetivo.
Repita este proceso hasta que el conjunto de atributos de destino cumpla con los requisitos.
reducción numérica
Transformar propiedades en variables para reducir su rango dinámico
Transformación de función simple
Estandarización de datos
Discretizar atributos y codificarlos con números enteros
Discretización de igual ancho, discretización de igual profundidad
Binaryizar el atributo para que tenga solo dos valores.
Si el valor del atributo es una señal o imagen, también se puede realizar la codificación por compresión.
4.3 Regresión lineal
definición
Es el estudio de la relación entre una única variable dependiente y una o más variables independientes.
utilidad
La predicción se refiere al uso de variables observadas para predecir variables dependientes.
El análisis causal trata la variable independiente como la causa de la variable dependiente.
regresión lineal
Regresión múltiple
regresión no lineal
Datos del modelo que no tienen dependencias lineales.
Utilice el método de modelado de regresión polinómica y luego realice una transformación de variables para convertir el modelo no lineal en un modelo lineal y luego resuélvalo usando el método de mínimos cuadrados.
4.4 Análisis de componentes principales (Análisis de componentes principales PCA)
Métodos comúnmente utilizados para la reducción de dimensionalidad de datos de alta dimensión.
Haga una combinación lineal de variables originales y refleje toda o la mayor parte de la información de la cantidad original a través de algunas variables combinadas.
La variable combinada es el componente principal.
Capítulo 3 Recopilación y preprocesamiento de datos (limpieza, integración, reducción, transformación)
3.1 Descripción general
Características de la recopilación de big data
El primer paso en el ciclo de vida del big data
En comparación con los datos tradicionales, los big data son masivos, diversos y heterogéneos.
Desde la recopilación hasta el procesamiento, los big data deben sopesar la coherencia, la disponibilidad y la tolerancia a fallos de las particiones.
Métodos de recopilación de big data (comprender)
Colección de registros de sistemas distribuidos.
Recopilación de datos de red
Rastreador web, API pública de sitios web (interfaz de programación de aplicaciones)
Inspección profunda de paquetes DPI
Inspección de profundidad/flujo dinámico DFI
Recopilación de datos de interfaz de sistema específica
3.2 Finalidad y tareas del preprocesamiento de datos
Objetivo
Mejorar la calidad de los datos
misión principal
Limpieza de datos
Aclare el ruido en los datos y corrija las inconsistencias
integración de datos
Consolidar datos de múltiples fuentes de datos en un almacén de datos consistente, como un almacén de datos
Transformación de datos (como la normalización)
Comprimir datos en intervalos más pequeños
3.3 Limpieza de datos
La esencia es un proceso de modificación del modelo de datos.
Ruta de limpieza de datos (comprender)
1. Limpieza de valores faltantes
Eliminar valores faltantes
imputación media
método de llenado de tarjeta caliente
método de llenado de decisión de distancia más cercana
imputación de regresión
múltiples métodos de imputación
k—método del vecino más cercano
Enfoque basado en bayesiano
2. Limpieza de valores atípicos (valores atípicos, valores salvajes)
Definición e identificación de valores atípicos.
Manejo de valores atípicos
3. Limpieza de contenido de formato
4. Limpieza de errores lógicos
Eliminar duplicados
Eliminar valores irrazonables
5. Limpieza de datos no requerida
6.Verificación de relevancia
3.4 Integración de datos
concepto
Integración de datos en el sentido tradicional
Combine datos de múltiples almacenes de datos y guárdelos en un único almacén de datos, como un almacén de datos.
Integración de datos en un sentido general.
ETL: extraer, transformar y cargar (hasta el destino) Es una parte importante de la construcción de un almacén de datos.
El usuario extrae los datos requeridos de la fuente de datos, los limpia y finalmente los carga en el almacén de datos de acuerdo con el modelo de almacén de datos predefinido.
Importancia de los modelos
Estandarizar la definición de datos para lograr codificación, clasificación y organización unificadas.
La redundancia de datos ocurre a menudo al integrar múltiples bases de datos.
Detectar atributos redundantes
Análisis de correlación
variable discreta
prueba de chi-cuadrado
Cuanto mayor sea el valor, más relevante será
variable continua
Coeficiente de correlación
Igual a 1, -1, completamente relacionado linealmente
Mayor que 0, correlación positiva
Igual a 0, no hay correlación lineal
Menos de 0, correlación negativa
análisis de covarianza
Mayor que 0, correlación positiva
igual a 0, independencia
Algunos datos tienen covarianza 0, pero no son independientes
Menos de 0, correlación negativa
Estrategia de reducción de datos
Reducción de dimensionalidad
Escenarios que requieren reducción de dimensionalidad
Los datos son escasos y tienen grandes dimensiones.
Los datos de alta dimensión adoptan un método de clasificación basado en reglas
Utilice modelos complejos (como el aprendizaje profundo), pero la cantidad de conjuntos de entrenamiento es pequeña
necesidad de visualizar
Método típico de reducción de dimensionalidad: análisis de componentes principales PCA
introducir
Existen algunas correlaciones entre muchos atributos de los datos.
¿Puedes encontrar una manera de combinar múltiples atributos relacionados para formar un solo atributo?
concepto
Recombina múltiples atributos originales con ciertas correlaciones (como atributos p) en un conjunto de atributos integrales no relacionados para reemplazar los atributos originales. Por lo general, el tratamiento matemático consiste en combinar linealmente los atributos originales de p como los atributos integrales del peticionario.
Por ejemplo: las puntuaciones de los estudiantes, lengua, matemáticas, relaciones exteriores, historia, geografía, etc. se dividen en dos atributos: artes liberales y ciencias.
Reducción de datos - muestreo
compresión de datos
Reducir el tamaño de los datos reduciendo su calidad, como los píxeles.
3.5 Transformación de datos
Estrategia de transformación de datos
Suavidad, construcción de atributos, agregación, normalización, discretización, estratificación de conceptos.
Métodos de transformación de datos comúnmente utilizados.
Transforme los datos mediante la normalización
discretización por agrupación
Discretización por agrupamiento de histogramas
Discretización mediante clustering, árboles de decisión y análisis de correlación.
Estratificación conceptual de datos nominales.
discretización
método de igual ancho
Método de igual frecuencia
método de agrupamiento