Galería de mapas mentales reconocimiento de patrones
También llamado aprendizaje automático o minería de datos. Incluye principalmente introducción, preprocesamiento de datos, análisis de conglomerados, clasificación bayesiana, método del vecino más cercano, etc.
Editado a las 2024-02-04 00:51:57,Este es un mapa mental sobre una breve historia del tiempo. "Una breve historia del tiempo" es una obra de divulgación científica con una influencia de gran alcance. No sólo presenta los conceptos básicos de cosmología y relatividad, sino que también analiza los agujeros negros y la expansión. del universo. temas científicos de vanguardia como la inflación y la teoría de cuerdas.
¿Cuáles son los métodos de fijación de precios para los subcontratos de proyectos bajo el modelo de contratación general EPC? EPC (Ingeniería, Adquisiciones, Construcción) significa que el contratista general es responsable de todo el proceso de diseño, adquisición, construcción e instalación del proyecto, y es responsable de los servicios de operación de prueba.
Los puntos de conocimiento que los ingenieros de Java deben dominar en cada etapa se presentan en detalle y el conocimiento es completo, espero que pueda ser útil para todos.
Este es un mapa mental sobre una breve historia del tiempo. "Una breve historia del tiempo" es una obra de divulgación científica con una influencia de gran alcance. No sólo presenta los conceptos básicos de cosmología y relatividad, sino que también analiza los agujeros negros y la expansión. del universo. temas científicos de vanguardia como la inflación y la teoría de cuerdas.
¿Cuáles son los métodos de fijación de precios para los subcontratos de proyectos bajo el modelo de contratación general EPC? EPC (Ingeniería, Adquisiciones, Construcción) significa que el contratista general es responsable de todo el proceso de diseño, adquisición, construcción e instalación del proyecto, y es responsable de los servicios de operación de prueba.
Los puntos de conocimiento que los ingenieros de Java deben dominar en cada etapa se presentan en detalle y el conocimiento es completo, espero que pueda ser útil para todos.
reconocimiento de patrones
introducción
Conceptos básicos de reconocimiento de patrones.
reconocimiento de patrones
El uso de computadoras para realizar la capacidad de reconocimiento de patrones de las personas es una tecnología que utiliza computadoras para realizar el análisis, la descripción, el juicio y la identificación de varias cosas o fenómenos por parte de las personas, y asigna las cosas a reconocer a varias categorías de patrones.
El reconocimiento de patrones puede verse como el mapeo de patrones a categorías.
modelo
Información sobre una sustancia o fenómeno.
En términos generales, los objetos observables que existen en el tiempo y el espacio pueden denominarse patrones si pueden distinguirse como iguales o similares.
Un patrón es una descripción de un objeto formada a través de la recopilación de información. Esta descripción debe ser estandarizada, comprensible e identificable.
ilustrar
Un patrón no es la cosa en sí, sino la información que se obtiene de la cosa. Por ejemplo, fotografías e información personal de personas.
Puede distinguir si los patrones son similares (relevante para la pregunta)
Los patrones generalmente se representan mediante vectores y los subíndices pueden reflejar características temporales, características espaciales u otros identificadores.
vector de patrón
Información con distribución temporal y espacial obtenida mediante la observación de cosas individuales específicas (denominadas muestras o vectores de muestra)
Clase de patrón
La categoría a la que pertenece un patrón o la población de patrones en la misma categoría (categoría para abreviar)
sistema de reconocimiento de patrones
Consta de dos procesos: diseño e implementación.
La categoría a la que pertenece un patrón o la población de patrones en la misma categoría (categoría para abreviar)
Diseño (formación, aprendizaje)
Se refiere al uso de una cierta cantidad de muestras (llamada conjunto de entrenamiento o conjunto de aprendizaje) para diseñar un clasificador.
Realización (toma de decisiones, clasificación, juicio)
Se refiere al uso del clasificador diseñado para tomar decisiones de clasificación de las muestras a identificar.
Composición del sistema
Recopilación de datos (adquisición de datos)
Forma
A través de varios sensores, información como la luz o el sonido se convierte en información eléctrica, o se ingresa información de texto en la computadora.
Clasificación
Formas de onda unidimensionales: ondas sonoras, electrocardiograma, electroencefalograma, etc.
Imágenes bidimensionales: texto, imágenes, etc.
Imágenes en 3D: rostros, etc.
Cantidades físicas: altura de la persona, peso, peso del producto, nivel de calidad, etc.
Cantidad lógica (0/1): presencia o ausencia, masculino y femenino, etc.
preprocesamiento
Objetivo
Elimina el ruido y mejora la información útil.
Técnicas comúnmente utilizadas
Filtrado y eliminación de ruido de señales unidimensionales, suavizado, mejora, restauración, filtrado de imágenes, etc.
Extracción y selección de características.
Objetivo
A partir de los datos originales, obtener las características que mejor reflejen la naturaleza de la clasificación.
Formación de características
Varias características que reflejan problemas de clasificación se obtienen de los datos originales a través de diversos medios (a veces se requiere la estandarización de los datos)
Selección de características
Seleccione varias características que sean más beneficiosas para la clasificación de las características
Extracción de características
Reducir el número de características mediante ciertas transformaciones matemáticas.
Decisión de clasificación o coincidencia de modelos.
Utilice reglas de decisión en el espacio de características para asignar el objeto reconocido a una determinada categoría
ilustrar
Esta estructura de sistema es adecuada para el reconocimiento de patrones estadísticos, el reconocimiento de patrones difusos y métodos supervisados en redes neuronales artificiales.
Para los métodos de reconocimiento de patrones estructurales, solo se utiliza la extracción primitiva para reemplazar la extracción y selección de características.
Para el análisis de conglomerados, el diseño del clasificador y la toma de decisiones se integran en un solo paso.
Características de la imagen
color
textura
forma
Relaciones espaciales
cuatro espacios
Tres tareas principales
Colección de patrones
Extracción de características y selección de características.
Discriminación de tipos
Preguntas relacionadas
Evaluación del desempeño
Tasa de error de prueba o tasa de error
complejidad computacional
dividir
Base de clasificación
Naturaleza de la pregunta o muestra
Reconocimiento de patrones supervisado
Primero tenga un lote de muestras con etiquetas de categoría, diseñe un clasificador basado en el conjunto de muestras y luego determine la nueva categoría de muestra.
Reconocimiento de patrones no supervisado
Solo hay un lote de muestras y el conjunto de muestras se divide directamente en varias categorías según las similitudes entre las muestras.
método principal
reconocimiento de patrones estadísticos
Clasificación
clasificación no supervisada
Análisis de conglomerados
Clasificación supervisada
Clasificación de colecciones
Clasificación probabilística
Describir el método
Vector de características
Determinación del modo
Expresado por la distribución de probabilidad condicional P (X/i), hay m distribuciones en m categorías, y luego determine a qué distribución pertenece el patrón desconocido.
Bases teóricas
teoría de probabilidad
estadística matemática
ventaja
Mas maduro
Capaz de considerar el impacto del ruido molesto.
Gran capacidad para reconocer patrones primitivos.
defecto
Es difícil extraer características de patrones con estructuras complejas.
No puede reflejar las características estructurales del patrón y es difícil describir la naturaleza del patrón.
Dificultad para considerar las cuestiones de identificación desde una perspectiva holística
Reconocimiento de patrones estructurales
reconocimiento de patrones difusos
método de red neuronal
Bases teóricas
Neurofisiología
psicología
Método de descripción del patrón
Un conjunto de nodos de entrada representados por diferentes niveles de actividad.
Determinación del modo
sistema dinámico no lineal
método principal
Modelo BP, modelo HOPField
ventaja
Resuelva eficazmente problemas complejos no lineales
Permitir que las muestras tengan defectos y distorsiones más grandes.
defecto
Falta de una teoría del aprendizaje eficaz.
largo tiempo
Áreas de aplicación
Imágenes, rostros, texto, números, huellas dactilares, voces...
cuestión fundamental
Método de representación de patrón (muestra)
vector de columna n-dimensional
x= (x1, x2,…, xn)T
Compacidad de las clases de patrones.
punto crítico (muestra)
En un conjunto de muestras de múltiples categorías, cuando los valores característicos de algunas muestras cambian ligeramente, se convierten en otra categoría de muestras. Dichas muestras se denominan muestras críticas (puntos).
conjunto firme
definición
La distribución de muestras de la misma clase de patrón está relativamente concentrada, con muy pocas o ninguna muestra crítica. Estas clases de patrones se denominan conjuntos compactos.
naturaleza
Muy pocos puntos críticos
Una línea que conecta dos puntos cualesquiera en un conjunto. Los puntos de la línea pertenecen al mismo conjunto.
Cada punto del conjunto tiene una vecindad lo suficientemente grande, y la vecindad solo contiene puntos del mismo conjunto.
Requerir
satisface la estanqueidad
semejanza
Expresar similitud usando varias distancias.
distancia común
distancia de Minkowski
Valor absoluto distancia o distancia urbana o distancia Manhattan (q=1)
Distancia euclidiana (q=2)
Distancia en tablero de ajedrez o distancia de Chebyshev (q=∞)
Distancia de Mahalanobis
donde la matriz de covarianza y la media son
Estandarización de datos
Objetivo
Eliminar el impacto del rango numérico entre cada componente en el algoritmo
método
Estandarizar a [0,1] o [-1, 1], estandarización de varianza
fórmula
Normalización de características
Normalización de la varianza
Preprocesamiento de datos
¿Por qué realizar el preprocesamiento de datos?
no es bueno
incompleto
Falta de valores apropiados durante la recolección de datos
Diferentes consideraciones durante la recopilación y el análisis de datos.
Problemas humanos/hardware/software
ruidoso
Problemas con las herramientas de recopilación de datos.
Error humano/computador durante la entrada de datos
Errores en la transmisión de datos.
Tipos de datos inconsistentes
diferentes fuentes de datos
dependencia funcional violada
bien
Corrección: como por ejemplo si es correcto, exacto o no, etc.
Integridad: si falta algún dato o no se puede obtener
Consistencia: si algunos datos han sido modificados pero otros no
Confiabilidad: Describe el grado de confianza de que los datos son correctos.
Tarea
Limpieza de datos
Complete los valores faltantes, suavice los datos ruidosos, identifique y elimine valores atípicos y resuelva inconsistencias
integración de datos
Integre múltiples bases de datos, cubos de datos o archivos
Transformación y discretización de datos.
Estandarizar
Generación jerárquica de conceptos.
reducción de datos
Reducción de dimensiones
Reducción de cantidad
compresión de datos
Extracción de características y selección de características.
Limpieza de datos
❑ Complete los valores faltantes
razón
❑ Anomalía del equipo
❑ Eliminado por inconsistencia con otros datos existentes
❑ Datos que no fueron ingresados por malentendidos
❑ Algunos datos no se ingresaron porque no se tomaron en serio al ingresarlos.
❑ Sin registro de cambios de datos
tratar con
◼ Ignorar tuplas: esto generalmente se hace cuando falta la etiqueta de clase (asumiendo que la tarea de minería está diseñada para clasificar o describir), cuando cambia el porcentaje de valores faltantes para cada atributo (la tarea está diseñada para clasificar o describir), cuando el porcentaje de valores faltantes para cada atributo varía mucho, su efecto es muy pobre.
"Etiqueta de clase" (etiqueta de clase o etiqueta de destino) generalmente se refiere a "la etiqueta utilizada para representar la clase o grupo al que pertenece la muestra" en el conjunto de datos.
◼ Completar manualmente los valores faltantes: gran carga de trabajo y baja viabilidad
◼ Complete automáticamente los valores faltantes
❑ Utilice una variable global: como desconocida o -∞
❑ Utilice promedios de atributos
❑ Utilice la media o mediana de todas las muestras que pertenecen a la misma clase que la tupla dada
❑ Complete los valores faltantes con los valores más probables: utilizando métodos basados en inferencias como la fórmula bayesiana o los árboles de decisión
❑ Datos de ruido fluidos
razón
❑ Problemas con las herramientas de recopilación de datos
❑ Errores de entrada de datos
❑ Error de transmisión de datos
❑ Limitaciones técnicas
❑ Inconsistencia en las reglas de denominación
tratar con
agrupamiento
Primero ordene los datos y divídalos en contenedores de igual profundidad. Luego, puede suavizar según la media del contenedor, suavizar según la mediana del contenedor, suavizar según el límite del contenedor, etc.
funcionar
Agrupación de igual profundidad
Suavizado de valores límite: convierta todos los valores en valores máximos o mínimos
Agrupación de igual ancho
[110,155), izquierda cerrada y derecha abierta
agrupamiento
Detectar y eliminar valores atípicos mediante agrupación
devolver
Suavizar los datos ajustándolos a una función de regresión
❑ Identificar o eliminar valores atípicos
❑ Resolver inconsistencias en los datos.
integración de datos
◼ Integración de datos:
❑ Consolidar datos de múltiples fuentes de datos en un almacén consistente
◼ Integración de patrones:
❑ Integrar metadatos de diferentes fuentes de datos
◼ p.ej. A.cust_id = B.cliente_no
◼ Problemas de reconocimiento de entidades:
❑ Relacionar entidades del mundo real de diferentes fuentes de datos
◼ por ejemplo, Bill Clinton = William Clinton
◼ Detectar y resolver conflictos de valores de datos
❑ Para la misma entidad en el mundo real, los valores de los atributos de diferentes fuentes de datos pueden ser diferentes
❑ Posibles motivos: diferente representación de datos, diferentes mediciones, etc.
reducción de datos
Objetivo
◆El análisis de datos complejos del contenido de bases de datos a gran escala a menudo lleva mucho tiempo, lo que hace que el análisis de datos originales sea poco realista e inviable;
◆Reducción de datos: La reducción o reducción de datos consiste en reducir el tamaño de los datos extraídos sin afectar los resultados finales de la extracción.
◆Se pueden utilizar técnicas de reducción de datos para obtener una representación reducida del conjunto de datos, que es mucho más pequeño pero aún está cerca de mantener la integridad de los datos originales.
◆Extraer el conjunto de datos reducido puede aumentar la eficiencia de la extracción y producir los mismos (o casi los mismos) resultados.
estándar
◆El tiempo dedicado a la reducción de datos no debe exceder ni "compensar" el tiempo ahorrado en la extracción del conjunto de datos reducido.
◆Los datos obtenidos por reducción son mucho más pequeños que los datos originales, pero pueden producir los mismos o casi los mismos resultados de análisis.
método
◆Agregación de cubos de datos;
Agregue cubos de datos de n dimensiones en cubos de datos de n-1 dimensiones.
◆Reducción de dimensiones (reducción de atributos);
Encuentre el conjunto mínimo de atributos para garantizar que la distribución de probabilidad del nuevo conjunto de datos sea lo más cercana posible a la distribución de probabilidad del conjunto de datos original.
PCA
◆Compresión de datos;
compresión sin perdidas
Compresión con pérdida
◆Reducción numérica;
Reduzca el volumen de datos eligiendo representaciones de datos alternativas y más pequeñas.
tipo
Histograma
agrupamiento
muestreo
◆Discretización y generación jerárquica de conceptos.
Estandarizar
normalización mín-máx
debe ser correcto
Normalización de puntuación z (normalización de media cero)
Puede ser negativo
discretización
Objetivo
La discretización de datos es el proceso de dividir los valores de datos continuos en varios intervalos para simplificar la complejidad del conjunto de datos original.
tipo
Valores en un conjunto desordenado; por ejemplo, color, ocupación
Valores en un conjunto ordenado; por ejemplo, rango militar, título profesional;
Valores continuos; por ejemplo, números reales.
capas de conceptos
Análisis de conglomerados
concepto
Pensamiento
Clasifique cada modelo clasificado en función de una determinada medida de similitud.
Agrupa los similares en una categoría.
algoritmo
Método de agrupación simple basado en el umbral de similitud y el principio de distancia mínima
Un método para fusionar continuamente dos categorías según el principio de distancia mínima
Método de agrupamiento dinámico basado en la función de criterio.
solicitud
El análisis de conglomerados se puede utilizar como paso de preprocesamiento para otros algoritmos.
Se puede utilizar como herramienta independiente para obtener la distribución de datos.
El análisis de conglomerados puede completar la minería de puntos aislados
Métodos de agrupamiento basados en particiones
El método de partición consiste en dividir los objetos de datos en subconjuntos (clústeres) que no se superponen, de modo que cada objeto de datos esté exactamente en un subconjunto.
Clasificación
tipo de distancia
distancia euclidiana
distancia de manhattan
distancia de Minkowski
La distancia de Min no es una distancia, sino una definición de un conjunto de distancias.
Tipo de algoritmo
algoritmo k-medias (K-medias)
Entrada: el número de clústeres k y la base de datos D que contiene n objetos
Salida: k grupos que minimizan el criterio de error al cuadrado.
Pasos del algoritmo
1. Determine un centro de conglomerado inicial para cada conglomerado, de modo que haya K centros de conglomerado iniciales. 2. Las muestras del conjunto de muestras se asignan a los grupos vecinos más cercanos según el principio de distancia mínima. 3. Utilice la media muestral en cada conglomerado como nuevo centro del conglomerado. 4. Repita los pasos 2 y 3 hasta que el centro del clúster ya no cambie. 5. Al final se obtienen K clusters.
Características
ventaja
Sencillo y rápido
Escalable y eficiente
El efecto es mejor cuando el conjunto de resultados es denso.
defecto
Sólo se puede utilizar si la media del grupo está definida
k debe ser dado por adelantado
Es muy sensible al valor inicial y afecta directamente el número de iteraciones.
No es adecuado para encontrar cúmulos con formas no convexas o cúmulos con tamaños muy variables.
Es sensible al "ruido" y a los datos atípicos
Mejorar
Algoritmo de modo k: realiza una agrupación rápida de datos discretos, conserva la eficiencia del algoritmo de k-means y amplía el alcance de aplicación de k-means a datos discretos.
Algoritmo de prototipo k: puede agrupar datos que son una mezcla de atributos numéricos y discretos. En el prototipo k, se define una métrica de disimilitud que calcula atributos tanto numéricos como discretos.
Algoritmo k-Mediods (K-Mediods): el algoritmo k-means es sensible a puntos aislados. Para resolver este problema, en lugar de utilizar el valor promedio en el grupo como punto de referencia, puede elegir el objeto más central del grupo, es decir, el punto central como punto de referencia. Este método de división todavía se basa en el principio de minimizar la suma de diferencias entre todos los objetos y sus puntos de referencia.
Algoritmo de k-medoides (puntos centrales K)
Entrada: el número de clústeres k y una base de datos que contiene n objetos.
Salida: k grupos
Pasos del algoritmo
1. Determine un centro de agrupamiento inicial para cada grupo, de modo que haya k centros de agrupamiento iniciales. 2. Calcule las distancias desde todos los demás puntos hasta los k puntos centrales y considere el grupo más corto desde cada punto hasta los k puntos centrales como el grupo al que pertenece. 3. Seleccione los puntos en orden en cada grupo, calcule la suma de las distancias desde este punto hasta todos los puntos en el grupo actual y el punto con la suma de distancia final más pequeña se considerará como el nuevo punto central. 4. Repita los pasos 2 y 3 hasta que los puntos centrales de cada grupo ya no cambien. 5. Fin, se obtienen k clusters.
Características
ventaja
El algoritmo K-medoids calcula el punto con la suma más pequeña de distancias desde un determinado punto hasta todos los demás puntos. La influencia de algunos datos aislados en el proceso de agrupación se puede reducir calculando la suma más pequeña de distancias. Esto hace que el efecto final se acerque más a la división real.
defecto
En comparación con el algoritmo K-means, aumentará la cantidad de cálculo en aproximadamente O (n), por lo que, en general, el algoritmo K-medoids es más adecuado para operaciones de datos a pequeña escala.
Algoritmo de agrupamiento basado en jerarquías
definición
Cree un árbol agrupado de objetos de datos. Dependiendo de si la descomposición jerárquica se forma de abajo hacia arriba o de arriba hacia abajo, se puede dividir en agrupación jerárquica aglomerativa y agrupación jerárquica divisiva.
centro
Cómo medir la distancia entre dos grupos, donde cada grupo es generalmente un conjunto de objetos.
Clasificación
Tipo de distancia (método de medición de distancia entre grupos)
Tipo de algoritmo
AGNES (agrupación jerárquica aglomerativa)
definición
AGNES (agrupación jerárquica aglomerativa) es una estrategia ascendente que primero trata cada objeto como un grupo y luego fusiona estos grupos atómicos en grupos cada vez más grandes hasta que se cumple una determinada condición terminal.
Semejanza
La similitud entre dos grupos está determinada por la similitud de los pares de puntos de datos más cercanos en los dos grupos diferentes.
paso
1. Trate cada objeto como un grupo inicial; 2. REPETIR; 3. Encuentre los dos grupos más cercanos en función de los puntos de datos más cercanos en los dos grupos; 4. Fusionar dos clústeres para generar un nuevo conjunto de clústeres; 5. HASTA que se alcance el número de clusters definidos;
DIANA (agrupación jerárquica dividida)
BIRCH (Reducción iterativa equilibrada y agrupación mediante métodos jerárquicos)
método de agrupamiento de densidad
centro
Siempre que la densidad de puntos en un área sea mayor que un cierto valor umbral, se agrega a un grupo similar a él.
Clasificación
DBSCAN
centro
A diferencia de los métodos de partición y agrupación jerárquica, define los grupos como el conjunto más grande de puntos conectados por densidad, puede dividir áreas con una densidad suficientemente alta en grupos y puede encontrar grupos de formas arbitrarias en bases de datos espaciales "ruidosas".
definición
ε-vecindad de un objeto: el área dentro de un radio ε de un objeto determinado.
Objeto central (punto central): si la vecindad ε de un objeto contiene al menos el número mínimo de objetos MinPts, el objeto se denomina objeto central.
Accesibilidad de densidad directa: dado un conjunto de objetos D, si p está dentro del vecindario ε de q, y q es un objeto central, decimos que el objeto p es directamente alcanzable por densidad a partir del objeto q.
Accesibilidad de la densidad: si hay puntos centrales P2, P3,..., Pn, y la densidad de P1 a P2 es directa, y la densidad de P2 a P3 es directa,..., la densidad de P(n-1 ) a Pn es directa, y la densidad de Pn a Q es directa. Entonces la densidad de P1 a Q es alcanzable. La densidad alcanzable tampoco tiene simetría.
Densidad conectada: si hay un punto central S tal que S a P y Q son ambos densidad alcanzables, entonces P y Q están conectados por densidad. La conexión de densidad tiene simetría. Si P y Q están conectados en densidad, entonces Q y P también deben estar conectados en densidad. Dos puntos que están densamente conectados pertenecen al mismo grupo.
Ruido: un grupo basado en densidad es el conjunto más grande de objetos conectados por densidad según la accesibilidad de la densidad. Los objetos que no están incluidos en ningún grupo se consideran "ruido".
paso
1) Si la vecindad del punto contiene más de puntos MinPts, es un punto central; de lo contrario, el punto se registra temporalmente como un punto de ruido. 2) Encuentre todos los objetos con densidad alcanzable desde este punto para formar un grupo
Características
ventaja
La agrupación es rápida y puede manejar eficazmente puntos de ruido y descubrir grupos espaciales de formas arbitrarias.
defecto
(1) Cuando aumenta la cantidad de datos, se requiere más memoria para soportar el consumo de E/S, lo que también consume una gran cantidad de datos; (2) Cuando la densidad de la agrupación espacial es desigual y el espaciado de los grupos difiere mucho, la calidad de la agrupación es deficiente. (3) Hay dos parámetros iniciales ε (radio de vecindad) y minPts (número mínimo de puntos en ε vecindad) que requieren que el usuario configure manualmente la entrada, y los resultados de la agrupación son muy sensibles a los valores de estos dos parámetros. Diferentes valores producirán diferentes resultados de agrupación.
ÓPTICA
DENCLUE
clasificación bayesiana
Bayes ingenuo
El método Bayes es un método de clasificación de patrones cuando se conocen la probabilidad previa y la probabilidad condicional de clase. El resultado de la clasificación de la muestra a dividir depende del número total de muestras en varios campos.
Naive Bayes asume que todos los atributos de las características son independientes entre sí, razón por la cual la palabra "ingenuo" en el nombre del algoritmo proviene de
En realidad, a menudo existen dependencias entre atributos, pero lo interesante es que incluso cuando el supuesto de independencia del algoritmo Naive Bayes obviamente no es cierto, aún puede obtener muy buenos resultados de clasificación.
fórmula bayesiana
tasa de error mínima
Las características son información proporcionada.
La categoría es el requisito final.
Cuando hay múltiples atributos de características
significado
Probabilidad posterior P(cj |x)
Es decir, la probabilidad de que cj sea verdadera cuando se da una muestra de datos x, y esto es lo que nos interesa (para calcular)
Cada P(xk|Ci) se puede obtener mediante conocimiento previo O realizar estadísticas a través de conjuntos de muestras
Probabilidad previa P(cj)
La probabilidad previa P (Ci) se puede obtener mediante conocimiento previo. O realizar estadísticas a través de conjuntos de muestras
P(x) puede eliminarse o formularse
Simplificación
riesgo mínimo
tabla de decisiones
Método de cálculo
Para cada decisión α, calcule por separado
Toma la decisión con el menor riesgo condicional
método del vecino más cercano
Método del vecino más cercano/K método del vecino más cercano
Objetivo
Determinar la clasificación de un punto.
Ideas
Encuentre las k instancias de entrenamiento más cercanas a la nueva instancia en el conjunto de datos de entrenamiento y luego cuente la clase con el mayor número de clases entre las k instancias de entrenamiento recientes, que es la clase de la nueva instancia.
proceso
Calcule la distancia entre cada punto de muestra en la muestra de entrenamiento y la muestra de prueba (las medidas de distancia comunes incluyen la distancia euclidiana, la distancia de Mahalanobis, etc.)
Ordenar todos los valores de distancia anteriores
Seleccione las primeras k muestras con la distancia más pequeña
Vota según las etiquetas de estas k muestras para obtener la categoría de clasificación final
Elección del valor k
Cuanto menor sea el valor de k, más complejo será el modelo y más fácil será sobreajustarlo. Sin embargo, cuanto mayor sea el valor de k, más simple será el modelo. Si k = N, significa que no importa en qué punto, es la clase. con la mayor cantidad de categorías en el conjunto de entrenamiento. Por lo tanto, k generalmente tomará un valor menor y luego usará validación cruzada para determinar La llamada validación cruzada aquí consiste en dividir una parte de la muestra en muestras de predicción, como 95% de entrenamiento y 5% de predicción, y luego k toma 1, 2, 3, 4, 5 y similares respectivamente para predecir y Calcule el error de clasificación final. Elija k con el error más pequeño.
la diferencia
K-medias
El propósito es dividir una serie de conjuntos de puntos en k categorías.
K-Means es un algoritmo de agrupamiento
Aprendizaje no supervisado, agrupación de datos similares para obtener clasificación, sin clasificación externa
El conjunto de datos de entrenamiento no tiene etiquetas y está desordenado. Después de agruparse, se vuelve algo ordenado al principio y luego ordenado.
Método del vecino más cercano/K método del vecino más cercano
El objetivo es determinar la clasificación de un punto.
KNN es un algoritmo de clasificación
Aprendizaje supervisado, el objetivo de clasificación se conoce de antemano
El conjunto de datos de entrenamiento tiene etiquetas y ya son datos completamente correctos.
reglas de asociación
definición
concepto basico
Artículo: Por ejemplo, la cola, las papas fritas, el pan, la cerveza y los pañales se denominan artículos.
Sea I={i1, i2,…,im} el conjunto de todos los elementos (Item).
La transacción T es un registro de compra y cada transacción T tiene un identificador único, registrado como Tid.
D es el conjunto de todas las transacciones.
Itemset es el conjunto que queremos estudiar.
El número de elementos de un conjunto de elementos se denomina longitud del conjunto de elementos, y un conjunto de elementos que contiene k elementos se denomina conjunto de elementos K.
reglas de asociación
Una implicación lógica de la forma A->B, donde ni A ni B están vacíos, y A⸦I, B⸦I y (A cruza B=vacío).
Soporte soporte
Describa la probabilidad de que los conjuntos de elementos A y B aparezcan simultáneamente en todas las transacciones D
S(A->B)=P(AB)=|AB|/|D|
El apoyo es una medida de la importancia de las reglas de asociación.
ConfianzaConfianza
En la cosa T en la que aparece el conjunto de elementos A, la probabilidad de que el conjunto de elementos B también aparezca al mismo tiempo.
C(A->B)=P(B|A)=|AB|/|A|
La confianza es una medida de la precisión de las reglas de asociación.
Reglas de asociación fuertes
Las reglas de asociación según las cuales D satisface el apoyo mínimo y la credibilidad mínima en I se denominan reglas de asociación fuertes.
Elevar
El grado de elevación indica cuánta influencia tiene la apariencia del conjunto de elementos A sobre la apariencia del conjunto de elementos B.
L(A->B)=P(AB)/(P(A)*P(B))
Mayor que 1
Correlacion positiva
igual a 1
Independiente
menos que 1
correlación negativa
conjuntos de elementos frecuentes
Los conjuntos de elementos que satisfacen un soporte mínimo se denominan conjuntos de elementos frecuentes. El conjunto de k-itemsets frecuentes generalmente se denota como Lk
Objetivo
Encuentre reglas de asociación sólidas basadas en el soporte mínimo y la confianza mínimos especificados por el usuario.
paso
Encuentre todos los conjuntos de elementos frecuentes o los conjuntos de elementos frecuentes más grandes si se le brinda el soporte mínimo por parte del usuario
Encuentre reglas de asociación en conjuntos de elementos frecuentes dando una credibilidad mínima al usuario
algoritmo
Algoritmo a priori
El primer paso es recuperar todos los conjuntos de elementos frecuentes en la base de datos de transacciones mediante iteración, es decir, conjuntos de elementos cuyo soporte no es inferior al umbral establecido por el usuario;
Artículos frecuentes: contar, contar S
El segundo paso utiliza conjuntos de elementos frecuentes para construir reglas que satisfagan el nivel mínimo de confianza del usuario.
Reglas de asociación: Cuenta C
FP-Crecimiento