Galería de mapas mentales procesamiento de imágenes digitales por visión por computadora
Introducción detallada a los métodos tradicionales de visión por computadora, incluidos conocimientos básicos de procesamiento de imágenes digitales, restauración de imágenes, La compresión de imágenes, la segmentación de imágenes, etc. se utilizan a menudo para el preprocesamiento de imágenes. ¡Espero que esto ayude!
Editado a las 2024-02-04 00:54:17,Este es un mapa mental sobre una breve historia del tiempo. "Una breve historia del tiempo" es una obra de divulgación científica con una influencia de gran alcance. No sólo presenta los conceptos básicos de cosmología y relatividad, sino que también analiza los agujeros negros y la expansión. del universo. temas científicos de vanguardia como la inflación y la teoría de cuerdas.
¿Cuáles son los métodos de fijación de precios para los subcontratos de proyectos bajo el modelo de contratación general EPC? EPC (Ingeniería, Adquisiciones, Construcción) significa que el contratista general es responsable de todo el proceso de diseño, adquisición, construcción e instalación del proyecto, y es responsable de los servicios de operación de prueba.
Los puntos de conocimiento que los ingenieros de Java deben dominar en cada etapa se presentan en detalle y el conocimiento es completo, espero que pueda ser útil para todos.
Este es un mapa mental sobre una breve historia del tiempo. "Una breve historia del tiempo" es una obra de divulgación científica con una influencia de gran alcance. No sólo presenta los conceptos básicos de cosmología y relatividad, sino que también analiza los agujeros negros y la expansión. del universo. temas científicos de vanguardia como la inflación y la teoría de cuerdas.
¿Cuáles son los métodos de fijación de precios para los subcontratos de proyectos bajo el modelo de contratación general EPC? EPC (Ingeniería, Adquisiciones, Construcción) significa que el contratista general es responsable de todo el proceso de diseño, adquisición, construcción e instalación del proyecto, y es responsable de los servicios de operación de prueba.
Los puntos de conocimiento que los ingenieros de Java deben dominar en cada etapa se presentan en detalle y el conocimiento es completo, espero que pueda ser útil para todos.
procesando imagen digital
Conocimientos básicos del procesamiento de imágenes digitales.
Introducción
"Imagen" es la distribución de la luz reflejada o transmitida por un objeto. "Imagen" es la impresión o comprensión formada en el cerebro humano por la imagen aceptada por el sistema visual humano.
Las imágenes son todas imágenes con efectos visuales y son un término general para diversos gráficos e imágenes.
La cantidad de información contenida en las imágenes es enorme, y “vale la pena escucharlas cien veces” y “comprenderlas claramente de un vistazo”.
Una imagen se puede describir matemáticamente como
I=f(x, y, z, λ, t)
Donde x, y, z son coordenadas espaciales, λ es la longitud de onda, t es el tiempo e I es la intensidad de la luz.
Para imágenes estáticas t es constante. Para imágenes monocromáticas, λ es una constante. Para imágenes planas, z es constante.
Ondas de luz: la percepción humana se limita a la banda visual del espectro electromagnético, mientras que las máquinas de imágenes pueden cubrir casi todo el espectro electromagnético.
Digitalización de imágenes
Imagen digital
La imagen analógica está representada por números y la imagen representada por números es una imagen digital.
El proceso de discretizar una imagen analógica para obtener una imagen digital se llama digitalización de imágenes.
proceso
muestreo
Divide espacialmente la imagen en áreas pequeñas (píxeles), cada píxel tiene una coordenada bidimensional (entero)
Influencia
Cuantificar
El brillo o el valor de gris de cada píxel se asigna al nivel de gris correspondiente y cada nivel de gris generalmente se representa mediante un número entero.
Si el número de niveles de escala de grises cuantificados L = 256, el rango de valores es un número entero de 0 a 255, y se pueden usar 8 bits para representar el valor de escala de grises del píxel de la imagen en escala de grises, lo que se denomina cuantificación de 8 bits.
representación de imágenes digitales
representación matemática
Imagen binaria
Imagen en escala de grises
imagen RGB
Formato de almacenamiento de imágenes
Formato BMP: archivo de mapa de bits para sistemas Windows
Formato GIF: puede almacenar múltiples imágenes (animaciones)
Formato TIF(F): independiente de OS y FS, fácil de intercambiar
Formato JPEG: estándar de compresión
Propiedades básicas de las imágenes.
Número de píxeles de la imagen
El número de píxeles de la imagen se refiere al número de píxeles contenidos en la imagen de mapa de bits horizontal y verticalmente. Simplemente aumentar la cantidad de píxeles no puede mejorar el efecto de visualización de la imagen. El efecto de visualización de la imagen está determinado por la cantidad de píxeles y la resolución de la pantalla.
Resolución de imagen
La resolución de la imagen se refiere al número de píxeles distribuidos en la imagen por unidad de longitud de impresión. Se utiliza principalmente para caracterizar la densidad de la información de la imagen digital, lo que determina la claridad de la imagen. En un área de tamaño unitario, cuanto mayor sea la resolución de la imagen, mayor será el número de píxeles que contiene, más densos serán los píxeles y mayor será la claridad de la imagen digital.
tamaño de la imagen
El tamaño de la imagen determina el espacio de almacenamiento necesario para almacenar el archivo de imagen, que generalmente se mide en bytes (B). La fórmula de cálculo es: número de bytes = (alto del mapa de bits × ancho del mapa de bits × profundidad de la imagen) / 8. Se puede ver en la fórmula de cálculo que el tamaño de almacenamiento del archivo de imagen está directamente relacionado con la cantidad de píxeles.
color de la imagen
El color de la imagen se refiere a la mayor cantidad de tipos de colores posibles en una imagen digital. Al cambiar las proporciones de los tres colores primarios (rojo, verde y azul), se puede mezclar fácilmente con cualquier color.
profundidad de la imagen
La profundidad de la imagen, también conocida como profundidad de bits de la imagen, se refiere a la cantidad de bits que ocupa cada píxel de la imagen. Los datos correspondientes a cada píxel de la imagen generalmente se pueden representar mediante 1 o más bytes. Cuanto más profunda sea la profundidad de los datos, más bits se necesitarán y más rica será la representación del color correspondiente.
tono de imagen
El tono de la imagen se refiere al brillo y la oscuridad de varios colores de la imagen correspondientes a los colores primarios (por ejemplo, los colores primarios de las imágenes digitales en formato RGB incluyen rojo, verde y azul. El ajuste del tono en la vida diaria es el ajuste de). El brillo de los colores primarios. El tono varía de 0 a 255, incluyendo un total de 256 tonos. Por ejemplo, la imagen en escala de grises más simple divide el tono en 256 tonos del blanco al negro. En las imágenes RGB es necesario caracterizar el brillo y la oscuridad de los tres colores rojo, verde y azul. Por ejemplo, si el tono rojo es más intenso, la imagen tenderá a ser de color rojo oscuro, y si el tono verde es más intenso. Si se profundiza, la imagen tenderá a ser de color verde oscuro.
saturación de imagen
La saturación de la imagen indica la pureza de los colores de la imagen. La saturación de una fotografía de una escena natural depende de las propiedades reflectantes o proyectadas del objeto. En el procesamiento de imágenes digitales, la saturación generalmente se mide por la proporción de luz blanca mezclada con un color sólido. Cuanto más luz blanca se mezcla con un color sólido, menor es la saturación y, a la inversa, mayor es la saturación.
Brillo de la imagen
El brillo de la imagen se refiere al brillo y la oscuridad de los colores contenidos en las imágenes digitales. Es la percepción que tiene el ojo humano del brillo y la oscuridad del objeto mismo. El rango de valores es generalmente del 0% al 100%.
contraste de imagen
El contraste de la imagen se refiere al contraste entre diferentes colores o el contraste entre la luz y la oscuridad en una imagen. Cuanto mayor sea el contraste, mayor será la diferencia de brillo entre colores o mayor será la diferencia entre blanco y negro. Por ejemplo, aumentar el contraste de una imagen en escala de grises hará que la diferencia entre el blanco y el negro en la imagen sea más clara, haciendo que la imagen parezca más nítida. Cuando el contraste aumenta al extremo, la imagen en escala de grises se convierte en una imagen en blanco y negro.
jerarquía de imágenes
En los sistemas de diseño por computadora, para procesar materiales de imágenes de manera más conveniente y efectiva, generalmente se colocan en diferentes capas y se puede considerar que la imagen está compuesta de varias capas de imágenes superpuestas. Con el software de procesamiento de imágenes, cada capa se puede procesar de forma independiente sin afectar el contenido de la imagen de otras capas. Cuando crea un nuevo archivo de imagen, el sistema creará automáticamente una capa de fondo para él, lo que equivale a un lienzo en el que se pueden realizar otros trabajos de procesamiento de imágenes. Si una imagen tiene varias capas, cada capa tendrá la misma cantidad de píxeles, canales y formato.
Relación básica entre píxeles.
relación básica
Una imagen f (x, y) se compone de píxeles unitarios básicos y existen ciertas conexiones entre píxeles, incluidas vecindades, adyacencias y conexiones de píxeles, así como la distancia entre píxeles. Normalmente, se utiliza una letra minúscula (como p) al especificar un píxel específico.
Área
Los píxeles vecinos del píxel p forman la vecindad de este píxel
4 áreas
8 áreas
campo diagonal
proximidad
Para dos píxeles cualesquiera, si un píxel está cerca de otro píxel y sus valores de escala de grises cumplen con criterios de similitud específicos (como pertenecer a un determinado conjunto de valores de escala de grises), entonces se dice que los dos píxeles son adyacentes.
4 adyacencias
8 adyacencias
m adyacente
Si se cumple una de las dos condiciones siguientes
q está en el 4-barrio de p
q está en el dominio diagonal de p, y ningún valor de gris en el píxel en la intersección de la vecindad de 4 dominios de q y el dominio de 4 dominios de p pertenece a V.
Entonces se dice que los dos puntos p y q son m adyacentes.
conectado
4-Conectado
8-Conectado
m-conectado
distancia
distancia euclidiana
distancia urbana
distancia del tablero
Aplicaciones de procesamiento de imágenes digitales
Aplicaciones industriales
Pruebas no destructivas de productos y componentes producidos en la línea de producción, como pruebas de botellas de vidrio.
aplicaciones de seguridad publica
La identificación de huellas dactilares es segura, confiable y eficiente, y tiene una amplia gama de aplicaciones en seguridad pública, seguridad de la información, comercio electrónico y otros campos.
La autenticación de identidad personal también incluye imágenes como la cara, el iris, la huella palmar y la firma.
Aplicaciones médicas
Recuento de células sanguíneas, el contenido principal del examen de sangre de rutina, datos importantes sobre la presencia o ausencia de enfermedad y la gravedad de la enfermedad.
aplicaciones geologicas
La tecnología de cámara de pozo puede obtener una vista panorámica a gran escala de la pared del pozo para observar directamente la estructura geológica interna.
Aplicaciones de pruebas ambientales
Identificación y ubicación de incendios: combine imágenes de luz visible e imágenes infrarrojas para identificar incendios y determinar su ubicación.
Aplicaciones marinas
Enteromorpha Detección de enteromorpha: utilizando imágenes de teledetección como fuente de datos, se logra una detección rápida de Enteromorpha Enteromorpha.
Detección y seguimiento de peces marinos.
aplicaciones militares
Posicionamiento de objetivos de reconocimiento aéreo.
aplicaciones de entretenimiento
cambiar de cara
Ingeniería de imagen
Procesamiento de imágenes
Imagen -> Imagen
Efectos visuales mejorados
Preprocesamiento de imágenes para reducción de ruido, mejora del contraste y nitidez de la imagen.
Recopilación, adquisición y almacenamiento de imágenes, mejora de imágenes, restauración de imágenes, compresión (codificación) de imágenes (video)
análisis de imagen
Imagen -> Datos
extraer información útil
Segmentación de imágenes y descripción del objetivo, el resultado son datos de características del objetivo.
Detección de bordes, segmentación de imágenes (separando el fondo del objetivo), expresión del objetivo, descripción, medición, análisis del color, forma, textura y movimiento del objetivo, detección, extracción, seguimiento, identificación y clasificación del objetivo, reconocimiento facial
Comprensión de imágenes
Imagen -> Explicación
Comprensión de los objetos de destino y sus relaciones, el resultado son datos más abstractos.
Registro de imágenes, comparación, fusión, representación 3D, modelado, reconstrucción, recuperación de escenas, comprensión de imágenes, razonamiento, recuperación de imágenes basada en contenido
Transformación matemática de imágenes.
Coordinar la transformación del espacio.
concepto basico
Las transformaciones geométricas a menudo se denominan transformaciones de película de caucho, suponiendo que se imprime una imagen en una película de caucho y luego la película de caucho se estira de acuerdo con un conjunto predeterminado de reglas.
Las transformaciones geométricas cambian las relaciones espaciales entre los píxeles de una imagen. Consta de dos operaciones básicas: la transformación espacial de coordenadas (transformación de coordenadas) y el valor en escala de grises del píxel de coordenadas transformado (interpolación en escala de grises).
Transformación de coordenadas
Reducir la imagen original a la mitad en ambas direcciones.
Transformacion afin
La transformación de coordenadas comúnmente utilizada en el procesamiento de imágenes es la transformación afín.
transformación de identidad
transformación de traducción
transformación de rotación
transformación de escala
transformación de corte
Cortar a lo largo del eje x
Cortar a lo largo del eje y
Mapeo hacia adelante y mapeo hacia atrás
Mapeo directo: si se dan las coordenadas de cualquier píxel en la imagen, la posición de las coordenadas del píxel después de la transformación geométrica se obtiene a través de la relación de mapeo correspondiente.
Mapeo hacia atrás: calcula la posición de las coordenadas del píxel en la imagen de origen a partir de las coordenadas de píxeles de la imagen de salida.
Interpolación en escala de grises
concepto basico
Para reposicionar los píxeles de una imagen en una nueva posición, a estas nuevas posiciones también se les deben asignar valores de escala de grises, es decir, interpolación de escala de grises.
tipo
interpolación del vecino más cercano
El valor de gris del píxel de entrada más cercano a la posición a la que está asignado se selecciona como resultado de la interpolación.
Desventajas: cuando el valor de gris de los píxeles adyacentes cambia significativamente, su estructura fina se volverá rugosa.
interpolación bilineal
Según el valor de gris de cuatro puntos adyacentes, la interpolación se realiza dos veces en las direcciones xey. La función de interpolación es la ecuación paraboloide hiperbólica.
Es una mejora del método del vecino más cercano, mediante el cual se ajusta un paraboloide hiperbólico a cuatro puntos conocidos adyacentes.
Desventajas: El método de cálculo de interpolación bilineal generalmente puede obtener resultados satisfactorios porque se ha considerado la influencia de cuatro puntos adyacentes. Sin embargo, este método tiene propiedades de filtrado de paso bajo, lo que provoca la pérdida de componentes de alta frecuencia y desenfoca el contorno de la imagen. Si desea obtener un efecto de interpolación en escala de grises más preciso, puede utilizar la corrección de interpolación de alto orden.
interpolación bicúbica
Interpolar según el valor de gris de 16 puntos adyacentes
Transformada de Fourier
Pasos básicos del procesamiento de imágenes en el dominio de la frecuencia.
Transformada de Fourier
Fourier transforma la imagen. En lugar de obtener una onda, esto convierte la imagen del dominio espacial (es decir, la representación de píxeles original) al dominio de frecuencia. En el dominio de la frecuencia, una imagen se representa como una serie de combinaciones de ondas de diferentes frecuencias. Esta transformación nos permite ver la distribución de diferentes componentes de frecuencia en la imagen, incluidos componentes de baja frecuencia (que representan partes de la imagen que cambian lentamente, como áreas suaves) y componentes de alta frecuencia (que representan partes que cambian rápidamente, como bordes). y detalles).
Filtrado en el dominio de frecuencia
En el dominio de la frecuencia, puede optar por aplicar un filtro de alta frecuencia o un filtro de baja frecuencia a la imagen.
Para obtener más información, consulte Filtrado de dominio de frecuencia para mejorar la imagen.
Transformada inversa de Fourier
Los datos filtrados en el dominio de la frecuencia se convierten luego nuevamente al dominio espacial mediante la transformada inversa de Fourier. El resultado de esta transformación inversa es una imagen modificada que refleja el efecto del filtrado en el dominio de la frecuencia.
Serie de Fourier y transformada de Fourier
Cumpliendo ciertas condiciones matemáticas, cualquier función periódica se puede expresar como una suma de sinusoides de diferentes frecuencias.
Si se cumplen ciertas condiciones matemáticas, la función no periódica también se puede expresar como la integral del seno multiplicada por la función ponderada, es decir, la transformada de Fourier.
Las características funcionales representadas por la serie de Fourier o la transformada de Fourier se pueden reconstruir completamente mediante la transformada inversa de Fourier sin perder ninguna información.
Transformada de Fourier discreta unidimensional
Transformada de Fourier discreta bidimensional
En el espectrograma de una imagen en escala de grises después de la transformación bidimensional de Fourier, la parte más brillante corresponde al componente de baja frecuencia de la imagen original.
Componentes de baja frecuencia: estos componentes representan partes de la imagen que cambian lentamente, como cambios generales en el nivel de grises o áreas suaves. En un espectrograma de Fourier, los componentes de baja frecuencia suelen concentrarse en el área central de la imagen.
Componentes de alta frecuencia: estos componentes representan partes de la imagen que cambian rápidamente, como bordes y detalles. En un espectrograma, los componentes de alta frecuencia suelen estar situados lejos del punto central.
Propiedades básicas de la transformada discreta de Fourier.
posibilidad de separación
traslacional
cíclico
simetría conjugada
invariancia de rotación
Proporcionalidad
valor promedio
teorema de convolución
mejora de la imagen
Conceptos básicos de mejora de imagen.
Propiedades de mejora de imagen
Sin profundizar en los motivos de la degradación de la imagen, se realizan correcciones en función de las características de la imagen y los propósitos del procesamiento para obtener imágenes mejores, "mejores" o más "útiles".
La mejora de imagen consiste en mejorar la calidad de la imagen para un determinado propósito de aplicación, y los resultados del procesamiento son más adecuados para las características visuales humanas o los sistemas de reconocimiento automático.
Un método de procesamiento que resalta cierta información en una imagen según necesidades específicas y al mismo tiempo debilita o elimina cierta información innecesaria.
El procesamiento de mejora no puede aumentar la información de la imagen original, solo puede mejorar la capacidad de reconocimiento de cierta información, y este procesamiento puede causar la pérdida parcial de otra información.
método básico
funcionar
método de dominio espacial
El método de dominio espacial se refiere a realizar operaciones directamente sobre valores de escala de grises de píxeles en el dominio espacial de la imagen. Los métodos comúnmente utilizados incluyen transformación de escala de grises, corrección de histograma, convolución de plantilla, procesamiento de pseudocolor, etc.
método en el dominio de la frecuencia
El método del dominio de la frecuencia consiste en mejorar el valor de transformación de la imagen en un determinado dominio de transformación de la imagen y luego obtener la imagen mejorada mediante transformación inversa. Es un método de procesamiento indirecto.
Objetivo
liso
El suavizado tiene un efecto borroso en la imagen, haciendo que la transición de la imagen sea natural y suave, y suprimiendo el ruido;
Entendido desde la perspectiva de la frecuencia en función de las características de frecuencia de la imagen, el suavizado consiste en mantener o mejorar los componentes de baja frecuencia de la imagen y debilitar o eliminar los componentes de alta frecuencia de la imagen.
afilar
La nitidez puede verse como la operación inversa del suavizado. El efecto y el propósito es resaltar los detalles y hacer que el contorno de la imagen sea claro y contrastante;
Desde la perspectiva del procesamiento en el dominio de la frecuencia, la nitidez es la mejora de los componentes de alta frecuencia en una imagen.
Efecto
Según el análisis de las características de frecuencia de la imagen, generalmente se cree que el contraste y el rango dinámico de toda la imagen dependen de la parte de baja frecuencia de la información de la imagen (refiriéndose a la imagen general), mientras que los contornos de los bordes y los detalles locales en la imagen dependen de la parte de alta frecuencia.
Por lo tanto, se utilizan métodos de filtrado digital bidimensional para el procesamiento de imágenes. Por ejemplo, el uso de un filtro de paso alto puede ayudar a resaltar los contornos de los bordes y los detalles de la imagen, mientras que el uso de un filtro de paso bajo puede suavizar la imagen y reducir el ruido.
Revisiones de aplicaciones
bastante subjetivo
En aplicaciones prácticas, se pueden seleccionar varios algoritmos de mejora para probar al mismo tiempo, y se puede seleccionar el algoritmo con mejores efectos visuales, complejidad computacional relativamente pequeña y que cumpla con los requisitos de la aplicación.
Transformación en escala de grises
Principio de mapeo en escala de grises
El mapeo en escala de grises es una operación de puntos basada en píxeles de la imagen
Diseñar una determinada regla de mapeo de acuerdo con el propósito de la mejora y expresarla con la función de mapeo correspondiente.
La función de mapeo se puede utilizar para mapear la escala de grises de cada píxel de la imagen original a una nueva escala de grises.
t=T(s)
tipo
Inversión de imagen
Los valores de la escala de grises se invierten, el negro se vuelve blanco
Las operaciones de inversión de imágenes se utilizan a menudo para mejorar las áreas poco grises de una imagen, haciéndolas más brillantes o más prominentes.
Si el cuerpo principal de la imagen es más claro en escala de grises, la operación de inversión puede oscurecer el cuerpo principal.
Para mejorar los sujetos de la imagen con escalas de grises más claras, a menudo es necesario utilizar otras técnicas de mejora de la imagen, como la ecualización de histograma o la mejora del contraste. La operación de inversión es más adecuada para realzar los detalles oscuros de la imagen.
Mejorar el contraste
Mejore el contraste de cada parte de la imagen y, de hecho, aumente el rango dinámico entre dos valores de gris en la imagen.
compresión de rango dinámico
Por el contrario, a veces el rango dinámico de la imagen original es demasiado grande y excede el rango dinámico permitido de algunos dispositivos de visualización. En este caso, si se utiliza la imagen original directamente, es posible que se pierdan algunos detalles.
Modificar la distribución en escala de grises mediante la transformación de funciones.
Ajusta el valor de escala de grises de cada píxel de la imagen aplicando una función matemática
transformación lineal
transformación no lineal
s=cr^γ
La parte superior izquierda es la imagen original: c = 1, Y es 3,0, 4,0, 5,0 respectivamente.
Histograma
Definición de histograma
Un histograma en escala de grises es un gráfico estadístico que representa la distribución en escala de grises de una imagen.
La abscisa es el nivel de gris, generalmente representado por r, y la ordenada es el número de píxeles con este nivel de gris o la probabilidad de que aparezca este nivel de gris.
Propiedades de los histogramas
Una imagen corresponde a un histograma, pero el histograma no necesariamente corresponde a una sola imagen.
El histograma solo puede contar la probabilidad de aparición de píxeles en escala de grises y no puede reflejar la posición del píxel en la imagen.
La ecualización de histograma se utiliza principalmente para mejorar el contraste global de la imagen, mientras que el suavizado y la nitidez se utilizan para reducir y aumentar el contraste local y los detalles de la imagen, respectivamente.
En algunos casos especiales, es posible que la ecualización del histograma no cambie significativamente el contraste o incluso que lo reduzca ligeramente.
Histograma ya uniforme: si el histograma de una imagen ya está distribuido uniformemente, o la distribución del brillo está muy cerca de la distribución uniforme, es posible que la ecualización del histograma no cambie su contraste.
Distribución de brillo especial: en algunas situaciones especiales de distribución de brillo, la ecualización del histograma puede causar pérdida de detalles en algunas áreas, lo que puede reducir el contraste en estas áreas.
Concentraciones extremas de valores de luminancia: si una gran proporción de píxeles de una imagen se concentra en los extremos del rango de luminancia (muy brillante o muy oscuro), la ecualización del histograma puede dar como resultado un contraste reducido en estas áreas.
Distribución de histograma y escala de grises de la imagen.
Ecualización de histograma
La distribución en escala de grises de la imagen debe aprovechar al máximo todo el rango de escala de grises y la cantidad de píxeles en cada nivel de escala de grises debe distribuirse aproximadamente de manera uniforme.
Esto se logra ajustando el histograma de la imagen para que el histograma de la imagen de salida se distribuya lo más uniformemente posible, haciendo así que la distribución del brillo en la imagen sea más uniforme.
No alisar ni afilar
Especificación de histograma
Gray ecualiza el histograma original.
Especifique el histograma requerido y calcule una transformación que iguale el histograma especificado.
Asigne el histograma original al histograma especificado
Comparado
Operaciones entre imágenes
operaciones aritmeticas
operación de suma
C(x,y)=A(x,y) B(x,y)
La media de M imágenes se define como
g(x,y)=1/M(g0(x,y) g1(x,y) … gM(x,y))
solicitud
Eliminar el ruido aleatorio "aditivo"
Generar efectos de superposición de imágenes
Sustracción
C(x,y) = A(x,y) - B(x,y)
solicitud
Eliminar efectos de fondo
método de sombra de diferencia
Resta imágenes de la misma escena tomadas en diferentes momentos o imágenes de la misma escena en diferentes bandas de ondas para detectar cambios entre dos imágenes de la misma escena.
Se puede utilizar para guiar el monitoreo dinámico, la detección y seguimiento de objetivos en movimiento, la eliminación del fondo de la imagen y el reconocimiento de objetivos, etc.
Multiplicación
C(x,y) = A(x,y) * B(x,y)
solicitud
Visualización parcial de la imagen.
operación de división
C(x,y) = A(x,y)/B(x,y)
solicitud
Comúnmente utilizado en el procesamiento de imágenes de teledetección.
operación lógica
Sólo disponible para imágenes binarias (0 y 1)
Clasificación
AND (AND): escrito como p AND q (también se puede escribir como p·q o pq)
O (O): escrito como p O q (también se puede escribir como p q)
COMPLEMENTO (COMPLEMENTO, también llamado frecuentemente negación o no): escrito como NOT q (también se puede escribir como )
filtrado espacial
El filtrado en el dominio espacial opera directamente en los píxeles, mientras que el filtrado en el dominio de la frecuencia implica operar en los componentes de frecuencia de la imagen.
Operaciones vecinales utilizando plantillas en el espacio de la imagen.
Categoría 1
Lineal: método de promedio vecinal
Fundamental
El algoritmo de suavizado de imágenes más básico.
El suavizado se puede realizar en el dominio espacial o en el dominio de la frecuencia.
Tome cada píxel de la imagen como centro para tomar su dominio R y calcule el promedio ponderado en escala de grises de todos los píxeles de la vecindad como salida del píxel central.
efecto principal
Elimina o reduce el ruido y mejora la calidad de la imagen.
Desenfoque las imágenes para que luzcan suaves y naturales.
Proceso de implementación
Generalmente se implementa con la ayuda de una operación de convolución de plantilla.
Pasos específicos
Deslice la plantilla de izquierda a derecha y de arriba a abajo en la imagen, y cada punto de posición en la plantilla coincidirá con un determinado píxel en la imagen;
Multiplica el coeficiente en cada posición de la plantilla por el valor de gris del píxel con el que coincide;
Sumar todos los productos;
Asigne el resultado de la suma al píxel correspondiente al centro de la plantilla.
formulario de plantilla
Características
El patrón de distribución de coeficientes es generalmente grande en el centro y pequeño en las áreas circundantes.
La suma de los coeficientes es igual a 1 para garantizar que el nivel de gris general permanezca sin cambios antes y después del procesamiento de la imagen.
Para mantener mejor el borde, también puede utilizar plantillas en forma de cruz, rectas y otras.
No linealidad: filtrado mediano
Principio del algoritmo
Utilice una ventana que contenga un número impar de píxeles para deslizarse en la imagen y reemplace el valor de gris del punto central de la ventana con el valor de gris medio de cada punto de la ventana.
Características del algoritmo
Es una tecnología de procesamiento no lineal.
En comparación con el método de promedio vecinal, el filtrado mediano puede superar en cierta medida la borrosidad de los detalles de la imagen causada por los filtros lineales y es especialmente eficaz para la interferencia de pulsos y el ruido de escaneo de imágenes. Al eliminar el ruido, se puede mantener mejor la nitidez de los bordes y los detalles de la imagen.
Para los bordes de la imagen, el nivel de gris a menudo cambia en pasos o pendientes, y el filtro mediano puede mantenerlo bien sin que se vea borroso.
En términos generales, el filtrado medio puede mantener los bordes de la imagen mientras filtra el ruido, lo que es difícil de lograr con el filtrado medio lineal.
Además, el efecto de filtrado está relacionado con el tamaño de la ventana. Una selección razonable del tamaño de la ventana es la clave para hacer un buen uso del filtrado medio.
No mejora el contraste de la imagen.
Categoría 2
liso
Método de promedio de barrio
filtro mediano
afilar
concepto basico
Propósito: Mejorar los bordes y contornos detallados de la escena en la imagen.
Función: Mejora el contraste en escala de grises.
Conceptos básicos: debido a que los bordes y contornos están ubicados donde ocurren mutaciones del valor de gris, la operación diferencial es encontrar la tasa de cambio del valor de gris, por lo que el algoritmo de nitidez se basa en la operación diferencial (diferencia).
Operador: es un concepto ampliamente utilizado en matemáticas y física para describir una regla o función que asigna un elemento (o conjunto de elementos) a otro elemento (o conjunto de elementos). Los operadores pueden ser operaciones matemáticas simples, como suma o multiplicación, u operaciones más complejas, como diferenciación, integración o transformaciones lineales.
curva diferencial
método
método de gradiente
método laplaciano
Filtrado direccional
Filtro de afilado lineal
Pertenece a la transformación lineal.
Ideas de algoritmos
La nitidez de la imagen puede verse como la operación inversa del suavizado. El propósito es mejorar los detalles y los bordes de la imagen y tener un efecto de eliminación de borrosidad en la imagen.
Para lograr el objetivo de nitidez, puede intentar extraer la información detallada de la imagen que necesita mejorarse y luego mejorarla.
La esencia del suavizado espacial es realizar un promedio local en la imagen, que es una operación integral, por lo que la nitidez de la imagen se puede lograr mediante la operación inversa de integral - "diferencial".
La operación diferencial consiste en encontrar la tasa de cambio de la señal. Los lugares donde los cambios son rápidos son los detalles y los bordes de la imagen. Agregar el resultado diferencial a la imagen original de acuerdo con una cierta proporción puede hacer que el contorno de la imagen sea claro y los detalles prominentes.
Operador diferencial de primer orden
Operador diferencial de primer orden
Operador diferencial bidimensional de primer orden
Dos operaciones de diferencia para encontrar gradientes.
diferencia vertical horizontal
diferencia cruzada
Algoritmo diferencial unidireccional de primer orden
concepto
El algoritmo diferencial unidireccional de primer orden se refiere a proporcionar información de borde en una dirección específica.
La imagen se compone de dos direcciones: horizontal y vertical. Por lo tanto, el algoritmo diferencial unidireccional en realidad se agudiza en dirección horizontal o vertical.
Clasificación
Algoritmo de afilado horizontal
El enfoque horizontal es muy sencillo y se consigue mediante una plantilla que puede detectar cambios en los valores de los píxeles en dirección horizontal.
Algoritmo de afilado vertical
Esto se logra mediante una plantilla que puede detectar cambios en los valores de los píxeles en la dirección vertical.
algoritmo diferencial cruzado
En el resultado del cálculo aparece un valor de píxel menor que cero.
Solución: puedes hacer un mapeo simple
[gmín,gmáx]→[0,255]
operador diferencial de segundo orden
fórmula
operador
operador laplaciano
Operador de deformación laplaciana
operador de registro
operador de perro
Comparación de los efectos de extracción de bordes entre el diferencial de primer orden y el diferencial de segundo orden
El límite obtenido por el operador de Sobel es un límite relativamente aproximado, con menos información de límite, pero relativamente claro;
El límite obtenido por el operador laplaciano es un límite relativamente detallado. Los límites incluyen muchos detalles, pero no son demasiado claros.
Filtrado en el dominio de frecuencia
filtro de paso bajo
principio
alta frecuencia y baja frecuencia
Componentes de baja frecuencia: Los componentes de baja frecuencia representan cambios espaciales lentos en la imagen, es decir, en esas áreas de la imagen, los valores de los píxeles (ya sea brillo o color) cambian lentamente. Esto suele corresponder a áreas grandes y uniformes de la imagen, como cielos en calma, paredes u otras partes sin mucha textura ni bordes. El componente de baja frecuencia está relacionado con la información global de la imagen, como el brillo del fondo, el degradado de color, etc.
Componentes de alta frecuencia: los componentes de alta frecuencia representan cambios espaciales rápidos en la imagen, es decir, en estas áreas de la imagen, los valores de los píxeles cambian rápidamente. Esto suele corresponder a partes detalladas de la imagen, como bordes, texturas, patrones y ruido. Los componentes de alta frecuencia revelan características locales de la imagen, como los contornos de los objetos, detalles de las texturas, etc.
El filtrado en el dominio de la frecuencia se puede utilizar para mejorar o suprimir selectivamente ciertos contenidos de una imagen. El filtrado de paso bajo se puede utilizar para reducir los componentes de alta frecuencia y lograr suavizar la imagen.
pertenece a suave
filtro de paso bajo
Filtro de paso bajo ideal (ILPF)
D0 es la frecuencia de corte del filtro, que es una cantidad no negativa
D(u,v) es la distancia desde el punto (u,v) en el plano de frecuencia hasta el origen
El filtrado de paso bajo reduce los componentes de alta frecuencia, el ruido y los bordes de la imagen se debilitan y la imagen se ve borrosa.
El filtro de paso bajo ideal tiene efecto de timbre
Filtro de paso bajo Butterworth (BLPF)
En comparación con el filtro de paso bajo ideal, no hay un salto obvio entre la banda de paso y la banda de parada del filtro Butterworth, y la transición entre frecuencias altas y bajas es relativamente suave, por lo que la imagen de salida obtenida no tiene un timbre obvio.
Se puede ver en la curva característica de la función de transferencia que se retiene una cierta frecuencia alta en la cola, por lo que el efecto de filtrado de ruido no es tan bueno como el del filtro de paso bajo ideal.
Filtro de paso bajo exponencial (ELPF)
Filtro de paso bajo en escalera (TLPF)
Comparación de efectos de filtro
Los resultados del filtrado de paso bajo tienen distintos grados de desenfoque. A medida que aumenta la frecuencia de corte, el desenfoque de la imagen se vuelve más claro.
A la misma frecuencia de corte, el resultado del procesamiento ELPF tiene el desenfoque más claro, seguido de BLPF e ILPF tiene el desenfoque más intenso.
Cuando la frecuencia de corte es baja, los efectos de filtrado de varios filtros son bastante diferentes. A medida que aumenta la frecuencia de corte, los resultados del filtrado convergen gradualmente.
ILPF y TLPF tienen fenómenos de "timbre" obvios, y la frecuencia de oscilación aumenta con el aumento de la frecuencia de corte. BLPF y ELPF no tienen fenómenos de "timbre" obvios.
filtro de paso alto
principio
Los bordes de la imagen corresponden a componentes de alta frecuencia en el espectro, por lo que se pueden utilizar filtros de paso alto para extraer los bordes de la imagen.
Superponerlo con la imagen original puede hacer que los bordes sean más claros, lo que hace que la imagen sea más nítida.
Pertenece al afilado
algoritmo
Para el filtro de paso bajo correspondiente a la parte suave de la imagen, se puede obtener el filtro de paso alto correspondiente.
Un filtro de paso alto se puede expresar como (1 filtro de paso bajo)
Filtrado homomórfico
El filtrado homomórfico es una tecnología especial de procesamiento de imágenes que contiene propiedades de suavizado y nitidez de la imagen, pero su objetivo principal no es solo suavizar o enfocar las imágenes. El filtrado homomórfico se utiliza principalmente para mejorar las condiciones de iluminación de la imagen y mejorar la calidad de la imagen al mejorar simultáneamente el contraste de la imagen y comprimir el rango dinámico de la imagen.
Modelo de reflexión de iluminación
La tecnología de filtrado homomórfico es un método de filtrado basado en el principio de generación de imágenes por reflexión de iluminación de la imagen.
En el dominio de la frecuencia, es posible comprimir simultáneamente el rango de brillo de la imagen y mejorar el contraste, lo que es especialmente adecuado para imágenes causadas por una iluminación desigual.
La imagen obtenida por el observador o el sistema de imágenes generalmente depende de la luz reflejada en el objetivo, que se divide en ① la cantidad de luz visible que incide en la escena ② la cantidad de luz reflejada del objetivo en la escena;
La cantidad de luz incidente está relacionada con la iluminación exterior, mientras que el coeficiente de reflexión depende de las características del objeto.
Las superficies lisas y de colores claros tienen grandes coeficientes de reflexión.
Las superficies rugosas y de color oscuro tienen pequeños coeficientes de reflexión.
Principio del algoritmo
La imagen se representa como el producto del componente de iluminación y el componente de reflexión.
El componente de iluminación cambia lentamente en el espacio y está dominado por componentes de baja frecuencia.
El componente de reflexión cambia drásticamente en la interfaz de diferentes objetos en el espacio, reflejando cambios y detalles de la superficie, y contiene muchos componentes de alta frecuencia.
El componente de iluminación y el componente de reflexión están en diferentes bandas de frecuencia. Puede usar el método logarítmico para convertir su multiplicación en suma y luego usar diferentes tratamientos para estas dos partes.
El componente de iluminación es de baja frecuencia y la baja frecuencia se puede suprimir para eliminar la iluminación desigual. Al mismo tiempo, se pueden mejorar los componentes de alta frecuencia para resaltar los detalles de la imagen.
Manejar instancia
Al mismo tiempo, reduce las frecuencias bajas y mejora las frecuencias altas, comprime el rango dinámico de la imagen y mejora el contraste entre varias partes.
Restauración de imagen
Recuperación de imágenes sin restricciones
El proceso de degradación de la imagen puede considerarse como una transformación.
Encontrar f(x,y) a partir de g(x,y) es el proceso de encontrar su transformación inversa
En la práctica, T(-1) tiene muchas situaciones.
T(-1) no existe, es decir, singular
T(-1) existe, pero no es único
T(-1) existe y es única, pero pequeñas perturbaciones en g(x, y) provocarán grandes cambios en f(x, y)
T(-1) existe y es único, pero su solución es demasiado complicada o casi irresoluble
T(-1) existe, es único, no tiene problemas mal planteados y puede resolverse
En el caso de sistemas invariantes de desplazamiento lineal, a partir de la expresión matricial del modelo degenerado
El ruido aquí es generalizado. En ausencia de conocimiento previo, necesitamos encontrar una estimación de f y minimizar la siguiente fórmula en el sentido de mínimos cuadrados.
Método de filtrado inverso para restaurar la imagen.
Método de filtro de salchicha
Compresión de imagen
codificación sin pérdidas
codificación de longitud variable
Codificación Huffman
codificación aritmética
codificación de longitud fija
codificación de longitud de ejecución
codificación de plano de bits
Codificación LZW
codificación con pérdida
Codificación predictiva
transformar codificación
Segmentación de imagen
Descripción general de la segmentación de imágenes
¿Por qué dividir?
La segmentación consiste en dividir la imagen en áreas que no se superponen y extraer las áreas de interés.
estado
La segmentación de imágenes es un paso clave en la transición del procesamiento de imágenes al análisis y comprensión de imágenes, y también es una tecnología básica de visión por computadora.
concepto
La suma (unión) de todas las subregiones debe incluir todos los píxeles de la imagen, o la segmentación debe dividir cada píxel de la imagen en una determinada subregión.
Cada subregión no se superpone entre sí o un píxel no puede pertenecer a dos regiones al mismo tiempo.
Los píxeles que pertenecen a la misma área deben tener las mismas características y los límites del área deben ser claros.
Los píxeles que pertenecen a diferentes regiones deberían tener algunas características diferentes.
Es necesario que los píxeles de la misma subregión estén conectados.
naturaleza
Dentro de una región: similitud
Método: según la similitud del valor de gris de los píxeles de la imagen, seleccionando un umbral, encuentre el área con un valor de gris similar. El contorno exterior del área es el borde del objeto de destino.
Entre regiones: discontinuidades
Método: de acuerdo con la discontinuidad del valor de gris del píxel de la imagen, primero encuentre los puntos, líneas y bordes, y luego determine el área.
Ideas
1) De simple a difícil, divida gradualmente:
2) Controlar el entorno en segundo plano y reducir la dificultad de la segmentación;
3) Centrarse en mejorar el objeto de interés y reducir la interferencia de partes irrelevantes.
método
Una clase de métodos de segmentación basados en la similitud de valores grises dentro de la región. Determinar el área a la que pertenece cada píxel para formar un mapa de área.
método de segmentación de umbral
crecimiento regional
dividir fusionar
Segmentación morfológica
Una clase de métodos de segmentación basados en la discontinuidad del valor gris entre regiones. El método de segmentación basado en bordes primero extrae el límite del área y luego determina el área delimitada por el límite.
método de segmentación por detección de bordes
gran transformación
Requerir
eficacia
Integridad
Exactitud
estabilidad
segmentación de umbral
Descripción general de la segmentación de umbral
principio
La imagen contiene: objetivo y fondo; existen diferencias en las características de escala de grises entre los dos; seleccionar un umbral apropiado; determinar la propiedad de cada píxel en la imagen y finalmente segmentar para generar una imagen binaria;
paso
Determinar el umbral de segmentación adecuado
Compare cada valor de píxel con un umbral para asignar la propiedad del píxel
Clasificación de umbrales
Características
El cálculo es sencillo
Particularmente eficaz para la segmentación de imágenes con fuerte contraste entre el objetivo y el fondo.
Las regiones que no se superponen siempre se pueden definir con límites cerrados y conectados
Se puede generalizar a otras características, como textura, color, etc.
Umbral de histograma
Idea básica
Los valores de la escala de grises de los píxeles dentro del objetivo y el fondo son muy similares, mientras que los valores de la escala de grises de los píxeles en ambos lados de su unión son muy diferentes. El histograma de la imagen se puede considerar básicamente como la superposición de dos histogramas unimodales del objetivo y. el fondo. Si la diferencia en escala de grises entre el objetivo y el fondo es relativamente grande, el histograma de la imagen debe ser bimodal.
Selección de umbral
Tome el valor de gris en la parte inferior (valor mínimo) del histograma como umbral T.
Problemas existentes y mejoras.
Susceptible a interferencias de ruido, el valor mínimo no es el umbral deseado.
Mejorar
Tome una posición fija entre los dos picos, como la posición media. Dado que el valor pico representa el valor típico dentro y fuera del área, generalmente es más confiable que seleccionar el valle y puede eliminar la interferencia del ruido.
Fortalecer el procesamiento del ruido, como suavizar histogramas, etc.
umbral óptimo
pregunta
El histograma de la imagen no tiene un fenómeno de doble pico y un valle, o incluso si el umbral tiene un fenómeno de doble pico y un valle, el punto del valle no es un punto de umbral preciso;
Pensamiento
Minimizar la probabilidad de error de segmentación, también conocido como umbral mínimo de probabilidad de error.
métodos específicos
Establezca la probabilidad del objetivo y el fondo y su función de densidad de probabilidad de distribución gris;
Dado un umbral t, encuentre la probabilidad de error de segmentación de cada clase;
Encuentre la probabilidad total de error de segmentación e (t) por debajo de este umbral;
El umbral óptimo T se calcula a partir del valor mínimo de la probabilidad total de error de segmentación e(t).
Umbral máximo de variación entre clases
Idea básica
El umbral seleccionado, etc., maximiza la diferencia general entre el objetivo de segmentación y el área de fondo. Hasta cierto punto, se puede considerar que el resultado de la segmentación ha alcanzado el nivel óptimo. Esta diferencia entre regiones a menudo se describe como varianza.
La varianza es una función del umbral k. Cuando k cambia, la varianza entre regiones también cambia. Seleccione la k que maximiza la varianza, que también se denomina umbral de varianza máxima entre clases.
El proceso de resolver el umbral máximo de variación entre clases no requiere la configuración manual de otros parámetros y es seleccionado de forma completamente automática por la computadora. No solo es aplicable a la segmentación de dos regiones, sino que también puede extenderse a la situación de múltiples regiones.
métodos específicos
aprobar
segmentación de detección de bordes
El principio de segmentación por detección de bordes.
definición de borde
La colección de aquellos píxeles de una imagen que tienen un escalón o un cambio de techo en escala de grises.
Clasificación de aristas
El principio de segmentación por detección de bordes.
La segmentación de imágenes se logra encontrando los límites de diferentes áreas de la imagen. Es una gran clase de métodos de segmentación de imágenes basados en límites.
Operador de detección de bordes de primer orden
Un buen operador de detección necesita cumplir tres indicadores:
Alta precisión: contiene más bordes verdaderos y menos bordes falsos;
Alta precisión: los bordes detectados deben estar en los límites verdaderos;
Ancho de un solo píxel: Altamente selectivo, responde de manera única a los bordes.
Normalmente se utiliza el valor máximo del diferencial de primer orden para detectar bordes.
operador de gradiente
Igual que el "Algoritmo de diferenciación cruzada"
Otros operadores de dirección
Operadores como Roberts, Prewitt y Sobel solo contienen plantillas en dos direcciones y pueden detectar pocas direcciones de borde. Cuantas más direcciones tenga la plantilla diferencial, más bordes en más direcciones se podrán detectar.
operador de Kirsch
8 direcciones forman un ángulo incluido de 45°
Cómo utilizar: 8 plantillas convolucionan con la imagen respectivamente para detectar cambios en escala de grises en 8 direcciones. La dirección con el mayor cambio es la dirección del borde. Las primeras cuatro plantillas de dirección del operador Kirsch 5×5 son las siguientes:
operador astuto
Características
Hay problemas: posición inexacta; ancho de píxel no único, etc.
Pasos para que el operador detecte bordes
Suaviza la imagen con una plantilla de filtro gaussiano;
Calcule la magnitud y dirección del gradiente de la imagen suavizada;
Aplique la máxima supresión a la amplitud del gradiente;
Asegúrese de que sea el valor máximo en la dirección del gradiente.
Detectar y vincular bordes con un algoritmo de umbral dual.
Utilice el gradiente de vecindad para juzgar las partes inciertas.
Operador de detección de bordes de segundo orden
Normalmente se utiliza el punto de cruce por cero del diferencial de segundo orden para el posicionamiento previo de los bordes.
laplaciano
Características
Es la segunda derivada y es muy sensible al ruido.
La magnitud del Laplaciano produce aristas dobles (mínima negativa y máxima positiva);
No se puede detectar la dirección de los bordes (sin plantilla de dirección);
efecto
Utilice sus propiedades de cruce por cero para el preposicionamiento de bordes;
Determina si un píxel está en el lado oscuro o en el lado brillante de un borde.
plantilla
operador de registro
Primero se suaviza la imagen y luego se detectan los bordes utilizando el operador de Laplace para superar el problema de que el operador diferencial de segundo orden es sensible al ruido.
Continuación y cierre de bordes.
El propósito de la continuación del borde.
El propósito de la unión de bordes es conectar bordes discontinuos para formar un límite cerrado.
El principio del procesamiento de continuación parcial.
Analice las características de cada punto (x, y) en los resultados de la detección de bordes; conecte todos los puntos similares en un vecindario pequeño (3x3 o 5x5) para formar el límite de una región con características comunes.
gran transformación
declaración del problema
principio
Utilizando la relación dual entre un espacio y otro espacio, el problema en el espacio original se convierte a su espacio dual para resolverlo, y el problema se vuelve relativamente simple en el espacio dual.
Detectar líneas rectas
paso
Fase de preparación
Etapa de operación
etapa de búsqueda de pico
Problemas existentes y mejoras.
pregunta
Cuando la línea recta es cercana a la vertical, la pendiente q es cercana al infinito, el rango de búsqueda es muy amplio y la cantidad de cálculo es grande.
Mejorar
La imagen del espacio XY se transforma en un espacio de coordenadas polares.
Características
Tiene una gran capacidad antiinterferente y el recuento acumulativo en el espacio de parámetros es un proceso integral.
Tiene buena robustez y un pico muy obvio en el punto del parámetro que realmente se encuentra.
Cierre automático: toda la curva se puede obtener a partir de los parámetros de la curva límite.
Por lo tanto, la transformada de Hough se puede utilizar para eliminar interferencias y completar la conexión y suplementación de curvas.
Desarrollo de aplicaciones
Para detección de círculos
Para la detección de elipses
Segmentación de regiones
crecimiento regional
Introducción del problema.
Algunos métodos de segmentación no tienen en cuenta determinadas condiciones.
La idea básica del crecimiento regional
El crecimiento regional es un método de segmentación ascendente.
Primero determine el número de regiones y sus características; luego encuentre una semilla representativa para cada región; use la semilla como centro de agrupación para fusionar continuamente los píxeles adyacentes con las mismas características en la imagen en la región. El proceso de fusión continúa hasta que no se puede; fusionarse y finalmente formar regiones con características diferentes. Este método de segmentación también se denomina expansión de región.
Pasos y procesos del algoritmo.
Primero busque un píxel semilla para el área que se va a segmentar como punto de partida para el crecimiento;
Determinar un criterio de similitud (para determinar si se cumplen las condiciones para la fusión);
Según el criterio de similitud, los píxeles cercanos al píxel semilla que tienen propiedades iguales o similares a las de la semilla se fusionan en el área de la semilla;
Trate el nuevo píxel como un nuevo píxel inicial y continúe el proceso anterior hasta que no se puedan incluir más píxeles que cumplan las condiciones, completando así el crecimiento de una región;
Siga este método para completar el crecimiento de otras áreas hasta que toda la imagen esté completamente segmentada.
La cuestión clave
Selección del punto de semilla
el píxel más brillante;
Valor máximo del histograma;
Píxel en el centro del grupo;
Determinación del criterio de similitud (criterio de crecimiento)
Diferencia regional en escala de grises;
Características de distribución en escala de grises dentro de la región;
Color, textura, tamaño y forma, etc.;
Determinación de las condiciones de parada del crecimiento.
Criterio de crecimiento de región: la diferencia absoluta en el valor de gris entre cualquier píxel y la semilla es inferior a 65.
dividir fusionar
declaración del problema
El crecimiento de la región está muy influenciado por las semillas, criterios de similitud, etc.
La idea de dividir y fusionar
Split-merge es un método de segmentación de arriba hacia abajo.
A partir de la imagen completa, se divide continuamente paso a paso y, al mismo tiempo, se fusionan áreas adyacentes con las mismas características hasta que ya no se pueden dividir, y finalmente se obtiene cada subregión.
enfoque de división y fusión
enfoque divisivo
Cuadra paso a paso hasta que el área a dividir se divida en píxeles individuales.
La práctica de fusionar
Fusionar áreas adyacentes con las mismas características en una sola área.
Operaciones específicas
realizar una división;
Compruebe si todas las áreas adyacentes se pueden fusionar y, de ser así, combínelas una por una;
Repita los dos primeros pasos hasta que ya no se pueda realizar la división y la fusión;
Nota: Al fusionar, las cuatro áreas bajo el mismo nodo principal generalmente se consideran primero y luego se expanden a áreas en el mismo nivel bajo otros nodos principales.
descripción de la imagen
Conceptos básicos de descripción de imágenes.
Los principales rasgos que caracterizan una imagen.
La imagen se segmenta para obtener varias regiones y límites. Para que la computadora identifique efectivamente el objetivo, los principales atributos del objetivo y la relación entre el objetivo y el fondo deben expresarse en valores numéricos más concisos y claros. , símbolos, etc.
Estos valores, símbolos, etc. generados a partir de la imagen original o de la imagen segmentada se denominan características de la imagen. Las características de la imagen contienen información importante sobre el objetivo y reflejan las características principales del mismo.
Características internas: características de escala de grises, características de color, características de textura,...
Características exteriores: área, perímetro, circularidad, etc...
Definición de descripción de imagen
El uso de características de imagen para representar una imagen se llama descripción de imagen, es decir, usar números o símbolos para representar las características relevantes de cada objetivo en la imagen o escena, o incluso la relación entre los objetivos. El resultado final es una expresión abstracta de la imagen. Características objetivo y la relación entre ellas.
Propósito de la descripción de la imagen
Obtenga información útil sobre el objetivo, describa y mida con precisión el objetivo y siente las bases para el análisis y la comprensión del objetivo.
Métodos básicos de descripción de imágenes.
El método de descripción simple se refiere a un método de descripción basado en las características de la forma geométrica de la imagen. Los métodos comúnmente utilizados incluyen perímetro, área, posición, dirección, rectangularidad, etc.
Método de descripción de límites: después de segmentar la imagen o utilizar el algoritmo de detección de bordes para obtener el conjunto de puntos límite del área objetivo, estos puntos límite deben organizarse para formar una línea límite y describirse. Este método incluye principalmente el método del código de cadena. y el método de descripción de Fourier espera.
El método de descripción regional es un método para describir una imagen basándose en la escala de grises, el color, la textura y otras características de la imagen, como el método de descripción de momento invariante.
descripción sencilla
descripción de la circunferencia
Definición de perímetro: la longitud del límite de una región.
El papel del perímetro: un objeto con una forma simple puede usar un perímetro relativamente corto para rodear el área que ocupa, por lo que el perímetro se puede usar para distinguir objetos con formas simples o complejas.
Formas de uso común para describir el perímetro.
La longitud de la línea límite (espacio) entre el área y el fondo.
Los píxeles se consideran pequeños cuadrados por unidad de área, y tanto el área como el fondo están compuestos de pequeños cuadrados. El perímetro es la longitud del espacio (línea de unión) entre el área y el fondo.
Es decir: perímetro p = longitud de la línea de intersección
número de puntos límite
Expresado por el número de píxeles del límite, es decir, el número de puntos del límite
Es decir: perímetro p = número de puntos límite
Descripción del área
Definición de descripción del área: el número de píxeles en el área.
El papel del área: Es la característica más básica del área, que describe el tamaño del área.
Suponga que el tamaño de la imagen f (x, y) es M × N. Para una imagen binaria, 1 representa el objetivo y 0 representa el fondo. Para encontrar el área objetivo es contar el número de píxeles con f (x, y). )=1, entonces el área es:
Descripción de la ubicación de destino
Dado que el objetivo tiene un área determinada, es necesario definir la posición del objetivo en la imagen. Generalmente, el punto central del área se define como la posición del objetivo.
El centro del área se refiere al centroide del gráfico. Si la calidad de la imagen se distribuye uniformemente, el centroide es el centroide.
Para una imagen binaria f (x, y) de tamaño M × N, si 1 representa el objetivo y 0 representa el fondo, entonces las coordenadas del centroide del objetivo son:
Descripción de la dirección del objetivo
Después de determinar la ubicación del objetivo en la imagen, también debe determinar la dirección del objetivo.
La dirección del objetivo se puede determinar encontrando la suma más pequeña de cuadrados de las distancias desde todos los puntos del objetivo hasta una línea recta, que es la dirección del objetivo.
Descripción de la rectangularidad del objetivo
La rectangularidad refleja el grado en que el objetivo llena su rectángulo circunscrito y puede describirse mediante la relación entre el área del objetivo y el área de su rectángulo circunscrito más pequeño.
Ao es el área del objetivo y AMER es el área del rectángulo circundante más pequeño. El valor R está entre 0 y 1.
Cuando el objetivo es un rectángulo, R toma un valor máximo de 1; cuando el objetivo es un círculo, el valor de R es; para objetivos delgados y curvos, el valor de R se vuelve más pequeño y cercano a 0.
Método de descripción del código de cadena
Definición de código de cadena
El código en cadena es un método de representación de codificación de límites, que utiliza la dirección del límite como base para la codificación. Por simplicidad, se describe generalmente un conjunto de puntos límite.
método de código de cadena
Hay dos métodos de codificación, código de 4 cadenas y código de 8 cadenas. Método específico: comience desde el punto de partida, codifique a lo largo del límite, hasta regresar al punto de partida, finalice la codificación.
Asigne a cada segmento de límite un código de dirección
Seleccione el punto de partida, comience desde el punto de partida y codifique a lo largo del límite hasta regresar al punto de partida y finalizar la codificación.
Punto de partida: punto rojo
Dirección: en el sentido de las agujas del reloj
Código de 4 cadenas: 000033333322222211110011
Ejemplo 2
Sean las coordenadas del punto de partida s (5,5) y utilice códigos de cadena de 4 direcciones y códigos de cadena de 8 direcciones en sentido antihorario para representar los límites del área.
Código cadena de 4 vías: (5,5)111232323000
Código de cadena de 8 direcciones: (5,5)2224556000
Hay un problema
Diferentes puntos de partida conducen a diferentes codificaciones
La rotación provoca diferencias de codificación.
formas de mejorar
La normalización resuelve el problema del punto de partida: si el código de cadena está conectado de principio a fin, se puede ver que el código de cadena es en realidad una secuencia cíclica de codificación de dirección. Por lo tanto, se puede seleccionar el punto de partida para minimizar el valor entero de la secuencia de codificación resultante para lograr la normalización del código de cadena.
La diferencia de primer orden resuelve el problema de rotación: al usar la diferencia de primer orden del código de cadena para reemplazar el código original, tiene invariancia de rotación. Es decir, para áreas de la misma forma giradas en diferentes ángulos, sus códigos de cadena son diferentes, pero los códigos de diferencia de primer orden de cada código de cadena son los mismos. Esta propiedad es particularmente efectiva para el reconocimiento de imágenes.
La diferencia de primer orden y la normalización del código de cadena pueden tener punto de partida y invariancia de rotación.
Método de descripción de Fourier
Idea básica
Una vez confirmado el límite compuesto por conjuntos de puntos, la forma del objetivo se puede identificar utilizando el límite.
proceso
La relación entre la selección de M y el descriptor.
Valor de uso
Con menos descriptores de Fourier, se puede obtener el esquema general de la esencia del límite.
Estos descriptores con información de límites se pueden utilizar para distinguir límites significativamente diferentes.
Características
El problema bidimensional se vuelve unidimensional
Mejorado y ajustado para que sea invariante a las transformaciones geométricas.
Se puede ver en la definición que la selección del punto de partida, la traslación, la rotación y la escala afectarán la secuencia de límites original, afectando así el resultado después de la transformada de Fourier.
El descriptor de Fourier se puede mejorar y ajustar para que sea invariante a las transformaciones geométricas. Los métodos específicos son los siguientes: 1) El cambio y rotación del punto inicial solo afecta la fase de F (u), no la amplitud, y puede ignorarse; 2) La traducción afectará al componente DC de F(u), que puede eliminarse eliminando DC; 3) Los cambios de escala provocarán la ampliación o reducción general de F(u), que puede eliminarse normalizando dividiendo por el coeficiente máximo. Después del procesamiento anterior, la hoja de Fourier final tiene la invariancia de la transformación geométrica.
método de descripción del momento
Idea básica
En algunos casos, cuando se conoce la distribución de grises del área objetivo en la imagen, se puede utilizar la descripción del momento para caracterizar el objetivo.
Características de la descripción del momento.
No es necesario conocer los límites, sólo las condiciones de escala de grises de los píxeles dentro del área segmentada.
momento
Distancia central
momento invariante