Acceso
Iniciar sesión

Galería de mapas mentales Descripción general de los algoritmos de segmentación de imágenes

Descripción general de los algoritmos de segmentación de imágenes

Una revisión de los algoritmos de segmentación de imágenes, incluidos los métodos tradicionales de segmentación de imágenes, comparación y resumen del análisis de rendimiento, métodos de segmentación basados en aprendizaje profundo: modelos de red de segmentación, etc.

Editado a las 2022-04-10 10:44:06,

e7qw4qya@bccto.cc

Trabajos recientes Ver más trabajos>>

Descripción general de los algoritmos de segmentación de imágenes

e7qw4qya@bccto.cc

Trabajos recientes Ver más trabajos>>

Recomendados
Resumen

Algoritmo de segmentación de imágenes
- 1
e7qw4qya@bccto.cc

Una revisión de los métodos de segmentación de imágenes.

introducción

Segmentación de imágenes: divida la imagen en subregiones separadas y significativas

Píxeles en la misma zona: correlación

Píxeles en diferentes áreas: diferencias

Métodos tradicionales de segmentación de imágenes.

usar:

Pasos de preprocesamiento del procesamiento de imágenes

Obtener información sobre las características clave de la imagen.

Mejorar la eficiencia del análisis de imágenes

Clasificación

Basado en umbrales: método de segmentación de imágenes en escala de grises

Esencia: establezca diferentes umbrales de escala de grises y clasifique el histograma de escala de grises de la imagen (el mismo rango de escala de grises pertenece a la misma categoría y tiene cierta similitud)

proceso:

f(i,j): representa el valor gris de (i,j)

T: umbral de escala de grises

Al comparar el valor de gris del píxel de la imagen con el umbral, se divide en dos partes: objetivo y fondo. La imagen de salida g (i, j) cambia, con un valor de 0 o 1.

1 (objetivo): f(i,j)>=T

0 (fondo): f(i,j)<T

Cuanto mayor sea el umbral T, más píxeles se dividirán en objetivos.

Clasificación:

Método de segmentación de umbral global basado en puntos

Método de segmentación de umbral global basado en regiones

Método de segmentación de umbral local

... ...

Analizado:

Situaciones aplicables:

El nivel de gris objetivo se distribuye uniformemente y cambia poco

La diferencia en escala de grises entre el objetivo y el fondo es obvia.

ventaja:

Sencillo y fácil de implementar

eficiente

insuficiente:

Solo se considera el valor de gris del píxel en sí, y no se considera información de características como la semántica de la imagen y el espacio.

susceptible al ruido

No es ideal para imágenes complejas.

Aplicaciones prácticas:

Método de preprocesamiento

Úselo junto con otros métodos de segmentación.

basado en el borde

Base teórica: el valor de gris del píxel límite es muy diferente del valor de gris del píxel adyacente.

Proceso: conecte puntos (puntos de borde) con grandes diferencias en el valor de gris de los píxeles adyacentes para formar un contorno de límite

Clasificación:

Método de detección de bordes en serie: primero detecte el punto de inicio del borde, comience desde el punto de inicio y busque y conecte los puntos de borde adyacentes mediante el criterio de similitud

Método de detección de bordes paralelos: uso de operadores diferenciales espaciales para convolucionar plantillas con imágenes

roberts

sobel

Prewitt

Registro

Astuto

... ...

Resumen: en aplicaciones prácticas, el método de detección de bordes paralelos es simple y rápido, tiene un rendimiento relativamente bueno y es el método más utilizado.

Basado en la región

Principio del algoritmo: segmentar según la información espacial de la imagen, clasificar píxeles y formar regiones a través de las características de similitud de los píxeles.

Clasificación

método de crecimiento de la región

Principio: recopile píxeles con propiedades similares para formar un área independiente

proceso:

1. Seleccione un grupo de puntos semilla como punto de partida para el crecimiento (ya sea un solo píxel o un área pequeña)

2. De acuerdo con el criterio de crecimiento, combine el punto inicial y los píxeles cercanos con características similares en el área donde se encuentra el punto inicial.

3. Utilice los nuevos píxeles como puntos iniciales e itere repetidamente hasta que se detecten todas las áreas y dejen de crecer.

Lo esencial

punto de semilla

Método de selección

seleccion artificial

El algoritmo selecciona automáticamente

Criterios de crecimiento (información de características de la imagen)

color

textura

espacio

... ...

Analizado

Ventajas: cálculo sencillo

insuficiente:

1. Sensible al ruido

2. Conduzca fácilmente a vacantes regionales

método de división y fusión

La esencia del algoritmo: división y fusión continuas para obtener cada subregión de la imagen

proceso:

1. Divide la imagen en áreas regulares.

2. Según el criterio de similitud, dividir áreas con diferentes características y fusionar áreas adyacentes con las mismas características hasta que no se produzcan escisiones ni fusiones.

Puntos clave/dificultades

partición inicial

Criterio de similitud de división y fusión

Analizado

Ventajas: mejor efecto de segmentación en imágenes complejas

insuficiente:

1. Cálculo complejo

2. Se pueden traspasar los límites durante la división

Basado en agrupamiento

Principio del algoritmo: junte píxeles con características similares en la misma área, itere los resultados de la agrupación repetidamente hasta la convergencia y finalmente junte todos los píxeles en varias categorías diferentes para completar la división del área de la imagen == segmentación de la imagen

Análisis de ejemplo de algoritmos típicos.

Agrupación iterativa lineal simple SLIC (segmentación de superpíxeles) ==> La segmentación de imágenes se transforma en un problema de agrupación de píxeles

Idea de algoritmo: según la agrupación, los píxeles de la imagen se dividen en bloques de superpíxeles

Pasos del algoritmo:

1. Convierta el mapeo de imágenes en color RGB en una imagen de laboratorio (El espacio del laboratorio conserva un área de color más amplia y proporciona características de color más ricas)

L: brillo

a: rango de magenta a verde

b: rango de amarillo a azul

2. Combine las características de color (L, a, b) y las coordenadas (x, y) de cada píxel en un vector (L, a, b, x, y) para medir la distancia.

Distancia de color entre los píxeles i y j

La distancia espacial entre los píxeles i y j.

Se mide la distancia final.

Distancia máxima de color: tome un número entero [1,40]

Distancia espacial máxima dentro de una clase

Tamaño de bloque de superpíxeles: distancia entre puntos iniciales adyacentes

El número total de píxeles de la imagen.

Suma de bloques de superpíxeles presegmentados

ventaja

Rendimiento estable

Buena robustez

Aplicable: segmentación de imágenes, estimación de pose, seguimiento y reconocimiento de objetivos, etc.

Basado en la teoría de grafos.

Idea de algoritmo: convierta el problema de segmentación en partición de gráficos y complete la segmentación optimizando la solución de la función objetivo

Ejemplos de algoritmos clásicos.

Corte de gráfico

Idea de algoritmo: el problema de corte mínimo se aplica al problema de segmentación de imágenes para segmentar la imagen en primer plano y fondo.

Introducción al algoritmo:

1. Mapear la imagen en un diagrama ST

Gráfico no dirigido G=(V,E) con pesos

V: Conjunto de vértices == vértice correspondiente al punto de píxel de la imagen original

E: Conjunto de bordes == El peso del borde es la similitud entre píxeles

Cada nodo está conectado a los vértices terminales S y T para formar un borde punteado.

El peso del borde punteado del vértice conectado a S es la probabilidad de que el punto sea el objetivo de primer plano.

El peso del borde de la línea de puntos del vértice conectado a T es la probabilidad de que el punto sea el fondo.

Un tipo de borde: el borde formado conectando nodos ordinarios que representan puntos de píxeles entre sí. El otro tipo de borde: el borde entre el vértice terminal y el nodo que lo conecta;

2. Resuelva el problema de minimizar la función de pérdida de energía.

corte: todos los bordes del conjunto de bordes están desconectados: separación del gráfico S-T

corte mínimo: La suma de todos los valores de sus aristas correspondientes en un corte es la más pequeña

3. Encuentre un corte mínimo e itere continuamente

Evaluación, encuentre el valor mínimo de la función de pérdida de energía.

Ventajas: utiliza la información en escala de grises de la imagen y también utiliza la información de límites regionales. A través de la solución más a la derecha, se obtiene el mejor efecto de segmentación.

insuficiente

Gran cantidad de cálculo

Prefiere segmentar imágenes con la misma similitud dentro de la clase.

Corte de agarre

Un corte

... ...

basado en una teoría específica

teoría de la morfología matemática

Supere la influencia del ruido y obtenga imágenes de bordes claras

algoritmo genético

Simular la supervivencia natural del más apto para obtener la solución óptima y lograr una segmentación óptima.

transformada wavelet

modelo de contorno activo

teoría difusa

teoría aproximada de conjuntos

... ...

Método de segmentación basado en el modelo de red de segmentación de aprendizaje profundo.

Red convolucional completa FCN (red convolucional completa): segmentación semántica de imágenes

Idea de algoritmo:

Después de 8 capas de procesamiento de convolución, se muestra el mapa de características para implementar una operación de deconvolución, se clasifica a través de la capa SoftMax y, finalmente, se genera el resultado de la segmentación: múltiples operaciones de convolución El tamaño del mapa de características es mucho más pequeño que la imagen de entrada original. Y muchas características subyacentes se pierden. La información de la imagen, clasificada directamente, afecta la precisión de la segmentación.

El proceso de muestreo ascendente adopta la estrategia Skip.

proceso algorítmico

Combine datos profundos con información superficial y luego restaure la salida de la imagen original para obtener resultados de segmentación más precisos.

Según las diferentes capas de agrupación, se divide en

Resultados de la segmentación del modelo FCN-32

Mapas de características en diferentes niveles.

Convolución: 7 veces

Resultados de la segmentación del modelo FCN-16

Agrupación: 4 veces - capa Pool4

Método de interpolación bilineal--Conv7

Clasificación de muestreo superior después de la fusión

Resultados de la segmentación del modelo FCN-8

Agrupación: 3 veces - capa Pool3

Método de interpolación bilineal: capa Conv7, capa Pool4

Clasificación de muestreo superior después de la fusión

FCN-8: integra más capas de información de características, segmenta para obtener información de contorno más clara y el efecto de segmentación es relativamente bueno.

Evaluación de algoritmos

Puede clasificar imágenes a nivel de píxeles y resolver eficazmente el problema de la segmentación semántica de imágenes.

Se pueden ingresar imágenes de cualquier tamaño.

El primer modelo de red segmentada de extremo a extremo

insuficiente

La red es relativamente grande: no es lo suficientemente sensible a la información detallada de la imagen.

La correlación entre píxeles es baja: el límite del objetivo está borroso

Red de análisis de escenas piramidales PSPNet (red de análisis de escenas piramidales): segmentación semántica de imágenes

pensamiento algorítmico

Integre información contextual, aproveche al máximo el conocimiento previo de las características globales, analice diferentes escenas y logre la segmentación semántica de los objetivos de la escena.

proceso algorítmico

1. Dada una imagen de entrada

2.CNN: Obtenga el mapa de características de la capa convolucional

3. Módulo de agrupación piramidal: recopila características de diferentes subintervalos

4. muestreo superior

5. Concatenar y fusionar las características de cada subregión

6. Formar representaciones de características que contengan información de contexto local y global.

7. Clasificación de convolución y SoftMax de representaciones de características.

8. Resultados de predicción para cada píxel.

Evaluación de algoritmos

Para tareas de análisis de escenas y segmentación semántica: capaz de extraer características globales apropiadas

Utilice el módulo de agrupación piramidal para fusionar información local y global.

Proponer una estrategia de optimización para una pérdida de supervisión moderada.

Desventajas: El manejo de la oclusión entre objetivos no es ideal.

Modelos de la serie DeepLab: modelo de red neuronal profunda, segmentación semántica de imágenes

El núcleo del algoritmo: uso de convolución atroz (el método de jacking en el núcleo de convolución)

Controlar explícitamente la resolución de la respuesta al calcular respuestas características.

Ampliar el campo receptivo del núcleo de convolución

Integre más información de funciones sin aumentar la cantidad de parámetros y cálculos

camino de desarrollo

El primer modelo de DeepLab

Descripción del algoritmo

imagen de entrada

Procesado por una red neuronal convolucional profunda (DCNN) con capas convolucionales atroces: mapa de puntuación aproximado

muestreo ascendente por interpolación bilineal

Presentamos campos aleatorios condicionales (CRF) completamente conectados

imagen de salida

Evaluación de algoritmos

Considere completamente la información global para clasificar con mayor precisión los píxeles del borde objetivo

Elimine la interferencia de ruido y mejore la precisión de la segmentación

Modelo DeepLab-v2

Ampliar atrous como módulo de agrupación de pirámide espacial porosa (ASPP)

Cascada; capa de convolución atroz de múltiples escalas y fusión de mapas de características

Mantenga CRF completamente conectado como posprocesamiento

Modelo DeepLab-v3

Agrupación de convolución: tamaño de imagen reducido 4 veces

Convolución del módulo de 3 bloques: imagen reducida 8 veces

Función de rectificación lineal (ReLU): imagen reducida 16 veces

Agrupación: imagen reducida 16 veces

Procesamiento del bloque 4

Módulo ASPP: Fusión de diferentes convoluciones porosas (número de jacks = 6, 12, 18)

Integración de capa convolucional 1 * 1 y capa de agrupación global: mapa de características reducido 16 veces

Predicción de clasificación: mapa de segmentación

Estructura de codificación y decodificación de modelos DeepLad-v3

Descripción del algoritmo

Parte de codificación: modelo DeepLab-v3

Entrada de parte de decodificación

Mapa de características poco profundas en DCNN

Mapa de características fusionadas ASPP después de la convolución

módulo de decodificación

Convolución: entrada de mapa de características poco profundas

Fusion: mapa de características ASPP mejorado

Salida: mapa de segmentación convolucionado y muestreado mejorado en tamaño original

Evaluación de algoritmos

Distinga claramente los objetivos en primer plano y en segundo plano.

Los bordes del objetivo están claramente definidos

Este modelo permite una segmentación detallada

Máscara R-CNN: segmentación de instancias de imágenes

Origen: Basado en Faster R-CNN

Descripción del algoritmo

Marco de algoritmos

El primer escenario:

Redes de propuestas regionales (RPN): proponer marco de límites de destino candidato

RoIAlign procesa el contenido (RoI) en el cuadro delimitador; el RoI se divide en m*m subregiones

Segunda etapa:

Paralelamente a las tareas de regresión de cuadros delimitadores y clases de predicción: agregue una rama para generar una máscara binaria para cada RoI Es decir, cada RoI se segmenta con FCN y la máscara de segmentación se predice de píxel a píxel.

Fase de entrenamiento: uso de la restricción de pérdida L de múltiples tareas

L = pérdida de clasificación de objetivos, pérdida de tareas de detección, pérdida de segmentación de instancias

Evaluación de algoritmos

Sobre la base de la segmentación semántica, se realiza la segmentación de instancias: detección y posicionamiento precisos de objetivos en primer plano, distinguiendo diferentes individuos de objetivos similares.

Segmentación semántica: identificar el contenido y la ubicación presentes en una imagen

Segmentación de instancias: distinguir diferentes individuos bajo la misma categoría según la segmentación semántica

Mayor precisión de segmentación

Los modelos son más flexibles.

Se puede utilizar para una variedad de tareas de visión por computadora.

Clasificación de objetivos

Detección de objetivos

División de instancias

Reconocimiento de postura humana

... ...

Comparación y resumen del análisis de rendimiento.

Análisis de rendimiento

Conjunto de datos de segmentación de aprendizaje profundo:

PASCAL VOC

MicrosoftCOCO

paisajes urbanos

Analisis cualitativo

Análisis cuantitativo

Segmentación semántica: la relación promedio de intersección y unión mIoU representa la relación de intersección y unión de dos conjuntos. En la segmentación semántica, se refiere al conjunto de valores verdaderos y valores predichos.

Segmentación de instancias: precisión de píxeles PA, que representa la proporción de píxeles clasificados correctamente con respecto al total de píxeles

Resumir

status quo:

La segmentación de imágenes se utiliza cada vez más en tareas de visión por ordenador

La precisión y la velocidad se han mejorado significativamente.

problema:

Falta de conjuntos de datos de segmentación y mucho trabajo de anotación.

La segmentación de objetivos de tamaño pequeño no es lo suficientemente precisa

El algoritmo de segmentación es computacionalmente complejo.

No se puede lograr una segmentación interactiva en tiempo real, lo que dificulta la implementación, aplicación y promoción de la tecnología de segmentación.