Estudio de Segmentación de Imágenes
Entender clasificación a nivel de pixel
Comparar segmentación semántica, de instancia, panóptica
Aprender fundamentos de U-Net y Mask R-CNN
Aplicar segmentación a imágenes reales
Estudio de Segmentación de Imágenes
Domina segmentación semántica, de instancia y panóptica
Guía de Aprendizaje
Elige tu estilo de aprendizaje
¿Qué Hace?
Implementa segmentación semántica, instancia y panóptica. Demuestra arquitecturas encoder-decoder (U-Net, DeepLab), convoluciones atrous, skip connections. Clasificación pixel a pixel con manejo de desbalance de clases.
¿Cómo Funciona?
- 1Semántica: predecir clase para cada píxel → salida (H, W, num_clases)
- 2Instancia: distinguir objetos individuales de misma clase (persona_1, persona_2)
- 3Panóptica: semántica (stuff) + instancia (things) unificada
- 4U-Net: encoder (downsampling) → cuello de botella → decoder (upsampling) con skip connections
- 5Convolución atrous: filtros dilatados agrandan campo receptivo sin reducir resolución
- 6Loss: cross-entropy + Dice loss para desbalance de clases, ponderado por frecuencia inversa
Analogía Simple
Segmentación es predicción densa: cada píxel obtiene etiqueta. Skip connections de U-Net preservan detalle espacial perdido durante downsampling. Convoluciones atrous = campo receptivo más ancho sin perder resolución.
Concepto Clave
Semántica: clasificación a nivel píxel. Instancia: segmentación a nivel objeto. Panóptica: ambas unificadas. Imagenología médica usa U-Net (alta precisión), conducción autónoma usa PSPNet/DeepLab (tiempo real).
Conceptos Fundamentales
Semántica vs Instancia vs Panóptica
Semántica: todas personas = mismo color. Instancia: persona_1 ≠ persona_2 (colores distintos). Panóptica: stuff (semántica) + things (instancia).
Skip Connections de U-Net
Concatenar features de encoder con features de decoder. Preserva info espacial de alta resolución perdida durante downsampling.
Dice Loss
Dice = 2×|pred∩gt| / (|pred|+|gt|). Robusto a desbalance de clases. Usado en segmentación médica (tumores pequeños vs fondo grande).
Aplicaciones del Mundo Real
Imagenología Médica
Segmentar tumores, órganos, vasos sanguíneos en escaneos MRI/CT. U-Net logra 95%+ puntaje Dice en segmentación de órganos.
Conducción Autónoma
Segmentar carretera, marcas de carril, peatones, vehículos. Segmentación panóptica en tiempo real (30 FPS) para entendimiento de escena.
Imagenología Satelital
Segmentar uso de tierra: bosques, agua, áreas urbanas. Monitorear deforestación, expansión urbana desde datos satelitales.
Pruébalo Tú Mismo
Comparación de Tipo de Segmentación
Misma imagen: semántica (todas personas mismo color), instancia (cada persona color distinto), panóptica (cielo semántico, personas instancia).
Demo de Desbalance de Clases
Tumor pequeño (1% píxeles), fondo grande (99%). Cross-entropy falla, Dice loss tiene éxito.
Errores Comunes a Evitar
❌ Sin skip connections
¿Por Qué? Decoder no puede recuperar detalles espaciales. Siempre usar skip connections (estilo U-Net).
❌ Ignorar desbalance de clases
¿Por Qué? Modelo predice clase mayoritaria (fondo). Usa Dice loss o pesos de clase.
Leyenda de Clases
Background
ID: 0
Road
ID: 1
Car
ID: 2
Tree
ID: 3
Semántica
Clasifica cada píxel en clases (cielo, camino, auto). Misma clase = mismo color, aunque sean múltiples objetos.
Instancia
Separa instancias individuales de objetos. Dos autos = colores diferentes, aunque sean misma clase.
Panóptica
Combina semántica (stuff: cielo, camino) + instancia (things: autos, personas). Lo mejor de ambos.
Arquitectura U-Net
Encoder-decoder con skip connections. Encoder extrae características, decoder escala a resolución original.
Métrica IoU
Intersection over Union por clase. IoU > 0.5 = aceptable, IoU > 0.7 = buena segmentación.
Imágenes Médicas
Segmentar tumores, órganos, tejidos. Crítico para planificación de cirugía y diagnóstico.