La revolución en la edición de imágenes con SAM de Meta

La capacidad de identificar objetos, personas o cualquier cosa de interés en una imagen se conoce como segmentación. Para que entiendas su importancia, piensa por un momento en los automóviles autónomos y cómo identifican cada persona, árbol y otros vehículos en la calle. Recientemente, Meta presentó un nuevo modelo de IA llamado SAM (Segment Anything Model) el cual puede realizar segmentación por aviso. Lo que significa que puede identificar cualquier cosa siguiendo una orden explícita.

En este artículo, explicaremos la importancia de la segmentación por aviso y cómo esta IA aborda este desafío.

Meta lanza SAM, una IA que impulsa la visión artificial

Como modelo de inteligencia artificial, brinda una capacidad futurista: puede detectar y “segmentar” varios elementos en una imagen o video. Incluso aquellos que nunca ha visto. Esto evidencia un avance significativo en la capacidad de las IA para comprender el mundo usando visión artificial.  Gracias al poder alcanzado, los usuarios pueden seleccionar objetos a través de tocarlos o escribirlos en mensajes de texto.

En este ejercicio la segmentación es el proceso de separar un objeto de su fondo o de otros objetos. Es de esta manera como se logra crear una máscara que perfile su forma y sus límites. Como modelo, SAM ofrece tareas de edición, composición, seguimiento, reconocimiento y análisis, logrando que sean más fáciles.

Por ejemplo, en una demostración simple de su utilidad se escribió la palabra “gato”. Luego se pudo evidenciar como la herramienta generó recuadros alrededor de los gatos en una imagen. Sumado a este poder de reconocimiento, el lanzamiento incluye un conjunto de datos que ayudará a impulsar modelos básicos para la visión por computadora.

Características que lo hacen diferente

Como modelo, SAM se diferencia de otras IA bajo el objetivo de segmentación de varias maneras. Veámoslas.

SAM recibe órdenes a través de prompts

Un prompt es una orden o comando escrito. Esto significa que SAM puede tomar varias de estas órdenes y especificar con puntos o cuadros, qué objeto segmentar.

Por ejemplo, se puede dibujar un cuadro alrededor del rostro de una persona. En consecuencia, el modelo generará una máscara para el rostro. También se pueden recibir varios prompts para segmentar varios objetos a la vez. Igualmente, el modelo puede manejar escenas complejas con reflejos y sombras.

Está altamente entrenado

Al igual como sucede en otras IA, como ChatGPT, el modelo tiene su fuerza en un enorme conjunto de datos que la entrenan. 11 millones de imágenes y 1.1 mil millones de máscaras, que es considerado el conjunto de datos de segmentación más grande hasta la fecha. En esta base de datos se cubren una amplia gama de objetos y categorías, como animales, plantas, vehículos, muebles, alimentos y más.

Confiable y autogestionado

Esta IA tiene una tendencia a generar cero disparo en una variedad de tareas de segmentación. Esto significa que puede segmentar objetos sin ningún entrenamiento adicional o ajuste fino en una tarea o dominio específico. Por ejemplo, puede segmentar rostros, manos, cabello, ropa y accesorios sin ningún conocimiento o supervisión previos.

Posibles usos que le podrás dar a SAM

Se utilizará principalmente en la edición de imágenes y videos, así como en el diseño, incluyendo el diseño de interiores. Sin embargo, el modelo tiene la capacidad de aplicarse en cualquier campo que requiera la identificación y segmentación de objetos en imágenes.

Incluso podría ser utilizado para comprender el contenido visual y de texto en una página web. En cuanto a los casos de uso más avanzados, SAM podría ser aplicado en AR/VR, permitiendo al usuario seleccionar objetos simplemente mirándolos y levantándolos en 3D.

Ahora entre otros usos que podría tener se encuentran:

  • Transporte: su capacidad para identificar objetos en una imagen podría ser utilizada en la navegación de automóviles autónomos. De esta manera podrán detectar y evitar obstáculos con mayor precisión.
  • Salud: en la medicina ayudaría a la identificación de anomalías en imágenes de resonancia magnética. También en la segmentación de órganos en imágenes de tomografía computarizada.
  • Agricultura: serviría para identificar y segmentar cultivos en imágenes satelitales. Además, ayudaría a los agricultores a monitorear y optimizar el crecimiento de los cultivos.
  • Publicidad y marketing: se utilizaría para identificar y segmentar objetos en imágenes y videos, permitiendo una publicidad más efectiva y personalizada.

Finalmente, te preguntarás, ¿cuándo podrás utilizar esta tecnología? La respuesta es ahora mismo. Se puede utilizar con una licencia no comercial y los usuarios que suban sus propias imágenes tendrán que comprometerse a utilizarlo únicamente con fines de investigación. Para probarla, ingresa a este enlace de GitHub.

Si deseas tener más información sobre el proyecto Segment Anything de Meta puedes consultar el sitio web oficial.

RELACIONADOS

Escalabilidad de red: ¿Qué es y cómo alcanzarla?

Vivimos en una era en la que las demandas tecnológicas crecen exponencialmente. Desde el aumento de dispositivos conectados hasta la expansión de las aplicaciones...