• 10/11/2024

La revolución de la visión por computadora: ¿qué pasa en la Argentina y el mundo?

El avance vertiginoso de la visión por computadora, marcado por la introducción de modelos como GPT-4V, inauguró una revolución tecnológica
26/12/2023 - 12:06hs
La revolución de la visión por computadora: ¿qué pasa en la Argentina y el mundo?

El campo de la visión por computadora ("computer vision", en inglés) progresa a pasos agigantados. Los avances son un hecho y los podemos encontrar en cualquier ámbito.

Los últimos modelos de cámaras de seguridad disponibles en la Argentina, para instalar en nuestros hogares o lugares de trabajo, tienen un componente de inteligencia artificial (IA).

Esto permite diferenciar personas conocidas de las desconocidas y configurar alarmas para que nos alerten de una posible intrusión. ¿Cómo lo logra? El dispositivo visualiza el rostro y lo compara con fotos de personas que, previamente, se configuran como "confiables".

Lo qué está pasando hoy en el mundo de la visión por computadora tiene relación con la revolución de los modelos multimodales grandes (LMM, sigla en inglés). La empresa OpenAI sorprendió a todos en marzo con el lanzamiento de GPT-4, por su mejora en la inteligencia, con más datos de entrenamiento y parámetros soportados, y por sus capacidades multimodales.

Se trató del puntapié inicial. Hace unas semanas se habilitó esta funcionalidad en las aplicaciones móviles y web de ChatGPT para las cuentas plus. El modelo de vision de GPT4 se llama GPT-4V (Visión) y es un cambio de paradigma en el mundo de la visión por computadora.

En esta línea, la transformación que presenciamos es monumental. El diferencial está en el uso de estos grandes modelos que gestionan el lenguaje y además la visión. Esto nos abre un abanico enorme de posibilidades que hoy aún no llegamos a comprender o no estamos explotando.

ChatGPT es un desarrollo de la empresa OpenAI.
ChatGPT es un desarrollo de la empresa OpenAI.

Sin embargo, debemos pensar en cómo ofrecer soluciones para las empresas y las personas de todo el mundo apoyándonos en esta tecnología. Hace unas semanas que tenemos habilitado su uso en la aplicación ChatGPT de OpenAI.

Estará disponible seguramente para su explotación comercial en las API (sigla en inglés por interfaz de programación de aplicaciones) de la plataforma en los próximos días o semanas, aunque no pusieron fecha, y es ahí donde las oportunidades estarán al alcance de cualquiera.

Las tendencias próximas en la visión por computadora

Aunque GPT-4V es pionero en este cambio, no será el único protagonista durante mucho tiempo. Existe un modelo de fuente abierta (open source), llamado asistente de lenguaje y visión grande (LLaVA, sigla en inglés). También hay que estar atentos a lo que vendrá próximamente con Gemini de Google.

La Argentina cuenta con referentes de tecnología a nivel mundial y una gran masa de buenos ingenieros de software para impulsar cualquier solución que requiera la combinación de la viisión por computadora y la inteligencia artificial generativa. Este cambio de paradigma es aún reciente y existe un amplio terreno para explorar.

Las posibles aplicaciones en la Argentina pueden ser tan amplias como nuestra imaginación lo permita. Por ejemplo, en la medicina, las imágenes radiológicas requieren una interpretación precisa para el diagnóstico médico.

Su aplicación puede ir desde la asistencia en diagnósticos rápidos de urgencia, hasta el apoyo a los radiólogos en sus análisis. Se puede utilizar en radiografías de abdomen, de rodilla, muñeca, entre otras posibilidades.

Google lanzó este año su servicio Gemini.
Google lanzó este año su servicio Gemini.

También podría ser aplicado para la dermatología, donde las imágenes también cumplen un rol muy importante en los diagnósticos y seguimientos de tratamientos de psoriasis, dermatitis, eccema, cáncer de piel, etc.

El principal aporte que puede dar en esta industria es la rapidez y eficacia. El veloz análisis de la inteligencia artificial con LMM es capaz de proporcionar resultados preliminares instantáneos, lo que contribuye a una toma de decisiones más rápida, especialmente en casos de emergencia.

También puede aumentar en forma significativa la eficiencia del médico humano supervisor al acelerar las lecturas y descargar algunas tareas administrativas como el dictado de informes y la facturación.

En cualquier industria donde exista un proceso de fabricación, la detección de defectos es un paso esencial en los procesos para garantizar la calidad del producto. La detección de fallos o defectos a tiempo y tomar las medidas adecuadas es vital para minimizar los costos operativos y los relacionados con la calidad.

Las aseguradoras podrían trabajar con imágenes de siniestros y poder preprocesar los casos de sus clientes, con la elaboración de informes o derivar a los expertos con una evaluación previa y análisis de daños del evento denunciado. Se mejora así la experiencia del asegurado y agrega eficiencia al negocio de la aseguradora.

En la Argentina, los retails proveen las cajas de auto-servicio, donde los clientes escanean los productos para realizar el pago. Esto permite agilizar el proceso de pago a los clientes y reducir la carga de trabajo de los empleados.

Damián García.
Damián García.

Esta instancia requiere que los clientes utilicen un sistema, el cual tienen que manejar código de barras o introducir manualmente según algún producto, por ejemplo al pesar verduras o frutas.

Dada nuestra idiosincrasia, en muchos retails incluso tienen personas que aseguran que no existan inconsistencias entre el ticket y lo que se lleva el cliente. Con la implementación de los LMM, se podría crear un sistema automático de auto-facturación capaz de identificar y registrar los artículos sin intervención de nadie.

Se trata de algo que Amazon hace en sus tiendas de autoservicio en los Estados Unidos desde hace tiempo, lo que permite una validación de seguridad, una reducción efectiva del trabajo de validación de un empleado y una mejora en la experiencia de los clientes.

En resumen, el avance vertiginoso de la visión por computadora, marcado por la introducción de modelos como GPT-4V, inauguró una revolución en la convergencia de lenguaje y visión.

Este cambio paradigmático, aunque incipiente, promete transformar múltiples industrias. Con su destacado talento tecnológico, la Argentina se encuentra en una posición privilegiada para liderar la aplicación de estas innovaciones, abriendo nuevas oportunidades para empresas y profesionales.

(*) Jefe de entrega de software en Devify de Ingenia.