El MIT crea un algoritmo que detecta los textos que no escribió un humano

El Instituto de Tecnología de Massachussets (MIT), el IBM-Watson Lab y el departamento de procesamiento del lenguaje natural de Harvard han creado una herramienta basada en inteligencia artificial (IA) capaz de detectar qué partes de un texto han sido creadas mediante un algoritmo de inteligencia artificial.

Sus creadores –Hendrik Strobelt, Sebastian Gehrmann y Alexander Rush– la han bautizado como Giant Language Model Test Room (GLMTR) y de momento se encuentra en fase de pruebas y demostración, pero abierta en Internet. Desde esta misma ubicación en la red, se pueden poner a prueba a GMLTR mediante tres textos generados por inteligencia artificial y otros tres escritos por humanos.

También se puede copiar y pegar un texto propio o escribir directamente en la herramienta para que esta analice el texto. Además, sus autores han publicado el código en GitHub para que cualquiera pueda tener acceso a él e implementarlo.

Curiosamente, y tal como explican sus desarrolladores, el principio usado para crear esta inteligencia artificial que detecta a otra inteligencia artificial es el mismo que los generadores automáticos de texto usan para crear textos falsos.

Te puede interesar

¿Cuánto costará la PlayStation 5, la nueva consola de Sony?

Lo que hace este algoritmo es predecir la probabilidad de que una palabra aparezca justo después de la palabra anterior. Los investigadores explican que si un sistema de generación automática de textos "utiliza un modelo de lenguaje y predice palabras muy probables, el resultado parecerá similar al que un human o hubiera elegido en una situación similar, a pesar de no tener mucho conocimiento sobre el contexto".

Obviamente esto abre el camino para usos maliciosos de este tipo de programas, que se pueden usar para generar críticas, comentarios o noticias falsas para influir en la opinión pública.

Para evitar que esto suceda, "necesitamos desarrollar técnicas forenses para detectar los textos generados automáticamente, por la cual cosa suponemos que el texto generado por un ordenador engaña a los humanos al usar las palabras más probables en cada posición.

En contraste, la escritura natural en realidad selecciona con mayor frecuencia palabras más impredecibles, pero que tienen sentido en un contexto determinado. Por tanto, eso significa que si en el texto analizado aparecen palabras demasiado probables, puede que no lo haya escrito una persona", concluyen los investigadores.

El algoritmo del MIT, IBM y Havard marca las palabras en distintos colores. Las más probables en color verde, las algo menos probables en amarillo, las poco probables en rojo y las claramente improbables en púrpura. Cuantas más palabras marcadas en verde y en amarillo tenga el texto más probabilidad hay de que haya sido escrito por una máquina y no por una persona.

Temas relacionados