La IA ya nos engaña con las voces: el humano no detecta los "deepfakes" de audio
El DJ David Guetta sorprendió al público al realizar una colaboración inesperada durante uno de sus sets: la voz de Eminem comenzó a sonar junto a su melodía. O, como lo describió el artista francés, "Em-AI-nem". La gente bailó con energía renovada por la adrenalina del momento. Sin embargo, lo que parecía ser un éxito perfecto resultó ser una trampa elaborada, ya que la voz de Eminem no era real, sino un 'deepfake' generado por inteligencia artificial (IA).
Los 'deepfakes' de vídeo e imagen han sido un problema durante mucho tiempo para los medios, las autoridades y las celebridades, debido a su potencial para difundir noticias falsas. Todos recordamos imágenes virales de supuestas detenciones de Donald Trump, fotos manipuladas del Papa Francisco con atuendos extravagantes o vídeos falsos del presidente Zelenski animando a las tropas ucranianas a rendirse.
Sin embargo, hay otra categoría de 'deepfakes' que ha pasado desapercibida, a pesar de tener el mismo potencial para dañar reputaciones, provocar ciberataques o vulnerar los derechos de autor: los 'deepfakes' de audio.
Estas falsificaciones de audio se generan mediante modelos de aprendizaje automático que imitan el habla de personas reales o incluso crean voces únicas. Las herramientas para crear imitaciones de voz han mejorado rápidamente, al igual que los generadores de texto, como ChatGPT, lo que genera preocupación por el uso malicioso de esta tecnología.
Por ejemplo, ya se ha utilizado para engañar a banqueros y autorizar transferencias de dinero fraudulentas. En 2020, un ciberdelincuente estafó 35 millones de dólares al director de un banco en Emiratos Árabes Unidos, haciéndose pasar por un cliente durante una llamada telefónica mediante un 'deepfake'.
En un estudio realizado por el University College de Londres, con más de 500 participantes que debían diferenciar entre imitaciones de voz y audios reales en inglés y mandarín, se encontró que los sujetos solo pudieron detectar imitaciones profundas del habla en un 73% de las ocasiones. Incluso cuando algunos participantes recibieron ejemplos de imitaciones de voz para entrenar su capacidad de detección, esto no influyó significativamente en su precisión. Los expertos en ciberseguridad advierten que cada vez será más difícil discernir entre la realidad y la ficción debido al avance de estas técnicas de IA.
Una gran parte de los humanos no distingue 'deepfake' de audios
En vista de estos resultados, los investigadores concluyeron que no es realista entrenar a las personas para detectar falsificaciones de voz, y que el enfoque debe estar en mejorar los detectores automáticos. Sin embargo, algunos expertos son escépticos y creen que la batalla entre la IA y los detectores también será una competición constante, donde la IA más avanzada ganará. Es fundamental invertir más recursos en investigaciones para mejorar los sistemas de detección y abordar esta problemática de manera proactiva.
Los ataques dirigidos a figuras públicas son considerados especialmente peligrosos. Estos personajes públicos tienen una gran cantidad de material de voz disponible en entrevistas, ruedas de prensa, conferencias y películas, lo que los convierte en objetivos principales de los 'deepfakes' auditivos. Los expertos hacen un llamado a la precaución y a la concienciación sobre la existencia de estas falsificaciones auditivas, que pueden afectar a cualquier individuo. La amenaza es real y debe ser abordada con seriedad.