¿El que maneje mejor el Big Data gana la elección?: verdades y mitos del "cuco" tecnológico
Redes sociales como Facebook e Instagram son enormes minas de información sobre los votantes de las próximas PASO y las elecciones nacionales del 27 de octubre a las que acuden los comandos electorales para afinar sus mensajes proselitistas.
Pero además de estos "yacimientos virtuales", hay otras fuentes indispensables de información: los escrutinios de las elecciones de 2015 y 2017 y la encuesta permanente de hogares del INDEC que permite conocer las características demográficas y económicas de la población.
Semejante volumen de datos no sirven de mucho si no se los interpreta y se cruzan con perfiles y con registros levantados en forma manual en cada barrio. Aquí entra a jugar el big data, entendido como el área científica que se encarga del estudio, del procesamiento y de la estimación de los mismos en volúmenes más grandes que los tradicionales.
Se trata de gigantescos "icebergs" de los cuales asoman sólo en superficie aspectos como la identidad del votante, el lugar donde vive, su actividad y sus creencias religiosas.
Debajo de esos registros asoman otros, como, por ejemplo, el gusto musical del votante, sus salidas de esparcimiento, sus viajes, y sus consumos de tarjetas de crédito.
Si bien cualquier definición "es caprichosa y altamente conjetural, big data es el fenómeno de masividad de datos proveniente de la interacción con objetos interconectados, como celulares, redes sociales o tarjetas de crédito", definió ante iProfesional Walter Sosa Escudero, profesor plenario de la Universidad de San Andrés.
Para Mathías Longo, cientista de datos de Retargetly, una plataforma enfocada en audiencias de América latina, big data es el área científica que se encarga del estudio y del procesamiento de esa información "en volúmenes más grandes que los tradicionales".
Longo aclaró a iProfesional que "no existe una especificación unánime, pero la mayoría de los analistas y de los profesionales se refiere a conjuntos que van desde los 30 a los 50 Teras hasta los varios Petabytes".
Si bien la cuestión del tamaño determina la exigencia de desarrollo de tecnología acorde para poder capturar, manipular y almacenar esa dimensión informativa, "lo que más importa es qué hacen las organizaciones con ella. El big data se puede emplear para obtener ideas que conduzcan a la toma de mejores decisiones y a movimientos de comunicación estratégicos", explicó Longo.
Fredi Vivas, profesor e ingeniero en sistemas de información, recordó ante iProfesional que "los datos no son algo nuevo, siempre los almacenamos, aunque la diferencia con la actualidad es que casi todo lo que hacemos deja un rastro digital, como nuestros smartphones con GPS, lo que hacemos en las redes sociales o los sensores de las máquinas que usan Internet de las cosas".
En ese contexto, el término "big data" se refiere, según Vivas, a "la recopilación de todos estos datos y la capacidad para convertirlos en ventajas". Es decir, cómo obtener 'insights' que permitan tomar mejores decisiones y acciones estratégicas.
Su impacto en elecciones
¿Cuánto costará la PlayStation 5, la nueva consola de Sony?
Vivas señaló que algunas acciones que los partidos políticos pueden accionar hoy en día, potenciados por los datos a gran escala, son las siguientes
-Armado de perfiles ideológicos de los votantes, analizando la actividad en redes sociales y páginas web para detectar sus intereses, opiniones, preocupaciones, zonas por donde se mueve y otros comportamientos para poder agruparlos y comunicarse de manera personalizada.
-Buscar la forma más directa de enviar propaganda electoral, vía mail, teléfono, intentando formular el mensaje más personalizado y eficaz posible.
-Como suele hacerse en marketing, podrían también identificarse las motivaciones del voto, para focalizar en esos intereses puntualmente, por ejemplo poniendo énfasis en los "errores" de otros partidos o los miedos de los ciudadanos.
-Puede usarse también para, una vez extraídas tendencias culturales, gustos e intereses de la audiencia, armar programas políticos que "satisfagan" esas necesidades puntuales de los ciudadanos. Esta técnica de "microtargeting" fue utilizada por ejemplo en Estados Unidos por el candidato presidencial demócrata Barack Obama en 2013.
Para Escudero, "más que la masividad, en varios ámbitos, como una campaña electoral, se explota la naturaleza espontánea de los datos, como encuestas en redes sociales, sensores o análisis de discurso". Los mismos "pueden iluminar acerca de varios aspectos del proceso electoral", recalcó.
"Lo que más resalta no es tanto el tamaño de los datos sino la naturaleza espontánea de los mismos, en contraste con fuentes más tradicionales como las encuestas", señaló Escudero, quien también trabaja como investigador principal del Conicet.
Vivas advirtió que dentro de este fenómeno no entran las "fake news", campañas de noticias falsas que pueden ser usadas para influir en una decisión. "Esto está relacionado con la tecnologías, por supuesto, pero es algo independiente al big data", reparó.
El caso de Obama
Vivas diferenció tres etapas en la aplicación de estas tecnologías, que permiten recopilar, gestionar, analizar grandes volúmenes de información y obtener "insights" valiosos.
"Esto posibilita reinventar la forma en que se generan modelos para identificar y captar a votantes indecisos, haciendo simulaciones para anticipar cuáles serían más proclives a apoyar a un candidato", explicó.
En el caso la campaña de Obama, los primeros pasos se enfocaron en armar una gran base con datos de votantes, combinando registros del Partido Demócrata, encuestas, donaciones de fondos, visitas de voluntarios, contactos por teléfono e interacciones en redes sociales.
Luego de este primer paso, se generaron informes detallados sobre los votantes, para saber cómo y a quién dirigir los esfuerzos de campaña, ordenados por prioridad, así como modelos que predecían su comportamiento de voto en varios escenarios.
Se llegaron a estimar hasta 66.000 veces los posibles resultados de la elección en función de múltiples variables. El último paso, fue convertir todo el resultado de los "analytics" en "insights", permitiendo interpretar en la práctica y generar conclusiones accionables.
"Si estas conclusiones se interpretan de la manera correcta, pueden ser claves para enfocar los esfuerzos", afirmó Vivas.
El trabajo del equipo de big data de Obama permitió promocionar su candidatura en Facebook a una escala jamás realizada hasta ese momento; también, analizar la mejor forma de repartir la inversión publicitaria en los medios, obteniendo una eficacia un 14% mayor que en la campaña anterior.
Separar la paja del trigo
¿Cuáles son los datos relevantes que se necesitan en una campaña? Escudero explicó que, en un contexto electoral, los mismos se presentan "anárquicos y espontáneos, a diferencia de una encuesta sistemática".
"El desafío es intentar darles algún tipo de estructura que permita obtener información relevante, para que no aparezcan sesgos obvios. Un error común es usar métodos estándar para datos espontáneos".
Para Longo, lo "ideal es entender los perfiles de los conjuntos de personas que votan a cada grupo electoral. Para estimar el perfil de dichas personas, se deben considerar diversas variables, tales como disposición geográfica, la distribución demográfica, los intereses o los hábitos de consumo".
¿Y cómo se recolecta esta información? Escudero advirtió que "no tienen ningún mecanismo obvio de generación ni recolección. Por el contrario, requieren de mucha habilidad para encontrarlos, ordenarlos y sistematizarlos".
A diferencia de los provenientes de una encuesta tradicional, que por construcción obedecen a una estructura probabilística fija, que relaciona precisamente a la muestra con una población de referencia, el profesor plenario de la Universidad de San Andrés remarcó que "no hay una población obvia a la que obedezcan los datos, y ese es uno de los grandes desafíos técnicos de este enfoque".
Longo ratificó que las redes sociales son "una de las fuentes más utilizadas para este tipo de estudios, dado que el usuario opina con pocos condicionantes. Además, se puede hacer un análisis de sentimiento y entender lo que le gusta y lo que no de las distintas propuestas".
Sin embargo, el experto de Retargetly afirmó que las redes sociales "no son la única fuente externa para los datos abiertos. También es interesante entender los sitios que navega, las noticias que lee y hasta lo que compra en un supermercado. Todas estas son variables que ayudan a reforzar el entendimiento del perfil de cada usuario".
WhatsApp incluiría una función muy esperada por los usuarios
A sacar jugo
Sobre cómo se convierte esa información en algo valioso para una campaña, Vivas señaló: "Se usan técnicas de 'advanced analytics' y 'data science', que permiten encontrar patrones que serían imposibles de hallar por personas revisando información con métodos tradicionales".
Escudero agregó que "la contraparte del big data son los algoritmos y métodos computacionales y matemáticos que permiten procesar y estudiar este tipo de información. Estos métodos caen dentro del paraguas de 'machine learning', inteligencia artificial y, también de la estadística clásica".
Claro que se trata de un trabajo que no está exento de fallas y equivocaciones. Para Escudero, "el error mas común es usar todo de manera espontánea, como si proviniesen de una encuesta tradicional. En este último caso, existen mecanismos concretos para asociar una muestra con la población. Los famosos 'errores muestrales' de cualquier encuesta son resultado de haber usado un diseño muestral científico. En el caso de big data, es muy difícil medir estos errores muestrales".
Para Longo, "el error más común es generalizar toda la nación sobre la base de un tamaño muestral muy pequeño. Esto lleva a sacar conclusiones apresuradas e imprecisas".
Vivas remarcó que "un error grave" a la hora de usar estas u otras técnicas, es la afectación de la "privacidad y el hecho de ser demasiado intrusivas a la hora de intentar convencer a posibles votantes indecisos para ganar elecciones".
¿El algoritmo Horangel?
El astrólogo Horangel, de 91 años, es famoso en la Argentina por sus vaticinios de todo tipo. ¿Un algoritmo puede emularlo y predecir el triunfo electoral de un candidato?
Escudero lo relativizó: "La política es el resultado de interacciones estratégicas sujetas a muchos factores. Ciertamente, en algunos casos simples pueden asistir en la predicción. El problema de la impredecibilidad en política, economía o deporte no se refiere a falta de datos o de modelos débiles sino a la existencia de fenómenos altamente interactivos".
Sin embargo, Vivas afirmó que "puede predecir y también puede influenciar fuertemente en un proceso electoral".
"Cuando pensamos en esto es inevitable recordar lo que sucedió el año pasado con el caso Cambridge Analytica, que llevó a Facebook a su mayor crisis de reputación, donde se investigó a la empresa por compartir información de cerca de 50 millones de usuarios, para predecir las decisiones de los votantes e influir sobre ellas, a favor de la campaña del presidente Donald Trump".
Longo también sostuvo que un algoritmo "puede" predecir el resultado electoral, "pero no necesariamente su confianza será lo suficientemente grande como para acertar. Por eso es que, en este caso, se trabaja más en entender perfiles y analizar conductas".
"Eso da un estimativo de comportamiento y de planes de ejecución para mejorar las probabilidades de éxito", agregó.