¿Cuáles son los errores más comunes en la aplicación de big data en campañas electorales?
En la siguiente entrevista de iProfesional, Walter Sosa Escudero, profesor plenario de la Universidad de San Andrés, investigador principal del Conicet y autor del libro "Big Data" explica qué son los macrodatos y los errores más comunes que se cometen cuando se aplica la inteligencia de datos en una campaña electoral.
-¿A qué se llama big data?
-Si bien cualquier definición de big data es caprichosa y altamente conjetural, big data es el fenómeno de masividad de datos proveniente de la interacción con objetos interconectados (celulares, redes sociales, tarjetas de crédito, etc.)
-¿Qué es y qué no es big data en una campaña electoral?
-Más que la masividad, en varios ámbitos (como una campaña electoral) se explota la naturaleza espontánea de los datos, como encuestas en redes sociales, sensores, análisis de discurso, etc.
¿Cómo recuperar tus fotos borradas en un teléfono con Android?
Todos datos que pueden iluminar acerca de varios aspectos del proceso electoral. Es decir, lo que más resalta no es tanto el tamaño de los datos sino la naturaleza espontánea de los mismos, en contraste con fuentes más tradicionales como encuestas.
-¿Cuáles son los datos relevantes que necesita big data para aplicarse en una campaña electoral?
-Los datos de big data (en el contexto mencionado antes) son anárquicos y espontáneos, a diferencia de una encuesta sistemática. Entonces, el desafío es intentar darles algún tipo de estructura que permita obtener información relevante, para que no aparezcan sesgos obvios. Un error común es usar métodos estándar para datos espontáneos como los de big data.
-¿Cómo se recolectan los datos para alimentar big data en la campaña electoral? Por ejemplo, ¿con rastreos manuales en redes sociales y en bases de datos de todo tipo, como la Encuesta Permanente de Hogares del INDEC?
-Los datos "de big data" (en el sentido de su espontaneidad) no tienen ningún mecanismo obvio de generación ni recolección. Por el contrario, requieren de mucha habilidad para encontrarlos, ordenarlos y sistematizarlos.
A diferencia de los provenientes de una encuesta tradicional, que por construcción obedecen a una estructura probabilística fija, que relaciona precisamente a la muestra con una población de referencia. En big data no hay una población obvia a la que obedezcan los datos, y ese es uno de los grandes desafíos técnicos de este enfoque.
-¿Cómo se convierten los grandes volúmenes de información provenientes de redes sociales en información valiosa para una campaña electoral?
-La contraparte de big data son los algoritmos y métodos computacionales y matemáticos que permiten procesar y estudiar este tipo de información. Estos métodos caen dentro del paraguas de "machine learning", inteligencia artificial y, también la estadística clásica.
-¿Cuáles son los errores más comunes en la aplicación de big data en campañas electorales?
-El error más común es usar datos espontáneos como si proviniesen de una encuesta tradicional. En este último caso existen mecanismos concretos para asociar una muestra con la población. Los famosos "errores muestrales" de cualquier encuesta son un producto de haber usado un diseño muestral científico. En el caso de big data, es muy difícil (cuando no imposible) medir estos errores muestrales.
-¿Un algoritmo puede predecir el triunfo electoral de un candidato?
-En general no. Pero porque la política es el resultado de interacciones estratégicas sujetas a muchos factores. Ciertamente, en algunos casos simples pueden asistir en la predicción. El problema de la impredecibilidad en política, economía o deporte no se refiere a falta de datos o de modelos débiles sino a la existencia de fenómenos altamente interactivos.