¿Qué nos ofrecen las nuevas tecnologías del mundo de los datos?: claves para enfocarse en lo importante
En los últimos años, el mundo de los datos ha experimentado un auge sin precedentes gracias al desarrollo de nuevas tecnologías. La cantidad de información generada diariamente es cada vez mayor, lo que ha llevado a la necesidad de implementar herramientas que permitan gestionarla de forma eficiente y obtener el máximo provecho de ella, haciéndolo más rápido y con mayor precisión. En este artículo, discutiremos algunos de los avances tecnológicos más recientes en el mundo de los datos, incluyendo conceptos como Modern Data Stack, Data Contracts y Zero ETL.
Empecemos por el principio: qué son los contratos de datos?
Antes de hablar de tecnologías específicas, es importante entender qué son los contratos de datos. En esencia, los contratos de datos son acuerdos entre las partes involucradas en una transacción de datos que establecen los términos y condiciones para el intercambio de información. Estos contratos pueden ser utilizados para definir los derechos de propiedad, la privacidad, la confidencialidad, la seguridad y otros aspectos relacionados con los datos.
Los Data Contracts ayudan a garantizar que los datos sean consistentes y estén disponibles cuando y donde se necesiten. Es por ello que son particularmente útiles en el contexto del Modern Data Stack, ya que ayudan a garantizar que los datos se muevan de manera coherente y cohesiva a través de todas las capas de la arquitectura.
Recientemente, los contratos de datos han provocado una serie de debates en el ámbito de los datos. Si bien algunos creen que es una excelente manera de manejar el problema de la calidad de los datos y, por sobre todo, que son la clave para construir un almacén de datos de nivel de producción y romper el silo entre los productores de datos y los consumidores de datos, otros piensan que solo posicionará a los primeros en contra de los segundos, y algunos otros que matará la innovación. Un ejemplo alentador es el de Andrew Jones, quien al implementarlo en el equipo de GoCardless dejaron de usar los modelos de datos internos y crearon interfaces explícitas entre los generadores de datos y los consumidores de datos, como una API.
Modern Data Stack: la solución que no es todo en uno para la gestión de datos
Se lo suele traducir como "pila o conjunto de tecnologías de datos moderno", como oposición a "plataforma de datos". La diferencia entre una plataforma y una pila es importante, especialmente cuando se trata del bloqueo del desarrollador y de tener la libertad de ensamblar su propia arquitectura y usar los datos exactamente como los desea, sin barreras. El modern data stack se compone de varias herramientas y tecnologías, incluyendo bases de datos de almacenamiento en la nube, herramientas de extracción y transformación de datos, herramientas de aprendizaje automático y de visualización.
Es una nueva forma de estructurar los procesos de gestión de datos y consiste en una arquitectura en capas que permite a las empresas recopilar, almacenar, analizar y presentar datos de una manera más eficiente y escalable a través de un conjunto de tecnologías específicas para cada capa de la arquitectura de datos.
La implementación de un modern data stack tiene sus aspectos positivos como así también sus desafíos. Las ventajas incluyen: mayor escalabilidad de la infraestructura de datos, lo que permite manejar grandes volúmenes de datos y aumentar su capacidad de procesamiento; mayor eficiencia en el procesamiento de datos; mayor variedad para seleccionar la herramienta o base de datos más acorde con el objetivo de negocio; y, eventualmente, las empresas pueden reducir sus costos de infraestructura de datos y de mantenimiento de software y hardware.
Entre los aspectos negativos, encontramos que en un inicio, el costo de implementar un modern data stack puede ser alto, ya que requiere de inversión en tecnologías y herramientas de datos más avanzadas; también puede requerir habilidades y experiencia técnicas específicas que no estén disponibles en la organización; y, por último, su implementación puede ser compleja y requerir una planificación cuidadosa de la integración de múltiples tecnologías y herramientas diferentes.
Zero ETL: simplificando el proceso de integración de datos
ETL (Extract, Transform, Load) es un proceso comúnmente utilizado para integrar datos de diferentes fuentes en un solo sistema. Este proceso implica extraer los datos de diferentes fuentes, transformarlos en un formato común y luego cargarlos en una base de datos. Sin embargo, este proceso puede ser lento y complejo, especialmente cuando se manejan grandes volúmenes de datos.
Zero ETL es una tecnología o enfoque que simplifica el proceso de integración de datos eliminando la necesidad de transformar los datos antes de que se carguen en un almacén de datos. En su lugar, Zero ETL utiliza técnicas de modelado de datos para mapear los datos de diferentes fuentes en un solo formato común. Esto permite que los datos se integren más fácilmente, lo que ahorra tiempo y reduce la complejidad del proceso, por ejemplo para la práctica de Machine Learning.
Los avances tecnológicos en el mundo de los datos continúan cambiando la forma en que las empresas manejan grandes cantidades de información. El Modern Data Stack, los Data Contracts y Zero ETL son solo algunas de las innovaciones tecnológicas más recientes que han surgido para mejorar la eficiencia y la escalabilidad del proceso de gestión de datos. Sin embargo, no siempre todo lo nuevo es lo que cada empresa necesita.
En la materia Inteligencia de Negocio y Analítica de la Maestría en Ciencia de Datos de Universidad CAECE buscamos siempre partir de los fundamentos de la disciplina, explicando los componentes principales de la arquitectura de datos tal como los concibieron los padres del Datawarehouse, Bill Inmon y Ralph Kimball, para habilitar las capacidades analíticas que permitan dar respuesta a los problemas de negocio.
Pero también vamos más allá y profundizamos sobre los nuevos paradigmas y tecnologías, para que el maestrando pueda forjar un pensamiento crítico sobre la evolución socio-técnica de la ciencia de datos y desarrollar así las habilidades requeridas para proponer soluciones analíticas innovadoras, considerando la complejidad actual de los negocios digitales y las formas en que los avances tecnológicos pueden ayudarnos a resolverlo.
Próximamente, estaremos ampliando la oferta de extensión educativa en el marco de la Maestría, con el lanzamiento de la Diplomatura en Cloud Data Computing, en la que profundizaremos en las herramientas que componen el Modern Data Stack y el ciclo de Data-ML-Ops.
(*) Docente de la Maestría en Ciencia de Datos de la Universidad CAECE