Al ser un concepto relativamente nuevo, hay algo de confusión acerca de lo que es y lo que no es un lago de datos (Data Lake). Partamos primero de una definición clara de lo que es un lago de datos para después revisar algunas ideas que hacen que muchas personas estén confundidas con lo que es o no es un lago de datos.
¿Qué es un lago de datos?
Un lago de datos es un almacén que contiene una gran cantidad de datos en bruto en sus formatos nativos, y que permite a los usuarios acceder fácilmente a grandes volúmenes de datos estructurados (filas y columnas), semiestructurados (CSV, registros, XML, JSON), y datos no estructurados (correos electrónicos, documentos, archivos PDF), según sea necesario.
La idea principal de un lago de datos (Data Lake), es tener un almacén centralizado con todos los datos de la empresa, que permita que partiendo de datos brutos (datos primarios), estos puedan ser transformados cuando sea necesario para utilizarlos en informes, visualización, análisis y machine learning.
3 ideas erróneas asociadas a un lago de datos (Data Lake)
Las siguientes ideas son mencionadas algunas veces cuando se habla de lago de datos, provocando cierta confusión:
1. Un lago de datos es una tecnología
Un lago de datos es más un paradigma o modelo que una tecnología. Este paradigma surgió al comprobar que manteniendo y procesando datos de diferentes tipos y formatos en un mismo lugar, especialmente cuando se trata de datos no estructurados de toda una organización, es posible encontrar información que no es posible derivar de fuentes de datos individuales. El lago de datos ayuda a las organizaciones con sus proyectos de big data al allanar el camino para descubrir ideas nuevas y accionables.
2. Un lago de datos ofrece información por sí mismo
Un lago de datos debe ser utilizado por profesionales que entiendan perfectamente la realidad detrás de los procesos de negocio. Además, funciona mejor cuando se utiliza junto con un conjunto de herramientas de procesamiento, consulta, transformación y visualización. Esto significa que las organizaciones necesitan tener acceso a un paquete de herramientas de software y hardware adecuado y tener también un grupo de personas con el talento necesario para aprovechar al máximo los beneficios del lago de datos.
A medida que aumenta la complejidad de las consultas, las herramientas y tecnologías necesarias cambian. Por eso es importante abordar el funcionamiento del lago de datos con procesos ágiles, tanto desde una perspectiva técnica como empresarial.
3. Un lago de datos es solo para científicos de datos
La falta de personal cualificado con conocimiento suficiente en la arquitectura y despliegue de proyectos open source de big data, se menciona a menudo como uno de los impedimentos más importantes para aprovechar nuevos paradigmas y tecnologías. Sin embargo, cuando te detienes a examinar las habilidades necesarias para operar un Data Lake, te das cuenta que tu equipo ya las tiene cubiertas o las puede aprender rápidamente. Estos son los requisitos tanto para crear como para operar un lago de datos (Data Lake):
- Para crear y mantener un lago de datos necesitas un equipo que
- Conozca todas las fuentes de datos disponibles en el negocio.
- Pueda tener acceso a estas fuentes de datos y configurar rutinas de importación.
- Tenga una buena comprensión del conjunto de herramientas disponibles para el análisis de los datos disponibles.
- Para operar los datos reales a través de las herramientas asociadas, se requiere un equipo que
- Tenga una comprensión exacta de los procesos de negocio en varios departamentos.
- Conozca las herramientas disponibles para transformar, procesar y analizar los datos.
- Tenga una buena comprensión de la ciencia de los datos, las estadísticas o las matemáticas.
- Tenga algo de experiencia en programación algorítmica: Python, Java y Scala son los frameworks más utilizados.
A modo de conclusión
Un lago de datos es mucho más que una nueva herramienta tecnológica. Puede preparar el camino de una nueva visión, una mejor toma de decisiones, mejores servicios e incluso acelerar el crecimiento empresarial. Es capaz de proporcionar una ventaja competitiva y tiene el potencial de revolucionar la iniciativa estratégica dentro de las organizaciones. Construir un Data Lake no es trivial, pero la recompensa merece el esfuerzo.
Para obtener más información sobre este tema, lea el documento gratuito “Data Lake: Superando las limitaciones del Data Warehouse”
Colaboración en alianza con Colombia Digital:
Power Data
Soluciones de gestión de datos