Novedades del sitio

Ingerir datos en un lago de datos puede darle indigestión de datos

 
Picture of System Administrator
Ingerir datos en un lago de datos puede darle indigestión de datos
by System Administrator - Wednesday, 2 August 2017, 1:19 PM
Group Colaboradores y Partners

Ingerir datos en un lago de datos puede darle indigestión de datos

Los proveedores de big data empujan rutinariamente la idea de ingerir todos sus datos en un lago de datos. Pero, en muchos casos, hacerlo es un paso innecesario que podría causar problemas de ingestión de datos.

Flujos de clics. IoT. Redes sociales. Las fuentes de datos se han expandido rápidamente en los últimos 10 años. Me río del término big data (grandes datos), porque siempre hemos tenido eso; nombrar un período como la era de los grandes datos tiene tanto sentido como un período de arte, décadas atrás, que fuera etiquetado arte moderno. Sin embargo, ciertamente podemos capturar más datos hoy que nunca.

Ese será el caso hacia delante, también, a medida que las empresas buscan constantemente reunir el mayor número de datos posible para ayudar a mejorar la toma de decisiones. Pero la ingestión de datos es solo el primer paso. La gente suele olvidar que hay una diferencia entre los datos y la información: Los datos son solo una colección de elementos individuales. El desafío sigue siendo cómo crear información útil de los datos entrantes, sin dejar que el proceso de ingesta de datos lo deje sufriendo de indigestión de datos.

Comprender cómo administrar qué es importante para quién puede ayudar a minimizar los problemas de ingestión de datos. En la planificación de su estrategia para la ingestión de datos, no creo que usted tenga que poner todo en un solo lugar para empezar, y luego bifurcarlo a diferentes lugares. Crear un lago de datos no es la única manera.

Los almacenes de datos eran una idea nueva, y tenían algunas ventajas de negocio intuitivas cuando comenzaron a aparecer, al final de los años 80. ¿Una vista única de toda la información corporativa? "Genial", dijo la suite de directores. Sin embargo, la complejidad de tratar de extraer los datos disponibles de los sistemas del día fue una tarea más grande de lo esperado.

Pa-pas vs pa-ta-tas de datos

Hasta el día de hoy, muchos de los primeros defensores del almacén de datos todavía viven cómodamente empujándolo y a otras formas centralizadas de almacenar datos, como el lago de datos, que en realidad es solo un almacén de datos operativos (ODS) con otro nombre. Demasiado a menudo, el mensaje de los partidarios de big data es: ‘¡Necesitamos vaciar todas sus cosas aquí!’, pronunciado mientras ellos dicen estar moviéndose más allá del paradigma de data warehousing.

Simplemente cambiar el nombre no hace eso. También minimiza la mejor parte del movimiento del almacén de datos: el enfoque en los metadatos.

Por ahora, todo el mundo probablemente ha oído que los metadatos son datos sobre datos. Cuando escribo el caracter 9 en un par de campos de datos, podría ser un entero real en uno, mientras que, en el otro, podría representar una letra. Los metadatos nos dan el contexto para saber cuál es en cada caso. También puede ayudar a las organizaciones con entornos de big data a controlar la indigestión y a volver a formas efectivas –y eficientes– de ingerir datos.

Tomemos el ejemplo de un coche que transmite datos a través de la internet de cosas (IoT). Cuando yo era un adolescente, tenía una cosa rara llamada luz de sincronización en mi caja de herramientas. Junto con otros juguetes (OK, herramientas), me permitió mantener el motor de mi coche en buena forma manualmente. Hoy en día, hay docenas de computadoras en un coche, y no hay manera real de afinar completamente el motor sin usar un sistema de diagnóstico. Más al punto, más y más coches están transmitiendo datos operativos a los fabricantes de automóviles con el fin de proporcionar información que puede ayudarles a mejorar el rendimiento y la seguridad.

Bajo el paradigma del lago de datos, los proveedores de Hadoop le venderán verterlo todo en un solo almacén de datos, y luego tratar de averiguar qué hay allí. Aquí hay una simple pregunta: ¿Por qué molestarse?

Cada elemento de datos en su lugar correcto

En una empresa de automóviles, algunos de los datos que se capturan de los vehículos deben ir a un departamento para analizar el rendimiento del motor. Otros datos podrían ir a la gente que se ocupa de las comodidades de la criatura en la cabina, mientras que aún más van a otro lugar para el análisis de seguridad. ¿Por qué todos los datos necesitan ir a un solo repositorio inicial? Los servidores perimetrales con una comprensión de metadatos pueden dirigir datos diferentes a los departamentos apropiados.

Algunos sensores también pueden rastrear datos que se espera sean útiles en el futuro, pero que actualmente no se necesitan. Los dispositivos pueden tener conmutadores para desactivar su transmisión, o los servidores perimetrales pueden eliminar los datos innecesarios en lugar de desperdiciar otros costos de transmisión y almacenamiento en ellos.

Esto no es absoluto. El gran volumen de los datos de conversación procedentes de las redes sociales es un ejemplo de lo que debe ser volcado en un almacén de datos más grande, Hadoop o de otro tipo. Una vez más, sin embargo, piense en ese almacén de datos como lo hace sobre el viejo ODS utilizado para impulsar la fabricación y otros sistemas operativos.

Es solo un vertedero; un lugar al que diferentes aplicaciones pueden acceder para extraer la sintaxis y la semántica de los datos de redes sociales para encontrar información relevante. No hay necesidad de integrar todos los datos con datos de otras fuentes. Solo la información identificada como relevante necesita ser extraída y migrada a otros lugares en una arquitectura de big data.

Sin embargo, en la mayoría de los casos, el crecimiento de la potencia de computación y de las redes, el costo reducido del almacenamiento y los avances en algoritmos analíticos y en las herramientas de inteligencia artificial hacen que no sea necesario poner todos los datos que se recogen en un solo lugar. Deje que cada pieza de datos vaya a tantos lugares como sea posible donde se podría utilizar para obtener información. Depende de los sistemas de nivel superior luego extraer solo la información que se necesita en cada punto y para cada propósito dentro de una organización.

La gran cantidad de datos cada vez más disponibles para las empresas no es una solución en sí misma. Los datos no tienen su propio propósito, están allí sólo para convertirse en información útil. Mientras está ingiriendo datos, no deje que ellos abusen de usted.

Link: http://searchdatacenter.techtarget.com