Big Data Vs Small Data ¿qué llevar a cabo en mi empresa?

Por Guillermo Arlés Monterde En Transformación Digital noviembre 19, 2018

Big Data vs Small Data

El artículo que viene a continuación trata de abordar y asentar algunos aspectos del Big Data que se han podido tocar de manera fugaz en nuestra extensa colección de artículos dedicados a este fenómeno tenológico (Big Data y la cuarta revolución industrial, Ventajas y desventajas del lenguaje de programación R frente a Excel, Proyectos de Customer Analytics: beneficios, barreras y cómo implementarlos, Big Data: privacidad, ética y el valor de los datos) . No te los pierdas si te interesa esta tecnología y si quieres conocer el resultado de la batalla Big Data Vs Small Data 🙂
Saber entender en qué momento hay que llevar a cabo un proyecto de Big Data o por contra, un proyecto de Small Data resulta fundamental y crítico para poder extraer datos adecuados, información de valor y acciones que retornen un beneficio a la compañía. Por lo tanto, en este punto, pueden surgir diferentes preguntas a resolver:

Big Data Vs Small Data

¿Es siempre necesario usar plataformas BigData, o podemos realizar un proyecto “smallData” de la misma manera? ¿Cuándo hay que decidirse por uno o por otro, y qué implicaciones tiene dicha decisión sobre la analítica? En caso de necesidad de BigData, ¿qué plataformas podríamos utilizar para proyectos de Customer Analytics? ¿Qué otros datos estructurados o no estructurados podríamos agregar a nuestros datos transaccionales para mejorar los modelos?

Por todos es sabido que “Big data” es un término que describe conjuntos de datos tan grandes que no pueden ser administrados, gestionados y  analizados por las herramientas más comunes de software de bases de datos. Necesitan un análisis computacional para revelar patrones, tendencias y agrupaciones, relacionado, especialmente en los proyectos de Customer Analytics, con transacciones, el comportamiento y las interacciones humanas.
Por otro lado, el “Small Data”, se define como conjuntos de datos lo suficientemente pequeños en volumen y formato para que puedan ser procesables y comprensibles para las personas sin la necesidad de usar sistemas complejos y muy automatizados. Las pequeñas empresas que valoran implementar una estrategia de análisis de sus datos, primero deberían centrarse inicialmente en el uso de Small Data para generar cualquier información procesable sobre sus clientes para, más tarde, poder madurar su negocio hacia proyectos de Big Data y poder ejecutar modelos prescriptivos y predictivos. Algunos de los aspectos que diferencian el Big Data del Small Data basándonos en las cuatro “Uves” son los siguientes:

– Volumen: siendo prácticos, los modelados de datasets con más de 30-50 millones de filas, no se pueden procesar con infraestructuras comunes, hay que distribuir los procesos en distintos nodos de ejecución.

– Veracidad: mantener la calidad y el gobierno de los datos no exigirá los mismos recursos, tanto humanos como en tiempos. La dimensión de los datos tratados con Big Data requiere un esfuerzo mayor.

– Velocidad: en principio y para sacar el máximo partido, los procesos Big Data necesitan procesar información en tiempo real, los proyectos de SmallData no.

– Variedad: En los procesos de BigData, los datos necesitan ser “codificados” previamente a su procesamiento, prácticamente en tiempo real, en SmallData, los datos, en general, ya están estructurados, o al menos, el paso de datos en bruto a datos codificados no tiene por qué ser en tiempo real.

Big Data vs Small Data

Herramientas de Big Data Vs Small Data

La batalla de Big Data Vs Small Data no tiene vencedores ni vencidos. Es una cuestión de evaluación de datos internos existentes en la empresa, de recursos disponibles y de las  necesidades a corto, medio y largo plazo del negocio.

En cuanto a plataformas y softwares, la pregunta que planteábamos con anterioridad trata sobre qué herramientas actuales soportan procesos de BigData, desde la ingesta de información, pasando por la calidad del dato, la analítica, y el despliegue de los modelos. Y estas plataformas, en las que ya entraremos más a detalle, pueden ser dispares, como Cloudera, Hortonworks, Azure, BlueMix, Sap Hana, Amazon AWS, y otras… Para analítica avanzada, se están utilizando actualmente plataformas como Hadoop, Mongo Db, Apache Spark y tecnologías NoSQL, bien con R, Python o Scala como lenguajes de programación asociados. Estas tecnologías pueden almacenar datos muy detallados y no estructurados. Permite ser utilizado junto a los data warehouse convencionales de una organización, hacer extracciones, transformarlos y realizar procesos ETL o ELT.

Existen otras plataformas como SPSS Modeler, SAS Enterprise Miner o RapidMiner, con su extensión Radoop, para dar el mismo soporte.Son plataformas que hay que tener en consideración si se implantan este tipo de proyectos.

También existen herramientas denominadas como “Customer Intelligence 360º”. Algunas son Oracle de Adobe, HP Haven de HP, SAS, Dynamics 365 de Microsoft… que facilitan con modelos preestructurados altas funcionalidades analíticas, aunque siempre necesitan de alguna parametrización, y preprocesado de los datos.

Cuando nos encontramos ante una compañía que necesita utilizar sus recursos de manera eficiente y no posee una capacidad de inversión media/alta en el área de gestión de los datos, el Small Data es un buen comienzo y puede convertirse en una evolución natural de la empresa hacia el Big Data. Los pequeños conjuntos de datos pueden ser suficientes para resolver muchos problemas y responder a diferentes preguntas de negocio. No siempre es necesario obtener fuentes de datos utilizando Big Data y su coste y esfuerzo en ocasiones, no estará justificado. Algunas herramientas de Small Data podrían ser Excel, Access, softwares a medida… 

La batalla de Big Data Vs Small Data no tiene vencedores ni vencidos. Es una cuestión de evaluación de datos internos existentes en la empresa, de recursos disponibles y de las  necesidades a corto, medio y largo plazo del negocio.

Datos estructurados y no estructurados

Una de las categorizaciones más utilizadas en Big Data son las que se refieren a la estructuración de los datos. En base a esta categorización, los tipos de datos que podríamos añadir a los datos transaccionales internos de la empresa serían:

Estructurados

Los datos estructurados son la información que se encuentra alojada en la mayoría de bases de datos. Archivos de tipo texto que se muestran en filas, columnas con títulos y un etiquetado que permite el acceso de forma sencilla.

– Creados: datos generados por nuestros sistemas de una manera predefinida, como registros en tablas, ficheros, etc.
– Provocados: datos creados de manera indirecta a partir de una acción previa, como valoraciones en restaurantes, hoteles, servicios…
– Dirigido por transacciones: datos que resultan al finalizar una acción previa de forma adecuada como facturas automáticas al realizar una compra offline, recibo por pagos con diferentes sistemas digitales, datos generados en compras online mediante ecommerce…
– Compilados: resúmenes de datos de empresa.
– Experimentales: datos generados como parte de pruebas, test o simulaciones que permiten validar, por ejemplo, si existen oportunidades de negocio, nuevos mercados en los que operar…

No estructurados

Los datos no estructurados son datos en bruto y sin ningún tipo de orden. Por desgracia, no todos los tipos de datos no estructurados se pueden convertir de manera sencilla en un modelo estructurado. Si hablamos de los emails, éstos contienen información como hora de envío, persona a quien se envía, el remitente… Datos que pueden convertirse en estructurados, pero por otro lado, el contenido del mensaje no se segmenta ni categoriza de forma fácil y esto puede ser un problema de compatibilidad y vinculación con un sistema de base de datos relacional.

– Capturados: datos creados a partir del comportamiento de un usuario: información biométrica de pulseras de movimiento, aplicaciones de seguimiento de actividades, datos de geolocalización…
– Generados por usuarios: datos que especifica un usuario: publicaciones en redes sociales, búsquedas en Google, cookies dejadas en actividades en Internet…

Como habrás podido comprobar, en el ámbito de los datos, implementar un proyecto de Big Data o Small Data está íntimamente relacionado con los objetivos de empresa, los recursos disponibles y las necesidades de negocio. Optar por un tipo de sistema de análisis de datos u otro dependerá de la valoración de estos aspectos y de la capacidad y naturaleza en la generación de los datos que afecten a la empresa. Esperamos que este artículo haya clarificado un poco más la duda de cuando aplicar este tgipo de sistemas de gestión y análisis de datos 🙂

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *