¿Qué tan grande es el Big Data?*

English versión: http://wp.me/paT7tX-3m

 

Según un artículo de la revista Methodology, el big data se relaciona con la ciencia social computacional y tiene tres características. La primera es que implica una gran cantidad de datos de tal magnitud que las bases de datos convencionales no pueden manejar. La segunda es que cada vez es más importante desarrollar técnicas especializadas en el manejo de estos datos. La última característica es la simulación basada en agentes, algo que es muy popular en ciencias sociales.

La simulación basada en agentes es una forma innovadora de explorar los fenómenos sociales. Se trata de un método de investigación que nos permite tratar de manera sencilla la complejidad, la emergencia y la no-linealidad de los fenómenos sociales. La creación de estas técnicas, en especial las de re-muestreo y las de validación cruzada suelen ser útiles porque facilitan el procesamiento de datos para el investigador, quien evalúa los datos en un análisis estadístico y garantiza que sean independientes de la partición entre datos de entrenamiento y datos de prueba.

Para aclarar el concepto, el autor pregunta qué tan grande es el big data. Esto es una incógnita que se responde de forma muy subjetiva. Jhon Tukey definió “big data” como algo que no cabe en un dispositivo, pero es una respuesta muy subjetiva porque en el desarrollo de la tecnología hemos tenido muchos tipos de dispositivos, desde una cinta magnética en 1955 con una capacidad de 256 gigabytes hasta una USB de 2 Terabytes.

Aunque la medida del big data no sea exacta, podemos hacer un conteo del tamaño de los datos que se introducen. En el artículo hay un ejemplo: “los datos de rastreo de bucles de tráfico, también recopilados por Statistics Netherlands, producen 80 millones de registros por día. Un año de datos sería de aproximadamente 3 TB y solo cabría en un disco duro grande”. Esto nos da una idea del gran tamaño del big data.

Las ciencias sociales usan el big data porque la sociedad va dejando un mayor rastro digital que después es analizado para hacer inferencias sobre los comportamientos de las personas. El rastro digital en datos económicos pueden ser los mensajes de Facebook o Twitter, las listas de discusión en Internet, los teléfonos móviles, la ubicación, las llamadas, etc. Todos estos datos son recopilados para ser analizados.

Bibliografía

Donoho, D. (2017). 50 Years of Data Science. Journal of Computational and Graphical Statistics, 26(4), 745-766. https://doi.org/10.1080/10618600.2017.1384734

Hox, J. J. (2017). Computational Social Science Methodology, Anyone? Methodology, 13(Supplement 1), 3-12. https://doi.org/10.1027/1614-2241/a000127