De cuando en cuando me encuentro pensando acerca de los grandes principios de los Big Data; es decir, no acerca de Hadoop versus bases de datos relacionales o Mahout versus Weka, sino más bien acerca de la sabiduría fundamental que enmarca nuestra visión de “la nueva divisa” de los datos. Pero quizá el nuevo aceite describa mejor los datos. O tal vez necesitemos una nueva metáfora que explique el valor de los datos.
Las metáforas no son objetivas ni comprobables, pero sí iluminan ciertas verdades acerca de temas de interés. Vuelven entendibles conceptos complejos, muy similar a la serie de citas que he recopilado que se pudiera decir explican principios básicos de Big Data. Les diré ocho verdades sobre los Big Data (de seguro ya ha adoptado al menos algunas de ellas), ordenadas más o menos de forma cronológica. Luego daré un vistazo a una “verdad futura”.
1. “La correlación no es causalidad”
Escuchamos esto una y otra vez (o al menos yo lo escucho). Me aprendí una versión de la falacia implícita cuando estudiaba filosofía en la universidad: as post hoc ergo propter hoc; “después de lo ocurrido, por lo tanto debido a lo ocurrido”.
Puede leer un artículo inteligente en el blog de O’Reilly Radar, “The vanishing cost of guessing” (“El costo fugaz de la conjetura”), donde Alistair Croll hace la observación de que “abrumar las correlaciones es lo que hacen mejor los Big Data… La computación paralela, los avances en los algoritmos y el avance inexorable de la Ley de Moore han reducido de manera dramática el costo del análisis de un grupo de datos”, creando con ello una “sociedad orientada a los datos que es más inteligente y absurda”. ¿La perspectiva? Sea inteligente y respete la diferencia entre correlación y causalidad. Los patrones no son conclusiones.
2. “Todos los modelos están equivocados, pero algunos son útiles”
El estadístico por accidente George E.P. Box escribió esto en su libro de texto de 1987, Empirical Model-Building and Response Surfaces (“Construcción de modelos empíricos y superficies de respuesta”). Box ha desarrollado sus pensamientos sobre modelos, que se aplican ampliamente a los Big Data, a lo largo de su carrera. Vea en particular el artículo “Science and Statistics” (“Ciencia y estadística”), publicado en el Journal of the American Statistical Association en diciembre de 1976.
3. Los Big Data lo saben (casi) todo
Si aún no lo ha hecho, es tiempo de aceptar la afirmación que hiciera Scott McNealy en 1999: “De cualquier forma no tiene privacidad alguna… Ya supérelo”. McNealy fue cofundador y CEO de Sun Microsystems, citado en la revista Wired. Los ejemplos de la creciente invasión de los Big Data son numerosos: la capacidad de los analistas de inferir el género y la orientación sexual de las personas a partir de sus publicaciones sociales y patrones de compra; la continua expansión de vastos almacenes de información de consumidores comercializados que alojan Acxiom y otros similares; el ascenso de la síntesis de información Palantir y Riot; la aspiradora NSA Prism.
4. “El 80% de la información relevante para los negocios se origina de forma no estructurada, principalmente como texto (pero también como video, imágenes y audio)”
5. “No es sobrecarga de información; es falla de los filtros”
Clay Shirky hizo esta observación en la Expo Web 2.0 de septiembre de 2008 en Nueva York.
No hay comentarios:
Publicar un comentario