Big data. IFCT128PO. José Antonio Castillo Romero
data. ¿Podrías aportar ideas de cómo esta empresa podría recabar información y datos de las personas para adaptarse más a sus exigencias y gustos, y así llegar a más público?
3. Definiciones y bases del big data
TextilTek, S. L. es consciente de esto y, debido a su inexperiencia, ha decidido contratar a un profesional para que se encargue de la gestión del big data de la empresa de una manera más personal que la consultora tecnológica. Además, se encargará de darle formación básica al personal para que de aquí en adelante puedan entender a lo que se enfrentan.
Antes de proceder al estudio del big data, también llamados macrodatos, conviene que aprendas el significado de términos relevantes que envuelven el big data y que todo profesional de la materia debería saber y controlar.
Si bien es cierto que han aparecido importantes conceptos ya en puntos anteriores, conviene extender aún más el glosario, ya que la magnitud que abarca el big data es ciertamente enorme.
Nube de términos utilizados en big data
3.1. Conceptos clave
Como habrás notado, un término que aparece en infinidad de veces es el de datos, ya que es la esencia del big data. Conviene que aprendas algunos términos que definen los tipos de conjuntos de datos creados y otros relacionados con estos, ya que aparecerán en más ocasiones:
1 Algoritmo: conjunto o secuencia de operaciones sistemáticas, lógicas y finitas que permiten realizar un cálculo y encontrar la solución a un problema como, por ejemplo, analizar datos.
2 Analytics: forma en la que una información se puede capturar, procesar y analizar para convertirla en aprendizaje. Este proceso se ejecuta después del data mining.
3 Small data: menor que el big data. Este concepto define un volumen menor de datos con lo que se trabaja.
4 Datos estructurados y no estructurados: los datos estructurados cuentan con una estructura lógica ordenados en columnas y tablas, y es necesario que el sistema conozca el formato de los datos para su guardado, pero son una fuente menor de extracción de información para el big data. Los datos no estructurados o desorganizados, como los e-mail, son una fuente mayor de aprendizaje con fines comerciales para el big data. Además, el sistema los guardará sin una estructura definida, solo como una de datos codificada.
5 Dark data: son datos que si un sistema no está configurado específicamente para leerlos, se considerarán desconocidos.
6 Data cleansing: método por el cual los bancos de datos mantienen su integridad, evitando datos corruptos irrelevantes.
7 Data lake: gran volumen de datos o lago de datos en estado natural, donde el científico de datos o data scientist debe adquirir el conocimiento.
8 Dirty data: conjunto de registros de datos capturados en bruto y sin limpiar.
9 Fast data: datos que deben analizarse en tiempo real, ya que su período de información útil es corto.
10 Slow data: datos con información de larga duración.
11 Medium data: cantidad de datos suficiente para generar conocimiento, pero menor cantidad que el big data.
12 Predictive analytics: análisis predictivo de datos.
13 Deep learning: conjunto de algoritmos destinados al aprendizaje automático.
3.2. El término big data y sus definiciones
Tras una larga lectura de antecedentes y términos, con la finalidad de poder situarte en un contexto adecuado, estamos en posición de definir el big data. Como has visto, el recorrido que tiene detrás es muy amplio y con muchas connotaciones.
Big data ha significado una revolución en todos los campos de la tecnología y los negocios y, por ende, es necesario definirlo con todo lo que ello implica. Seguramente esto provoca que el término signifique muchas cosas y también nada en concreto, ya que su uso es global y está en expansión continuamente.
1 1. Definición base: el big data se puede definir como un conjunto de datos de un monstruoso tamaño que van a superar la capacidad del software existente para poder ser capturados, gestionados y procesados. Estos conjuntos de datos son caracterizados por las llamadas 3 V del big data: volumen, velocidad y variedad.
2 2. Definición según la perspectiva de negocio: el big data se puede entender como la oportunidad que bridan los datos para hacer negocios con ellos, una definición, cuanto menos, oportunista.
3 3. Definición según su dimensión tecnológica: el big data se entiende como una tecnología de información y comunicación en continuo crecimiento y evolución. En esta se introducen las tecnologías concretas que hacen posible esto, como los softwares de almacenamiento y gestión, aunque no es demasiado acertado introducirlos aquí.
4 4. Definición como la revolución del conocimiento: podemos ver el big data como la luz que ilumina todos los datos que han permanecido en la oscuridad, como una forma de eliminar las barreras tecnológicas en cuanto a adquisición de conocimiento. Los datos no solo sirven para justificar hechos, sino para crearlos.
5 5. Definición como una cultura: debido a su incidencia en el mundo, el big data forma parte de nuestra cultura, afectando a la sociedad en su comportamiento y forma de ver la vida.
6 6. Definición como señales: podemos ver los datos como oportunidades de negocio, señales para anticiparse a acontecimientos y obtener ventaja de ellos como, por ejemplo, prevenir enfermedades a través de la investigación o crear estructuras sostenibles en la sociedad.
7 7. Definición como una metáfora: esta visión surge del llamado internet de las cosas. Los seres humanos somos un sensor más que arroja información al planeta y somos parte del sistema nervioso del mismo, y el internet de las cosas representa los cables por los cuales circula la información.
4. Bases de establecimiento del big data
Ya hemos visto que el big data tiene su origen en el uso del data mining de las grandes empresas tecnológicas que surgieron primeramente en Silicon Valley gracias a la invención del transistor de silicio que tras suponer una revolución se crearían empresas tan importantes hoy día como AMD, Intel o Google, además de otras.
Sede de Google en Silicon Valley (© Fotografía: Benny Marty / Shutterstock.com)
Pero no es hasta finales de los noventa cuando nace el World Wide Web o las WWW cuando las empresas se encuentran con un verdadero problema, el de la imposibilidad de explotar estos bastos bancos de datos para potenciar su negocio. El problema realmente no era muy distinto al que habían tenido anteriormente empresas financieras o aseguradoras, pero en este caso el volumen de datos era de dimensión muy distinta y el data mining y los mecanismos de la época eran insuficientes.
Es aquí cuando se empieza a hablar de volumen, velocidad y variedad para referirse