.

Fundamentos de la tecnología Big Data


Una visión general y las herramientas del nuevo paradigma de almacenamiento y gestión de datos masivos

Introduccion

En la era digital actual, la cantidad de datos generados y almacenados está alcanzando proporciones enormes. Este fenómeno, conocido como Big Data, ha transformado la forma en que las organizaciones recopilan, procesan y utilizan la información para obtener perspectivas valiosas y tomar decisiones informadas.
Nuestro mundo se está adentrando cada vez más en un universo donde los datos son el activo más valioso, y comprender el campo del Big Data es esencial para cualquier persona que busque prosperar en entornos empresariales modernos.

Cadenas de valor y áreas del Big Data:

Modelado: Esta área implica el diseño y la estructuración de los datos antes de ser procesados o almacenados. Incluye la definición de esquemas de datos, la identificación de las fuentes de datos relevantes y la creación de modelos de datos para representar la información de manera eficiente.

Ingesta: La ingesta de datos se refiere a la recopilación y captura de datos desde diversas fuentes, que pueden incluir sistemas transaccionales, sensores IoT, redes sociales, registros web, entre otros. Esta etapa implica la extracción de datos en bruto y su preparación para su procesamiento posterior.

Almacenamiento: Aquí es donde se almacenan los datos recopilados de manera segura y eficiente para su posterior procesamiento y análisis. Esto puede implicar el uso de sistemas de almacenamiento distribuido como Hadoop Distributed File System (HDFS), bases de datos NoSQL o almacenamiento en la nube.

Procesado: El procesamiento de datos involucra el análisis y la transformación de los datos almacenados para obtener información significativa. Esto puede implicar operaciones como la limpieza de datos, la agregación, la normalización y la transformación de datos para adaptarlos a los requisitos de análisis posteriores.

Análisis: En esta etapa, se aplican técnicas analíticas para extraer conocimientos y patrones ocultos de los datos procesados. Esto puede incluir análisis estadísticos, análisis de series temporales, aprendizaje automático y otras técnicas de análisis de datos avanzadas.

Visualización: Finalmente, la visualización de datos implica representar la información de manera gráfica o visualmente comprensible para que los usuarios puedan interpretar fácilmente los resultados del análisis. Esto puede implicar la creación de gráficos, tablas, dashboards interactivos y otras formas de presentación visual de los datos.

Definiciones relacionadas con Big Data:

Data Science: Es un campo interdisciplinario que utiliza métodos científicos, procesos, algoritmos y sistemas para extraer conocimientos y comprender los fenómenos basados en datos estructurados y no estructurados. Incluye habilidades en estadísticas, programación, aprendizaje automático y conocimiento del dominio.

Data Analytics: Se refiere al proceso de análisis sistemático de datos para obtener información útil y tomar decisiones informadas. Incluye técnicas de exploración de datos, minería de datos, análisis estadístico y visualización de datos.

Data Mining: Es el proceso de descubrir patrones, tendencias y relaciones significativas en grandes conjuntos de datos utilizando técnicas automatizadas o semiautomatizadas. Esto puede incluir técnicas como clustering, asociación, clasificación y regresión.

Machine Learning: Es un subcampo de la inteligencia artificial que se centra en el desarrollo de algoritmos y modelos que permiten a las computadoras aprender a partir de datos y realizar tareas específicas sin ser programadas explícitamente. Esto incluye técnicas como aprendizaje supervisado, no supervisado y por refuerzo.

Business Intelligence: Se refiere al conjunto de herramientas, tecnologías y procesos utilizados para analizar datos empresariales y proporcionar información que pueda ayudar a tomar decisiones empresariales estratégicas. Esto incluye informes, dashboards, análisis de datos y minería de datos en el contexto empresarial.

Perfiles profesionales relacionados con Big Data:

Chief Data Officer (CDO): Es el ejecutivo responsable de la gestión estratégica y la utilización efectiva de los datos en una organización. Supervisa la estrategia de datos, la gobernanza de datos y las iniciativas de análisis de datos para impulsar el valor empresarial.

Data Manager: Es el profesional encargado de administrar y gestionar los datos de una organización, incluida la recopilación, el almacenamiento, la seguridad, la calidad y la integridad de los datos.

Data Scientist: Es un experto en análisis de datos que posee habilidades en estadísticas, programación, aprendizaje automático y conocimiento del dominio. Utiliza técnicas avanzadas de análisis de datos para extraer conocimientos y tomar decisiones informadas basadas en datos.

Fuentes de datos en entornos Big Data:

Open Data: Se refiere a datos que están disponibles de forma gratuita y que pueden ser utilizados y distribuidos por cualquier persona. Estos datos suelen ser proporcionados por organizaciones gubernamentales, instituciones educativas, organizaciones sin fines de lucro, entre otros, con el objetivo de promover la transparencia y la innovación.

Internet of Things (IoT): Se refiere a la red de dispositivos interconectados que recopilan y comparten datos entre sí a través de Internet. Estos dispositivos pueden incluir sensores, medidores inteligentes, dispositivos portátiles, vehículos conectados, etc. Los datos generados por el IoT son variados y pueden incluir información sobre el entorno físico, el comportamiento humano, el rendimiento de los dispositivos, etc.

Web Semántica: Es una extensión de la World Wide Web que busca darle un significado semántico a los datos en la web para facilitar su comprensión por parte de las máquinas. Esto implica el uso de estándares como RDF (Resource Description Framework) y OWL (Web Ontology Language) para representar y organizar la información de manera estructurada y vinculada.

Diferencias respecto a las tecnologías de datos tradicionales:

Las tecnologías de datos tradicionales se enfrentan a desafíos únicos cuando se comparan con las tecnologías utilizadas en entornos de Big Data:

Tipos de Datos: En entornos de Big Data, los datos pueden ser más diversos en términos de su variedad y complejidad. Esto incluye datos estructurados, semi-estructurados y no estructurados, como texto, imágenes, audio, video, etc.

Flujo de Datos: En el Big Data, los datos pueden generarse a un ritmo mucho más rápido que en las tecnologías tradicionales, lo que requiere soluciones para el procesamiento y análisis en tiempo real de grandes volúmenes de datos en movimiento.

Volumen de Datos: El volumen de datos en entornos de Big Data puede ser significativamente mayor que en las tecnologías tradicionales. Esto puede requerir el uso de sistemas de almacenamiento y procesamiento distribuido para manejar grandes conjuntos de datos de manera eficiente.

Calidad de Datos: La calidad de los datos puede ser un desafío en entornos de Big Data debido a la variedad y complejidad de los datos. Esto puede requerir técnicas avanzadas de limpieza, transformación y validación de datos para garantizar la precisión y la integridad de los datos.

Privacidad de datos: Con el aumento en la cantidad y la variedad de datos recopilados en entornos de Big Data, la privacidad de los datos se convierte en una preocupación importante. Esto requiere el desarrollo de políticas y prácticas sólidas de seguridad y privacidad de datos para proteger la información confidencial.

Tipos de datos: Incluyen datos estructurados (bases de datos relacionales), datos semi-estructurados (JSON, XML) y datos no estructurados (texto, imágenes, videos).

Flujo de datos: Se refiere al movimiento continuo de datos a través de sistemas y redes. Esto puede incluir datos en tiempo real generados por sensores IoT, transacciones en línea, redes sociales, etc.

Volumen de datos: Se refiere a la cantidad total de datos generados y almacenados. En entornos de Big Data, el volumen de datos puede ser masivo, llegando a petabytes o incluso exabytes de datos.

Calidad de datos: Se refiere a la precisión, integridad, consistencia y relevancia de los datos. La calidad de los datos puede verse afectada por diversos factores, como errores de entrada, duplicados, inconsistencias y falta de actualización.

Privacidad de datos: Se refiere a la protección de la información personal y confidencial de los usuarios. Esto puede incluir datos de identificación personal (PII), datos de salud, datos financieros, etc., que deben ser protegidos contra accesos no autorizados y uso indebido.

Para la selección de datos útiles en entornos de Big Data, es importante utilizar estructuras de datos eficientes que permitan almacenar, organizar y acceder a grandes volúmenes de información de manera rápida y eficiente. Aquí tienes una descripción más específica de algunas estructuras de datos utilizadas en este contexto:

Estructuras de datos para selección de datos utiles:

DataFrames: Los DataFrames son estructuras de datos bidimensionales similares a tablas que se utilizan ampliamente en el análisis de datos. Permiten almacenar datos de diferentes tipos en filas y columnas, lo que facilita la manipulación y el análisis de conjuntos de datos estructurados. Pandas en Python y Spark DataFrame son ejemplos populares de implementaciones de DataFrames.

Índices invertidos: Los índices invertidos son estructuras de datos que mapean términos a los documentos en los que aparecen. Son ampliamente utilizados en motores de búsqueda y sistemas de recuperación de información para permitir búsquedas rápidas y eficientes en grandes colecciones de documentos.

Árboles de búsqueda: Los árboles de búsqueda son estructuras de datos jerárquicas que se utilizan para organizar y almacenar datos de manera que las búsquedas, inserciones y eliminaciones sean eficientes. Los árboles de búsqueda binaria, los árboles B y los árboles AVL son ejemplos comunes de árboles de búsqueda utilizados en la selección de datos.

Grafos: Los grafos son estructuras de datos que representan relaciones entre entidades mediante nodos y bordes. Se utilizan en una variedad de aplicaciones, incluidas las redes sociales, la logística y la recomendación de productos, para modelar y analizar relaciones complejas entre datos.

 Hash tables: Las tablas hash son estructuras de datos que utilizan una función hash para mapear claves a valores, lo que permite un acceso rápido a los datos mediante la clave. Se utilizan en la implementación de diccionarios y conjuntos en lenguajes de programación como Python y Java.

Listas enlazadas: Las listas enlazadas son estructuras de datos lineales que consisten en nodos que están vinculados entre sí mediante punteros. Se utilizan para almacenar y manipular colecciones de datos de manera eficiente, especialmente cuando se requiere inserción y eliminación rápida de elementos.

Filtros bloom: Los filtros Bloom son estructuras de datos probabilísticas utilizadas para probar la pertenencia de un elemento a un conjunto de elementos. Son eficientes en términos de espacio y pueden utilizarse para realizar búsquedas rápidas en grandes conjuntos de datos.

Estas son algunas de las estructuras de datos comúnmente utilizadas en la selección de datos útiles en entornos de Big Data. La elección de la estructura de datos adecuada depende de la naturaleza de los datos, los requisitos de la aplicación y los tipos de consultas y operaciones que se realizarán sobre los datos

Ahora bien para la selección de datos útiles en entornos de Big Data, se utilizan una variedad de tecnologías diseñadas para manejar grandes volúmenes de información y extraer conocimientos significativos de manera eficiente. Aquí tienes una descripción más específica de algunas de estas tecnologías:

Tecnologías para la selección de datos utiles:
    
    SQL (Structured Query Language):
SQL es un lenguaje de consulta estándar utilizado para manipular y gestionar datos en bases de datos relacionales. Permite realizar consultas complejas para seleccionar datos útiles según criterios específicos utilizando declaraciones como SELECT, WHERE, GROUP BY y HAVING.
Aunque tradicionalmente asociado con bases de datos relacionales, SQL se utiliza cada vez más en entornos de Big Data a través de soluciones como Apache Hive y Apache Impala, que permiten ejecutar consultas SQL sobre grandes conjuntos de datos almacenados en sistemas de almacenamiento distribuido como Hadoop HDFS.

    Apache Hadoop:
Apache Hadoop es un framework de software de código abierto diseñado para procesar y almacenar grandes volúmenes de datos en clústeres de servidores. Incluye componentes como Hadoop Distributed File System (HDFS) para el almacenamiento distribuido y MapReduce para el procesamiento distribuido de datos.
Hadoop se utiliza para procesar grandes conjuntos de datos y realizar operaciones de selección y filtrado de datos en paralelo a través de múltiples nodos en un clúster de servidores.

    Apache Spark:
Apache Spark es un framework de procesamiento de datos de código abierto diseñado para realizar análisis de datos en memoria y en disco de manera eficiente. Proporciona una interfaz unificada para el procesamiento de datos en lotes, en tiempo real y de streaming.
Spark se utiliza para realizar operaciones de selección y filtrado de datos de manera eficiente utilizando transformaciones y acciones sobre RDDs (Resilient Distributed Datasets) y DataFrames.

    Pandas:
Pandas es una biblioteca de Python ampliamente utilizada para la manipulación y análisis de datos estructurados. Proporciona estructuras de datos flexibles como DataFrames y Series, así como funciones avanzadas para la selección, filtrado y transformación de datos.
Aunque Pandas está diseñado principalmente para el análisis de datos en memoria en conjuntos de datos relativamente pequeños, se puede utilizar en combinación con otras tecnologías de Big Data para el análisis de datos a escala.

    MongoDB:
MongoDB es una base de datos NoSQL orientada a documentos que permite el almacenamiento y la recuperación eficientes de grandes volúmenes de datos no estructurados. Proporciona consultas flexibles y potentes utilizando su propio lenguaje de consulta y operaciones de selección de documentos.
MongoDB se utiliza para almacenar y consultar grandes volúmenes de datos no estructurados, como datos de registros de aplicaciones web, datos de redes sociales, registros de sensores, etc.

Estas son algunas de las tecnologías comúnmente utilizadas para la selección de datos útiles en entornos de Big Data. Cada una tiene sus propias características y ventajas, y la elección de la tecnología adecuada depende de los requisitos específicos del proyecto y las preferencias del usuario.

La aplicación de técnicas de procesamiento masivo de datos ofrece una serie de beneficios significativos, pero también conlleva ciertos riesgos. Aquí hay una descripción detallada de los beneficios y riesgos inherentes a la aplicación de estas técnicas:

Beneficios:

Obtención de información valiosa: El procesamiento masivo de datos permite analizar grandes volúmenes de información para identificar patrones, tendencias y relaciones significativas que pueden conducir a una mejor comprensión de los fenómenos y la toma de decisiones informadas.

Mejora de la toma de decisiones: Al proporcionar información detallada y análisis en tiempo real, el procesamiento masivo de datos puede ayudar a las organizaciones a tomar decisiones más rápidas y precisas, lo que puede mejorar la eficiencia operativa y la competitividad en el mercado.

Personalización y recomendaciones: Las técnicas de procesamiento masivo de datos permiten a las organizaciones analizar el comportamiento del usuario y proporcionar recomendaciones personalizadas y experiencias personalizadas a sus clientes, lo que puede mejorar la satisfacción del cliente y fomentar la fidelidad a la marca.

Optimización de procesos: Al analizar grandes conjuntos de datos, las organizaciones pueden identificar áreas de mejora en sus procesos y operaciones, lo que puede llevar a una mayor eficiencia y reducción de costos.

Innovación y descubrimiento: El procesamiento masivo de datos puede proporcionar información útil para la investigación científica, el descubrimiento de medicamentos, la innovación tecnológica y otros campos, lo que puede impulsar avances significativos en diversas áreas.

Riesgos:

Privacidad y seguridad de los datos: El procesamiento masivo de datos puede involucrar la recopilación y el análisis de grandes cantidades de información personal y confidencial, lo que plantea preocupaciones sobre la privacidad y la seguridad de los datos. El uso indebido o la filtración de datos pueden tener graves repercusiones para los individuos y las organizaciones.

Sesgo y discriminación: Si los conjuntos de datos utilizados para el procesamiento masivo de datos están sesgados o incompletos, los resultados del análisis pueden ser sesgados, lo que puede llevar a decisiones discriminatorias o injustas.

Exactitud de los datos y calidad de los datos: El procesamiento masivo de datos depende en gran medida de la calidad y precisión de los datos subyacentes. Los errores en los datos o la falta de datos pueden afectar la precisión y la confiabilidad de los resultados del análisis.

Sobrecarga de información: El procesamiento masivo de datos puede generar grandes volúmenes de información, lo que puede abrumar a los usuarios y dificultar la identificación de información relevante y significativa.

Dependencia de la tecnología: La implementación y el mantenimiento de sistemas de procesamiento masivo de datos pueden ser costosos y complejos. Las organizaciones pueden volverse demasiado dependientes de la tecnología de Big Data y enfrentar desafíos significativos si experimentan problemas técnicos o de infraestructura.

Es importante reconocer tanto los beneficios como los riesgos asociados con la aplicación de técnicas de procesamiento masivo de datos y tomar medidas para mitigar los riesgos y garantizar un uso ético y responsable de la tecnología. Esto puede implicar el desarrollo de políticas y prácticas sólidas de privacidad y seguridad de los datos, así como la implementación de procesos de verificación y validación de datos para garantizar la calidad y precisión de los resultados del análisis.

    Criterios de calidad de datos en Big Data.

Los criterios de calidad de datos en entornos de Big Data son fundamentales para garantizar la precisión, integridad y confiabilidad de la información utilizada en análisis y procesos de toma de decisiones. Algunos criterios importantes a considerar:

Precisión: Los datos deben ser precisos y estar libres de errores. Esto implica que los valores de los datos deben reflejar con precisión la realidad que representan. Por ejemplo, en datos numéricos, los cálculos y mediciones deben ser exactos y estar libres de errores.

Integridad: La integridad de los datos se refiere a su completitud y consistencia. Los datos deben estar completos y no deben faltar valores importantes. Además, los datos deben ser coherentes y no deben contener contradicciones o discrepancias significativas.

Relevancia: Los datos deben ser relevantes para los propósitos de análisis y toma de decisiones. Esto implica que los datos deben estar relacionados con los objetivos y necesidades específicas de la organización, y no deben incluir información irrelevante o superflua.

Consistencia: Los datos deben ser consistentes en su formato y estructura. Esto implica que los datos deben seguir un formato estándar y coherente en términos de nombres de campos, tipos de datos y convenciones de codificación.

Actualidad: Los datos deben ser oportunos y estar actualizados. Esto implica que los datos deben reflejar la información más reciente disponible y no deben estar desactualizados o obsoletos.

Confiabilidad: Los datos deben ser confiables y confiables. Esto implica que los datos deben provenir de fuentes confiables y verificables, y deben estar libres de sesgos o manipulaciones indebidas.

Complejidad: Los datos deben ser manejables en términos de complejidad y volumen. Esto implica que los datos deben ser lo suficientemente simples y estructurados como para ser procesados y analizados de manera eficiente.

Seguridad y privacidad: Los datos deben estar protegidos contra accesos no autorizados y deben cumplir con las regulaciones de privacidad y protección de datos aplicables. Esto implica implementar medidas de seguridad y privacidad adecuadas para proteger los datos contra amenazas y riesgos potenciales.

Estos son algunos de los criterios clave de calidad de datos que deben tenerse en cuenta al trabajar con Big Data. Es importante implementar procesos y prácticas sólidas de gestión de datos para garantizar que los datos utilizados en análisis y procesos de toma de decisiones sean precisos, confiables y relevantes para los objetivos comerciales de la organización.

Las técnicas de rastreo, procesamiento, indexación y recuperación de información son fundamentales en el manejo de datos estructurados y no estructurados en entornos de Big Data. Aquí tienes una descripción de estas técnicas:

Rastreo de información:

Web Crawling: Es el proceso de recopilación de datos de sitios web de manera automatizada. Los rastreadores web (o web crawlers) exploran páginas web, siguen enlaces y extraen información relevante, como texto, imágenes y enlaces, para su posterior procesamiento.

Recopilación de Datos en Redes Sociales: Se refiere a la recolección de datos de plataformas de redes sociales como Facebook, Twitter, LinkedIn, etc. Esto puede incluir la extracción de publicaciones, comentarios, perfiles de usuario, conexiones sociales, etc.

Scraping de Datos: Implica la extracción de datos de páginas web específicas mediante la identificación y extracción de información relevante de los elementos HTML de la página, como tablas, formularios o texto.

Procesamiento de información:

Limpieza de datos: Es el proceso de identificar y corregir errores, eliminar valores duplicados o inconsistentes y estandarizar los datos para garantizar su precisión y coherencia.

Transformación de datos: Involucra la conversión de datos en diferentes formatos o estructuras para adaptarlos a los requisitos de análisis o almacenamiento. Esto puede incluir la conversión de datos no estructurados a estructurados, el mapeo de campos y la normalización de datos.

Enriquecimiento de datos: Se refiere a la mejora de los datos existentes mediante la adición de información adicional de fuentes externas. Esto puede incluir la incorporación de datos geoespaciales, datos demográficos o datos de terceros para enriquecer el conjunto de datos original.

Indexación de información:

Indexación de texto: Consiste en la creación de índices de palabras clave que permiten una búsqueda rápida y eficiente de documentos basada en términos específicos. Esto se utiliza comúnmente en motores de búsqueda y sistemas de recuperación de información.

Indexación de datos estructurados: Implica la creación de índices de datos estructurados, como tablas de bases de datos, para facilitar la búsqueda y recuperación de información basada en criterios específicos, como valores de columna o claves primarias.

Recuperación de información:

Búsqueda de texto completo: Permite buscar documentos o registros que contienen términos específicos en su contenido. Esto implica la comparación de consultas de búsqueda con índices de texto para encontrar coincidencias relevantes.

Recuperación de datos estructurados: Permite recuperar datos estructurados almacenados en bases de datos u otros sistemas de almacenamiento utilizando consultas específicas.

Recuperación de información No estructurada: Implica la búsqueda y recuperación de información en formatos no estructurados, como documentos de texto, imágenes o archivos multimedia, utilizando técnicas de búsqueda y análisis de contenido.

Estas técnicas son fundamentales en el procesamiento y la gestión de información en entornos de Big Data, ya que permiten recopilar, procesar, indexar y recuperar datos de manera eficiente, facilitando el análisis y la extracción de conocimientos significativos.


Las estrategias de scraping y crawling se utilizan para recopilar datos de sitios web de manera automatizada. Aquí tienes algunas de las principales estrategias utilizadas en estas técnicas:

Estrategias de crawling:
En este enfoque, el rastreador web comienza desde una página inicial y sigue todos los enlaces encontrados en esa página para descubrir nuevas páginas. Este método es útil para descubrir una amplia gama de contenido en un sitio web.

Crawling vertical: También conocido como "focalizado", este enfoque se centra en un tema específico y sigue enlaces relevantes relacionados con ese tema. Es útil para recopilar información específica y relevante para un tema en particular.

Crawling de frecuencia limitada: En este enfoque, el rastreador web visita un sitio web con una frecuencia limitada para evitar la sobrecarga del servidor y respetar las políticas de acceso del sitio web.

Crawling recursivo: Este método implica la exploración continua de enlaces para descubrir nuevas páginas y construir un mapa completo del sitio web. Es útil para recopilar una visión completa de la estructura y el contenido de un sitio web.

Estrategias de scraping:

Scraping de página unica: En este enfoque, se extrae información de una sola página web específica. Es útil cuando se necesita información de una página en particular y no es necesario explorar todo el sitio web.

Scraping de múltiples páginas: Este método implica la extracción de información de múltiples páginas web dentro de un sitio web o de varios sitios web relacionados. Es útil para recopilar datos de varias fuentes para un análisis más completo.

Scraping de contenido estructurado: Se refiere a la extracción de datos de páginas web que siguen una estructura predefinida, como tablas o listas. Es útil para recopilar datos organizados en un formato específico.

Scraping de contenido No estructurado: Implica la extracción de datos de páginas web que no siguen una estructura predefinida, como párrafos de texto, imágenes o videos. Requiere técnicas más avanzadas de procesamiento de texto e imágenes para extraer información relevante.

Scraping de contenido dinámico: Se refiere a la extracción de datos de páginas web que utilizan tecnologías dinámicas como JavaScript para cargar contenido. Requiere el uso de herramientas y bibliotecas que puedan interactuar con el contenido dinámico para extraer la información deseada.

Estas estrategias de scraping y crawling se pueden adaptar y combinar según las necesidades específicas del proyecto y las características del sitio web objetivo. Es importante tener en cuenta las políticas de acceso y uso del sitio web objetivo, así como respetar los límites de frecuencia y hacer un uso ético de estas técnicas.


Al concluir, habrás adquirido competencias en:

-     Comprender los fundamentos de la ingeniería de datos, que abarcan el modelado, la ingesta, el almacenamiento, el procesamiento, el análisis y la visualización de datos, así como las técnicas de rastreo, procesamiento, indexación y recuperación de información.
-    Desarrollar habilidades de programación especializada en análisis y procesamiento de datos en entornos de Big Data.
-    Resolver problemas reales en la clasificación, modelización e interpretación de conjuntos de datos utilizando recursos técnicos adecuados en el contexto de Big Data.
-    Evaluar diversas soluciones de Big Data para problemas dados, seleccionando las técnicas óptimas según criterios de eficiencia y otros factores, y siendo capaz de implementarlas y interpretar los resultados obtenidos.
-    Comunicar de manera clara las conclusiones del análisis de datos a los grupos de interés y tomadores de decisiones.

Referencias

Abu-Mostafa, Y. S., Magdon-Ismail, M., & Lin, H. T. (2012). Learning from Data. Recuperado de AML Book

Baesens, B. (2014). Analytics in a Big Data World: The Essential Guide to Data Science and its Applications. Nueva Jersey: John Wiley & Sons, Inc.

Davenport, T. H. (2014). Big Data at Work: Dispelling the Myths, Uncovering the Opportunities. Estados Unidos: Harvard Business School Publishing Corporation.

Foreman, J. W. (2014). Data Smart: Using Data Science to Transform Information into Insight. Indiana: John Wiley & Sons, Inc.

Maheshwari, A. (2017). Data Analytics Made Accessible. Recuperado de Amazon (Edición de 2017).

Simon, P. (2013). Too Big to Ignore: The Business Case for Big Data. Nueva Jersey: John Wiley & Sons, Inc.

White, T. (2015). Hadoop: The Definitive Guide (4.ª ed.). Estados Unidos: O'Really Media, Inc.

UNED. (2017, Diciembre 15). Documental "Big Data: el valor de nuestra información" de Modesto Sierra. YouTube. https://www.youtube.com/watch?v=M9LfoRAAyyo

No hay comentarios:

Publicar un comentario