En este módulo repasaremos las tecnologías Big Data y su motivación en el contexto actual de la era digital y las necesidades de las empresas. Proporciona a los estudiantes una comprensión profunda de cómo funcionan estos sistemas de procesamiento de datos distribuidos y cómo aprovecharlos para procesar grandes cantidades de datos de manera eficiente y efectiva.
Tras describir brevemente el manejo de HDFS, el curso se centrará en Apache Spark, sin duda la tecnología más demandada para procesamiento de grandes volúmenes de datos. Describiremos su filosofía peculiar basada en un grafo de ejecución (DAG) y profundizaremos en cada uno de los módulos, en especial Spark SQL, MLlib y Structured Streaming. Se usará el servicio Dataproc de Google Cloud para que cada alumno pueda desplegar de forma sencilla y gratuita un cluster.
Índice de contenidos:
- Introducción a las tecnologías Big Data
- HDFS
- Apache Spark
- Arquitectura de Spark
- Spark SQL
- Spark MLlib
- Spark Streaming
- GraphFrames