Spark

En este módulo repasaremos las tecnologías Big Data y su motivación en el contexto actual de la era digital y las necesidades de las empresas. Proporciona a los estudiantes una comprensión profunda de cómo funcionan estos sistemas de procesamiento de datos distribuidos y cómo aprovecharlos para procesar grandes cantidades de datos de manera eficiente y efectiva.

Tras describir brevemente el manejo de HDFS, el curso se centrará en Apache Spark, sin duda la tecnología más demandada para procesamiento de grandes volúmenes de datos. Describiremos su filosofía peculiar basada en un grafo de ejecución (DAG) y profundizaremos en cada uno de los módulos, en especial Spark SQL, MLlib y Structured Streaming. Se usará el servicio Dataproc de Google Cloud para que cada alumno pueda desplegar de forma sencilla y gratuita un cluster.

Índice de contenidos:

Introducción a las tecnologías Big Data
HDFS
Apache Spark
Arquitectura de Spark
Spark SQL
Spark MLlib
Spark Streaming
GraphFrames

Programa Máster Big Data

Programación en Python

Bases de Datos SQL

Bases de Datos NoSQL

Linux, GIT

Business Intelligence con Tableau

Estadística

Minería de datos y Modelización predictiva

Machine Learning

Inteligencia Artificial con Deep Learning

Visualización avanzada

Tecnologías de Big Data: Cloud

Hadoop/ Spark

Productivizar un modelo

Data Science aplicado a la empresa

Trabajo Final de Máster