Il Corso illustra le principali tecniche per la gestione dei Big Data. L’approccio è pratico, con hands-on sui prodotti più significativi per comprenderne le potenzialità e la filosofia.
Nessun prerequisito.
Map Reduce: concetti di base e scrittura di programmi
Introduzione ad Hadoop ed ad Hadoop Distributed File System (HDFS)
Architettura di Sistema, Amministrazione e Componenti
Apache Drill: MPP (Massively Parallel Processing) Query Engine per Hadoop capace di elaborare grosse quantità di dati in secondi
Big Query: Huge Data come servizio
Esempi pratici su Database enormi (Wikipedia e GDELT)
Introduzione ad Apache Spark e descrizione del suo ambiente con esempi pratici:
Spark Core
Spark Shell
Spark Streaming
Spark SQL
MLlib
R e RStudio per l’Analisi Statistica dei Dati