CONTENUTI
Data Ingestion
- Essere in grado di trasferire i dati tra sistemi esterni ed il tuo cluster
- Importare dati da Mysql dentro HDFS usando Sqoop
- Esporta i dati su database Mysql usando Sqoop
- Cambiare le strutture dei file durante gli import usando Sqoop
- Fare ingestion dei dati dentro HDFS con streaming real-time e near real time
- Processare streaming di dati come questi vengono caricati sul cluster
- Caricare i dati dentro e fuori hdfs usando i comandi shell
Trasformare, memorizzare e strutturare i dati
- Convertire un set di dati in un dato formato memorizzato in hdfs dentro un nuovo formato e scriverlo sempre in hdfs
- Caricare i dati RDD da hdfs usando Spark
- Scrivere i dati RDD in hdfs usando Spark
Leggere e scrivere file in vari modi
- Performare flussi di estrazioni, trasformazioni e caricamento sui dati per fare Data Analysis
- Usare SparkSQL per interagire con il metastore programmativamente nelle tue applicazioni
- Capire i fondamenti di interrogare i dataset con Spark
- Filtrare i dati usando Spark
- Scrivere interrogazioni che creano statistiche di dati aggregati
- Incrociare tipologie di database differenti usando Spark
- Produrre dati ordinati e classificati
Configurazione
- Usare opzioni su linea di comando per cambiare la tua configurazione
- Come incrementare la memoria disponibile