Skip to content

Application Spark calculant la température moyenne par mois d'après des données d'entrée

License

Notifications You must be signed in to change notification settings

simonetthomas/Spark-TP-Meteo

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Spark-TP-Meteo

But

Cette application Spark écrite en Python prend en entrée des fichiers de relevés de températures et effectue des statistiques sur les températures.

  • Le premier fichier Meteo.py calcule la température max par mois en utilisant un RDD (Resilient Distributed Dataset).
  • Le deuxième fichier Meteo_dataframes.py calcule la température min, max et moyenne par mois en utilisant un RDD et un DataFrame.

Fonctionnement

Le code est écrit en Python, et est exécuté à l'aide de PySpark en tant qu'application standalone.

  • Dans le premier cas (Meteo.py):
    On utilise la fonction Map de Spark pour extraire les températures des fichiers d'entrée, puis on effectue un filtre pour éviter les valeurs de températures invalides, et garder les lignes pour lesquelles l'indicateur de qualité est parmi les valeurs (0, 1, 4, 5, 9).
    On effectue ensuite un reduce et un tri et on affiche les résultats dans la console.

  • Dans le deuxième cas (Meteo_dataframe.py):
    On utilise la fonction Map de Spark pour extraire les températures des fichiers d'entrée. Puis le filtrage et la requête pour calculer la valeur min, max, et moyenne de chaque mois sont effectués sur un DataFrame.

Utilisation

Il faut préalablement avoir installé Spark et Python, et avoir configuré la variable d'environnement path pour pouvoir notamment lancer la commande spark-submit. Plus d'informations sur PySpark et son installation ici.

Les données d'entrée sont les relevés du National Climatic Data Center, disponibles à cette adresse. Vous pouvez télécharger plusieurs archives puis les mettre dans un répertoire ressources dans la racine du projet.

Vous pouvez ensuite exécuter le code dans votre console avec la commande suivante :

spark-submit Meteo.py ressources/.*gz

Les résultats s'affichent dans la console.

About

Application Spark calculant la température moyenne par mois d'après des données d'entrée

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages