#
Jeux de données
Cette page détaille les jeux de données utilisés dans le projet MSPR 6.1, leurs sources, et comment ils sont transformés pour une utilisation dans l'API.
#
Vue d'ensemble
Le projet exploite trois jeux de données principaux, tous issus de Kaggle, pour fournir des informations sur la COVID-19 et MPOX (variole du singe).
#
COVID-19 Global Dataset
Source : COVID-19 Global Dataset
Description : Ce jeu de données fournit des informations quotidiennes sur la COVID-19 pour chaque pays du monde.
Champs originaux :
- Date
- Country/Region
- Cumulative Total Cases
- Daily New Cases
- Active Cases
- Cumulative Total Deaths
- Daily New Deaths
Traitement appliqué :
- Standardisation des noms de colonnes
- Calcul des récupérations totales en fonction des cas actifs, des cas totaux et des décès
- Calcul des récupérations quotidiennes
#
Corona Virus Report
Source : Corona Virus Report
Description : Un dataset complet sur le coronavirus comprenant des données sur les cas confirmés, les décès, les récupérations, et les cas actifs.
Champs originaux :
- Date
- Country/Region
- Confirmed (Total Cases)
- Deaths (Total Deaths)
- Recovered (Total Recovered)
- Active
- New Cases
- New Deaths
- New Recovered
Traitement appliqué :
- Standardisation des noms de colonnes
- Normalisation des formats de dates
#
MPOX (Monkeypox) Data
Source : MPOX Data
Description : Ce jeu de données contient des informations sur les cas de monkeypox (MPOX) dans différents pays depuis le début de l'épidémie en 2022.
Champs originaux :
- Date
- Location
- Total Cases
- New Cases
- Total Deaths
- New Deaths
Traitement appliqué :
- Standardisation des noms de colonnes
- Normalisation du format des pays pour correspondre aux autres datasets
#
Structure standardisée
Après traitement, les données sont standardisées selon la structure suivante :
#
COVID-19 Data
#
MPOX Data
#
Processus d'import
- Les datasets sont téléchargés depuis Kaggle via le script
fetch.py
- Les données sont normalisées et standardisées via le script
main.py
- Les données traitées sont stockées dans des fichiers CSV dans le dossier
/filtered
- Les données sont importées dans PostgreSQL via le script
postgress.py
#
Limitations connues
- Certains pays peuvent avoir des données manquantes pour certaines dates
- Les noms de pays peuvent varier légèrement entre les datasets
- Les données MPOX sont moins complètes que les données COVID-19 en raison de la nouveauté de l'épidémie
- Certaines métriques (comme les guérisons quotidiennes) sont calculées et peuvent contenir des approximations
#
Mises à jour des données
Les données peuvent être mises à jour en réexécutant les scripts d'import. La fréquence de mise à jour dépend de la fréquence de mise à jour des datasets source sur Kaggle.