reveal.js

Python orientée data

Déroulé du cours

Installation de Python et des bibliothèques nécessaires (pandas, numpy, plotly)
Nettoyage et préparation des données avec pandas
Analyse exploratoire des données
Visualisation des données avec plotly

Installation de Python et des bibliothèques

python -m venv venv
source venv/bin/activate
pip install pandas numpy plotly

Chargé un jeu de données CSV

import pandas as pd

df = pd.read_csv('chemin/vers/fichier.csv')

Afficher les données

import pandas as pd

df = pd.read_csv('chemin/vers/fichier.csv')
print(df.head())

Réaliser une moyenne

import pandas as pd

df = pd.read_csv('chemin/vers/fichier.csv')
moyenne = df['colonne'].mean()
print(moyenne)

Trouver la médiane

import pandas as pd

df = pd.read_csv('chemin/vers/fichier.csv')
mediane = df['colonne'].median()
print(mediane)

La médiane est la valeur qui sépare la moitié supérieure des données de la moitié inférieure.

Calculer l'écart-type

import pandas as pd
df = pd.read_csv('chemin/vers/fichier.csv')
ecart_type = df['colonne'].std()
print(ecart_type)

L'écart-type mesure la dispersion des données par rapport à la moyenne. Plus simplement, il indique à quel point les valeurs d'un ensemble de données varient par rapport à la moyenne de cet ensemble.

Si il est élevé, cela signifie que les valeurs sont très dispersées et qu'il y a beaucoup de variations. Il n'y a pas d'homogénéité.

Nettoyage des données

# Supprimer les lignes avec des valeurs manquantes
df = df.dropna()
# Remplacer les valeurs manquantes par la moyenne de la colonne
df['colonne'] = df['colonne'].fillna(df['colonne'].mean())