Python orientée data

Déroulé du cours

  • Installation de Python et des bibliothèques nécessaires (pandas, numpy, plotly)
  • Nettoyage et préparation des données avec pandas
  • Analyse exploratoire des données
  • Visualisation des données avec plotly

Installation de Python et des bibliothèques

python -m venv venv
source venv/bin/activate
pip install pandas numpy plotly

Chargé un jeu de données CSV

import pandas as pd

df = pd.read_csv('chemin/vers/fichier.csv')

Afficher les données

import pandas as pd

df = pd.read_csv('chemin/vers/fichier.csv')
print(df.head())

Réaliser une moyenne

import pandas as pd

df = pd.read_csv('chemin/vers/fichier.csv')
moyenne = df['colonne'].mean()
print(moyenne)

Trouver la médiane

import pandas as pd

df = pd.read_csv('chemin/vers/fichier.csv')
mediane = df['colonne'].median()
print(mediane)

La médiane est la valeur qui sépare la moitié supérieure des données de la moitié inférieure.

Calculer l'écart-type

import pandas as pd
df = pd.read_csv('chemin/vers/fichier.csv')
ecart_type = df['colonne'].std()
print(ecart_type)

L'écart-type mesure la dispersion des données par rapport à la moyenne. Plus simplement, il indique à quel point les valeurs d'un ensemble de données varient par rapport à la moyenne de cet ensemble.

Si il est élevé, cela signifie que les valeurs sont très dispersées et qu'il y a beaucoup de variations. Il n'y a pas d'homogénéité.

Nettoyage des données

# Supprimer les lignes avec des valeurs manquantes
df = df.dropna()
# Remplacer les valeurs manquantes par la moyenne de la colonne
df['colonne'] = df['colonne'].fillna(df['colonne'].mean())