Aller au contenu

Percentile

À un moment donné, vous devrez peut-être calculer le percentile d'une certaine valeur dans un ensemble de données. Les percentiles sont des statistiques utiles qui permettent de comprendre comment une valeur donnée se compare au reste d'un ensemble de données. Le calcul des percentiles en Python est une tâche simple qui peut être réalisée à l'aide de fonctions statistiques standard. Dans cet article, nous vous montrerons comment calculer les percentiles en Python en utilisant numpy.

Introduction

Dans cette section, nous expliquerons brièvement ce que sont les percentiles et pourquoi ils sont utiles dans l'analyse de données. Un percentile est une mesure utilisée en statistiques pour indiquer la valeur en dessous de laquelle tombe un pourcentage donné d'observations dans un groupe d'observations. Les percentiles sont utilisés pour comparer un score particulier à d'autres scores de la même distribution. En d'autres termes, ils nous permettent de voir comment une certaine valeur se compare au reste des données.

Étape 1 : Importation des bibliothèques requises

Avant de pouvoir commencer à calculer les percentiles, nous devons importer les bibliothèques requises. Dans cet article, nous utiliserons les bibliothèques numpy et pandas. Numpy est une bibliothèque pour le langage de programmation Python, qui ajoute le support des tableaux et matrices multidimensionnels de grande taille, ainsi qu'une grande collection de fonctions mathématiques de haut niveau pour opérer sur ces tableaux. Pandas est une bibliothèque de manipulation et d'analyse de données. Elle offre des structures de données et des fonctions nécessaires pour travailler sur des données structurées de manière transparente.


Étape 2 : Charger les données

Une fois les bibliothèques requises importées, l'étape suivante consiste à charger les données. Pour cet article, nous utiliserons un jeu de données d'exemple contenant les notes des élèves d'une classe. Nous chargerons ce jeu de données dans un dataframe pandas.

Lire des données à partir d'un fichier CSV avec pandas en Python

python
import pandas as pd

data = pd.read_csv("student_scores.csv")

Étape 3 : Prétraiter les données

Avant de pouvoir commencer à calculer les percentiles, nous devons prétraiter les données. Cela consiste à supprimer toute valeur manquante ou invalide du jeu de données. Dans cet article, nous supposerons que le jeu de données est propre et ne contient aucune valeur manquante ou invalide. Nous extrairons également la colonne spécifique contenant les notes à utiliser pour les calculs.


Étape 4 : Calculer le percentile

Maintenant que nous avons chargé et prétraité les données, nous pouvons calculer le percentile. Nous utiliserons la bibliothèque numpy pour calculer le percentile du jeu de données. La fonction percentile prend deux arguments : le tableau de valeurs et le rang percentile (0-100) que nous souhaitons calculer.

Calculer un rang percentile spécifique dans un jeu de données en Python avec numpy

python
import numpy as np

# Extract the scores column
scores = data['score']
# Calculate the 75th percentile
percentile_value = np.percentile(scores, 75)

Étape 5 : Visualiser les résultats

Enfin, nous pouvons visualiser les résultats de notre calcul. Nous utiliserons la bibliothèque matplotlib pour créer un histogramme du jeu de données et mettre en évidence la position du percentile calculé.

Créer un histogramme du jeu de données et mettre en évidence la position du percentile calculé en Python avec Matplotlib

python
import matplotlib.pyplot as plt

plt.hist(scores, bins=10)
plt.axvline(percentile_value, color='r', linestyle='dashed', linewidth=1)
plt.show()

Conclusion

Dans cet article, nous vous avons montré comment calculer le percentile d'un jeu de données à l'aide de fonctions statistiques standard en Python. Nous avons couvert les bibliothèques requises, le chargement et le prétraitement des données, le calcul du percentile et la visualisation des résultats.

Trouvez-vous cela utile?

Aperçu dual-run — comparez avec les routes Symfony en production.