Aller au contenu

Moyenne, Médiane et Mode

Introduction

Bienvenue dans notre guide sur l'utilisation de la moyenne, de la médiane et du mode en apprentissage automatique Python. Vous apprendrez à calculer ces mesures de tendance centrale et à les appliquer pour prétraiter les données, ce qui peut aider à améliorer la précision de votre modèle.

Qu'est-ce que la Moyenne, la Médiane et le Mode ?

La moyenne, la médiane et le mode sont toutes des mesures de tendance centrale en statistiques. En apprentissage automatique Python, ces concepts sont utilisés pour décrire la distribution des données dans un ensemble de données. La moyenne est la valeur moyenne d'un ensemble de données, tandis que la médiane est la valeur centrale lorsque les données sont triées par ordre croissant. Le mode est la valeur qui apparaît le plus fréquemment dans un ensemble de données.

Utilisation de la Moyenne, de la Médiane et du Mode en Apprentissage Automatique Python

Maintenant que nous avons une compréhension de base de la moyenne, de la médiane et du mode, explorons comment ils peuvent être utilisés en apprentissage automatique Python. Ces mesures sont couramment utilisées pour les statistiques descriptives et pour gérer les valeurs manquantes (imputation) avant d'alimenter un modèle. Dans pandas, vous pouvez les calculer directement sur des Series et des DataFrames, et le SimpleImputer de scikit-learn peut les appliquer lors des pipelines de prétraitement. Une prise en compte appropriée de ces valeurs peut considérablement améliorer la précision du modèle.

Moyenne

La moyenne est une mesure utile de tendance centrale pour les données normalement distribuées. Pour calculer la moyenne en Python, vous pouvez utiliser la bibliothèque numpy. Voici un exemple :

Trouver la moyenne d'une liste avec numpy

python
import numpy as np

data = [1, 2, 3, 4, 5]
mean = np.mean(data)
print(mean)  # Output: 3.0

Cela affichera la moyenne des données, qui est 3.

Médiane

La médiane est une mesure utile de tendance centrale pour les données non normalement distribuées. Pour calculer la médiane en Python, vous pouvez utiliser la bibliothèque numpy. Voici un exemple :

Trouver la médiane d'une liste avec numpy

python
import numpy as np

data = [1, 2, 3, 4, 5]
median = np.median(data)
print(median)  # Output: 3.0

Cela affichera la médiane des données, qui est 3.

Mode

Le mode est une mesure utile de tendance centrale pour les données catégorielles. Pour calculer le mode en Python, vous pouvez utiliser la bibliothèque statistics. Voici un exemple :

Trouver le mode d'une liste avec la bibliothèque statistics

python
import statistics

data = ['red', 'blue', 'green', 'red', 'red']
mode = statistics.mode(data)
print(mode)  # Output: 'red'

Cela affichera le mode des données, qui est 'red'. Remarque : Si un ensemble de données contient plusieurs modes, statistics.mode() lèvera une StatisticsError. Utilisez plutôt statistics.multimode() pour gérer les données multimodales en toute sécurité.

Conclusion

La moyenne, la médiane et le mode sont essentiels pour décrire les distributions de données en apprentissage automatique Python. Leur utilisation correcte lors du prétraitement aide à gérer les valeurs manquantes et les valeurs aberrantes, ce qui conduit à des modèles plus précis. Sélectionnez toujours la mesure qui correspond le mieux à la distribution de vos données.

Trouvez-vous cela utile?

Aperçu dual-run — comparez avec les routes Symfony en production.