Comment trouver le coefficient de corrélation avec Excel

Comment trouver le coefficient de corrélation avec Excel

L'un des plus simples et des plus courants calculs statistiques Excel vous pourriez faire est corrélation. C'est une statistique simple, mais elle peut être très informative lorsque vous voulez voir si deux variables sont liées. Si vous connaissez les bonnes commandes, trouver le coefficient de corrélation dans Excel est extrêmement simple.





Nous allons voir ce qu'est la corrélation pour vous donner une idée de l'information qu'elle vous donne. Ensuite, nous passerons à la recherche du coefficient de corrélation dans Excel en utilisant deux méthodes et un bon graphique pour examiner les corrélations. Enfin, je vais vous donner une introduction très rapide à la régression linéaire, une autre fonction statistique qui peut s'avérer utile lorsque vous examinez des corrélations.





Qu'est-ce que la corrélation ?

Avant de commencer, discutons de la définition de la corrélation. C'est une mesure simple de la façon dont les choses sont liées. Examinons deux variables qui n'ont aucune corrélation.





Ces deux variables (une tracée sur l'axe X, une sur l'axe Y) sont totalement aléatoires et ne sont pas étroitement liées.

Les deux variables ci-dessous sont cependant corrélées :



En général, lorsqu'une variable augmente, l'autre augmente également. C'est la corrélation. (Notez que cela peut aussi être l'inverse ; si l'un monte et l'autre descend, c'est une corrélation négative.)

Comprendre le coefficient de corrélation

Le coefficient de corrélation vous indique à quel point deux variables sont liées. Le coefficient est compris entre -1 et 1. Un coefficient de corrélation de 0 signifie qu'il n'y a absolument aucune corrélation entre deux variables. C'est ce que vous devriez obtenir lorsque vous avez deux ensembles de nombres aléatoires.





Un coefficient de -1 signifie que vous avez une corrélation négative parfaite : lorsqu'une variable augmente, l'autre diminue proportionnellement. Un coefficient de 1 est une corrélation positive parfaite : lorsqu'une variable augmente, l'autre augmente également proportionnellement.

Tout nombre entre ceux-ci représente une échelle. Une corrélation de 0,5, par exemple, est une corrélation positive modérée.





Comme vous pouvez le voir dans le graphique ci-dessous, la corrélation ne recherche qu'une relation linéaire. Deux variables peuvent être fortement liées d'une autre manière et avoir toujours un coefficient de corrélation de zéro :

Crédit d'image: DenisBoigelot/ Wikimedia Commons

Comment trouver le coefficient de corrélation dans Excel à l'aide de CORREL

Il existe une fonction intégrée pour la corrélation dans Excel. La fonction CORREL a une syntaxe très simple :

=CORREL(array1, array2)

array1 est votre premier groupe de nombres et array2 est le deuxième groupe. Excel va cracher un nombre, et c'est votre coefficient de corrélation. Regardons un exemple.

Dans cette feuille de calcul, nous avons une liste de voitures, avec le modèle et l'année, et leurs valeurs. J'ai utilisé la fonction CORREL pour voir si l'année du modèle et la valeur étaient liées :

Il y a une corrélation positive très faible; de sorte que plus l'année augmente, plus la valeur du véhicule augmente. Mais pas de beaucoup.

Représentation graphique des corrélations

Lorsque vous exécutez des corrélations, il est judicieux d'utiliser un nuage de points pour obtenir une compréhension visuelle de la relation entre vos jeux de données. Aller à Graphiques > Nuage de points pour voir à quoi ressemblent vos données :

Vous pouvez voir que dans ces données, l'année de la voiture n'affecte pas beaucoup la valeur. Il y a un léger tendance positive, mais elle est faible. C'est ce que nous avons trouvé avec notre fonction CORREL.

Un autre élément utile dans un nuage de points est une ligne de tendance, qui ressemble à ceci :

La ligne de tendance peut être utile lorsque vous souhaitez établir une corrélation claire dans votre nuage de points. Sous Windows, cliquez sur Outils de graphique > Conception > Ajouter un élément de graphique et sélectionnez ligne de tendance . Sur un Mac, vous devrez accéder à Disposition du graphique ou Conception graphique , selon l'édition d'Excel.

Et n'oubliez pas de consulter notre guide pour faire de grands graphiques dans Excel avant de présenter des conclusions !

Corréler plusieurs variables avec l'outil d'analyse de données

Si vous avez de nombreux ensembles de nombres différents et que vous souhaitez trouver des corrélations entre eux, vous devez exécuter la fonction CORREL sur chaque combinaison. Cependant, à l'aide de Data Analysis Toolpak, vous pouvez sélectionner un certain nombre d'ensembles de données et voir où se situent les corrélations.

Vous ne savez pas si vous disposez du Data Analysis Toolpak ? Consultez notre présentation des bases à télécharger et à s'y habituer.

quel service de livraison de nourriture paie le mieux

Pour lancer le Toolpak, allez à Données > Analyse des données . Vous verrez une liste de choix :

Sélectionner Corrélation et frappe d'accord .

Dans la fenêtre résultante, sélectionnez tous vos ensembles de données dans le Plage d'entrée et indiquez à Excel où vous souhaitez placer vos résultats :

Voici ce que vous obtiendrez lorsque vous frapperez d'accord :

Dans l'image ci-dessus, nous avons effectué des corrélations sur quatre ensembles de données différents : l'année, la population mondiale et deux ensembles de nombres aléatoires.

La corrélation de chaque ensemble de données avec lui-même est de 1. L'année et la population mondiale ont une corrélation extrêmement forte, alors qu'il existe des corrélations très faibles ailleurs, comme on pourrait s'y attendre avec des nombres aléatoires.

combien de mémoire virtuelle dois-je définir

Corrélation vs régression linéaire dans Excel

La corrélation est une mesure simple : dans quelle mesure deux variables sont-elles étroitement liées ? Cette mesure, cependant, n'a aucune valeur prédictive ou causale. Ce n'est pas parce que deux variables sont corrélées que l'une entraîne des changements dans l'autre. C'est une chose cruciale à comprendre à propos de la corrélation.

Si vous souhaitez faire une affirmation sur la causalité, vous devrez utiliser la régression linéaire. Vous pouvez également y accéder via Data Analysis Toolpak. (Cet article ne couvrira pas les détails du fonctionnement de la régression linéaire, mais il existe de nombreuses ressources statistiques gratuites qui peuvent vous expliquer les bases.)

Ouvrez le Data Analysis Toolpak, sélectionnez Régression , et cliquez sur d'accord .

Remplissez les plages X et Y (la valeur X est la variable explicative et la valeur Y est la valeur que vous essayez de prédire). Sélectionnez ensuite où vous voulez que votre sortie aille, et cliquez sur d'accord de nouveau.

Le nombre sur lequel vous voudrez vous concentrer ici est la valeur p de votre variable explicative :

S'il est inférieur à 0,05, vous avez un argument solide selon lequel les changements dans votre variable X entraînent des changements dans votre variable Y. Dans l'image ci-dessus, nous avons montré que l'année est un prédicteur significatif de la population mondiale.

La régression linéaire est également utile dans la mesure où elle peut examiner plusieurs valeurs. Ici, nous avons utilisé la régression pour voir si l'année et la population sont des prédicteurs significatifs du prix du pétrole brut :

Les deux valeurs p sont inférieures à 0,05, nous pouvons donc conclure que l'année et la population mondiale sont des prédicteurs significatifs du prix du pétrole brut. (Bien que de fortes corrélations entre les variables X puissent causer leurs propres problèmes.)

Encore une fois, il s'agit d'une explication très simpliste de la régression linéaire, et si vous êtes intéressé par la causalité, vous devriez lire certains tutoriels de statistiques.

Mais maintenant, vous savez comment aller au-delà de la simple corrélation si vous recherchez plus d'informations statistiques !

Obtenez de meilleures données à partir d'Excel

Comprendre les fonctions statistiques de base dans Excel peut vous aider à obtenir beaucoup plus d'informations utiles à partir de vos données. La corrélation est une mesure simple, mais elle peut être d'une grande aide lorsque vous essayez de faire des déclarations sur les chiffres de votre feuille de calcul.

Bien sûr, vous pouvez exécuter de nombreuses autres mesures plus compliquées. Mais à moins que vous ne soyez à l'aise avec les statistiques, vous voudrez commencer par les bases .

Utilisez-vous régulièrement la fonctionnalité de corrélation d'Excel ? Quelles autres fonctions statistiques aimeriez-vous connaître ?

Partager Partager Tweeter E-mail Voici pourquoi le FBI a émis un avertissement pour Hive Ransomware

Le FBI a émis un avertissement concernant une souche de ransomware particulièrement désagréable. Voici pourquoi vous devez vous méfier particulièrement du ransomware Hive.

Lire la suite
Rubriques connexes
  • Productivité
  • Microsoft Excel
A propos de l'auteur Puis Albright(506 articles publiés)

Dann est un consultant en stratégie de contenu et marketing qui aide les entreprises à générer de la demande et des prospects. Il blogue également sur la stratégie et le marketing de contenu sur dannalbright.com.

Plus de Dann Albright

Abonnez-vous à notre newsletter

Rejoignez notre newsletter pour des conseils techniques, des critiques, des ebooks gratuits et des offres exclusives !

Cliquez ici pour vous abonner