La corrélation est caractérisée. Coefficient de corrélation. Observer suffisamment l'algorithme simple des actions
Le coefficient de corrélation est le degré de communication entre les deux variables. Son calcul donne une idée de savoir s'il existe une dépendance entre deux tableaux de données. Contrairement à la régression, la corrélation ne permet pas de prédire les valeurs des valeurs. Cependant, le calcul du coefficient est une étape importante dans l'analyse statistique préliminaire. Par exemple, nous avons constaté que le coefficient de corrélation entre le niveau d'investissement direct étranger et le taux de croissance du PIB est élevé. Cela nous donne une idée que pour assurer le bien-être dont vous avez besoin pour créer un climat favorable aux entrepreneurs étrangers. Pas une telle conclusion évidente au premier abord!
Corrélation et causalité
Il n'y a peut-être pas une seule sphère de statistiques qui seraient si fermement entrées dans nos vies. Le coefficient de corrélation est utilisé dans tous les domaines des connaissances publiques. Son danger principal est qu'il est souvent spéculé par ses grandes valeurs afin de convaincre les gens et de les faire croire en certaines conclusions. Cependant, en fait, la corrélation forte n'indique pas la relation de causalité entre les valeurs.
Ratio de corrélation: formule Pearson et Spirman
Plusieurs indicateurs de base caractérisent la relation entre deux variables. Historiquement, le premier coefficient de corrélation linéaire Pearson est. Il est toujours tenu à l'école. Il a été conçu par K. Pearson et J. Julia basé sur des œuvres de fr. Galton. Ce coefficient vous permet de voir la relation entre les nombres rationnels qui changent rationnellement. C'est toujours plus de -1 et moins de 1. Un nombre négatif indique une dépendance proportionnelle du dos. Si le coefficient est égal à zéro, il n'y a pas de connexion entre les variables. Il est égal à un nombre positif - il existe une relation proportionnelle directe entre les valeurs à l'étude. Le coefficient de grade Corrélation de Spirman vous permet de simplifier les calculs en construisant la hiérarchie des valeurs variables.
Relation entre variables
La corrélation aide à trouver une réponse à deux questions. Premièrement, si la connexion entre les variables est positive ou négative. Deuxièmement, quelle est la force de la dépendance. L'analyse de corrélation est un outil puissant avec lequel vous pouvez obtenir cette information importante. Il est facile de voir que le revenu familial et les dépenses tombent et se développent proportionnellement. Cette connexion est considérée comme positive. Au contraire, avec la croissance du prix des marchandises, la demande en cas de chute. Une telle connexion est appelée négative. Les valeurs du coefficient de corrélation sont comprises entre -1 et 1. Un zéro signifie qu'il n'y a pas de dépendances entre les valeurs étudiées. Plus l'indicateur résultant des valeurs extrêmes, plus la connexion est forte (négative ou positive). L'absence de dépendance indique le coefficient de -0,1 à 0,1. Il faut comprendre que cette valeur indique uniquement le manque de communication linéaire.
Caractéristiques de l'application
L'utilisation des deux indicateurs est associée à certaines hypothèses. Premièrement, la présence d'une connexion forte ne cause pas le fait qu'une seule valeur détermine l'autre. Il peut exister une troisième valeur qui définit chacun d'eux. Deuxièmement, le coefficient élevé de la corrélation Pearson n'indique pas la relation de causalité entre les variables étudiées. Troisièmement, il montre une dépendance extrêmement linéaire. La corrélation peut être utilisée pour évaluer des données quantitatives significatives (par exemple, la pression atmosphérique, la température de l'air), et non de telles catégories que le plancher ou la couleur bien-aimée.
Coefficient de corrélation multiple
Pearson et Spirman ont enquêté sur la relation entre deux variables. Mais comment agir s'il y en a trois ou encore plus. Un coefficient de corrélation multiple arrive à la rescousse. Par exemple, non seulement les investissements étrangers directs, mais également une politique monétaire et fiscale de l'État, ainsi que le niveau des exportations affectent le produit national brut. Le taux de croissance et le volume du PIB résultent de l'interaction d'un certain nombre de facteurs. Cependant, il est nécessaire de comprendre que le modèle de corrélation multiple repose sur un certain nombre de simplifications et d'hypothèses. Premièrement, la multicollinearité entre les valeurs est exclue. Deuxièmement, la relation entre dépendants et affecte l'influence des variables est considérée comme linéaire.
Domaines d'utilisation d'une analyse de corrélation et de régression
Cette méthode de recherche de la relation entre les valeurs est largement utilisée dans les statistiques. Il est le plus souvent recuché à trois cas de base:
- Pour tester les relations de causalité entre les valeurs de deux variables. En conséquence, le chercheur espère détecter une dépendance linéaire et retirer la formule qui décrit ces relations entre les valeurs. Les unités de leur mesure peuvent être différentes.
- Vérifier la disponibilité entre les valeurs. Dans ce cas, personne ne détermine quelle variable dépend. Il peut s'avérer que la valeur des deux valeurs provoque un autre facteur.
- Pour la sortie de l'équation. Dans ce cas, vous pouvez simplement substituer les chiffres et trouver les valeurs d'une variable inconnue.
Homme à la recherche d'une relation de causalité
La conscience est agencée de telle sorte que nous devons expliquer les événements qui se produisent. Une personne cherche toujours une relation entre la photo du monde dans lequel il habite et reçue par les informations. Souvent, le cerveau crée un ordre du chaos. Il peut facilement voir la relation de causalité où ce n'est pas le cas. Les scientifiques doivent apprendre spécifiquement à surmonter cette tendance. La capacité d'évaluer les liens entre les données objectivement est nécessaire dans une carrière académique.
Le biais des médias
Considérez comment la présence de corrélation peut être interprétée de manière incorrecte. Un groupe d'étudiants britanniques distingués par un comportement médiocre, interviewé si leurs parents fument. Ensuite, le test a été publié dans le journal. Le résultat a montré une forte corrélation entre le tabagisme des parents et les infractions de leurs enfants. Le professeur qui a mené cette étude, a même proposé un avertissement à ce sujet pour les paquets de cigarettes. Cependant, il existe un certain nombre de problèmes avec un tel résultat. Premièrement, la corrélation ne montre pas laquelle des valeurs est indépendante. Par conséquent, il est tout à fait possible de supposer que l'habitude destructeurs des parents est causée par la désobéissance des enfants. Deuxièmement, il est impossible de dire avec confiance que les deux problèmes ne figuraient pas à cause d'un troisième facteur. Par exemple, les familles à faible revenu. Un aspect émotionnel des conclusions initiales du professeur qui a mené une étude devrait être notée. Il était un jar ennemi fumant. Par conséquent, il n'y a rien de surprenant qu'il a interprété les résultats de ses recherches de cette manière.
conclusions
Une interprétation incorrecte de la corrélation en tant que relation de causalité entre deux variables peut entraîner des erreurs honteuses dans la recherche. Le problème est qu'il réside à la base de la conscience humaine. De nombreux astuces marketing sont construites sur cette fonctionnalité. Comprendre les différences entre la liaison causale et la corrélation vous permet d'analyser rationnellement des informations à la fois dans la vie quotidienne et dans une carrière professionnelle.
Le coefficient de corrélation est le degré de communication entre les deux variables. Son calcul donne une idée de savoir s'il existe une dépendance entre deux tableaux de données. Contrairement à la régression, la corrélation ne permet pas de prédire les valeurs des valeurs. Cependant, le calcul du coefficient est une étape importante dans l'analyse statistique préliminaire. Par exemple, nous avons constaté que le coefficient de corrélation entre le niveau d'investissement direct étranger et le taux de croissance du PIB est élevé. Cela nous donne une idée que pour assurer le bien-être dont vous avez besoin pour créer un climat favorable aux entrepreneurs étrangers. Pas une telle conclusion évidente au premier abord!
Corrélation et causalité
Il n'y a peut-être pas une seule sphère de statistiques qui seraient si fermement entrées dans nos vies. Le coefficient de corrélation est utilisé dans tous les domaines des connaissances publiques. Son danger principal est qu'il est souvent spéculé par ses grandes valeurs afin de convaincre les gens et de les faire croire en certaines conclusions. Cependant, en fait, la corrélation forte n'indique pas la relation de causalité entre les valeurs.
Ratio de corrélation: formule Pearson et Spirman
Plusieurs indicateurs de base caractérisent la relation entre deux variables. Historiquement, le premier coefficient de corrélation linéaire Pearson est. Il est toujours tenu à l'école. Il a été conçu par K. Pearson et J. Julia basé sur des œuvres de fr. Galton. Ce coefficient vous permet de voir la relation entre les nombres rationnels qui changent rationnellement. C'est toujours plus de -1 et moins de 1. Un nombre négatif indique une dépendance proportionnelle du dos. Si le coefficient est égal à zéro, il n'y a pas de connexion entre les variables. Il est égal à un nombre positif - il existe une relation proportionnelle directe entre les valeurs à l'étude. Le coefficient de grade Corrélation de Spirman vous permet de simplifier les calculs en construisant la hiérarchie des valeurs variables.
Relation entre variables
La corrélation aide à trouver une réponse à deux questions. Premièrement, si la connexion entre les variables est positive ou négative. Deuxièmement, quelle est la force de la dépendance. L'analyse de corrélation est un outil puissant avec lequel vous pouvez obtenir cette information importante. Il est facile de voir que le revenu familial et les dépenses tombent et se développent proportionnellement. Cette connexion est considérée comme positive. Au contraire, avec la croissance du prix des marchandises, la demande en cas de chute. Une telle connexion est appelée négative. Les valeurs du coefficient de corrélation sont comprises entre -1 et 1. Un zéro signifie qu'il n'y a pas de dépendances entre les valeurs étudiées. Plus l'indicateur résultant des valeurs extrêmes, plus la connexion est forte (négative ou positive). L'absence de dépendance indique le coefficient de -0,1 à 0,1. Il faut comprendre que cette valeur indique uniquement le manque de communication linéaire.
Caractéristiques de l'application
L'utilisation des deux indicateurs est associée à certaines hypothèses. Premièrement, la présence d'une connexion forte ne cause pas le fait qu'une seule valeur détermine l'autre. Il peut exister une troisième valeur qui définit chacun d'eux. Deuxièmement, le coefficient élevé de la corrélation Pearson n'indique pas la relation de causalité entre les variables étudiées. Troisièmement, il montre une dépendance extrêmement linéaire. La corrélation peut être utilisée pour évaluer des données quantitatives significatives (par exemple, la pression atmosphérique, la température de l'air), et non de telles catégories que le plancher ou la couleur bien-aimée.
Coefficient de corrélation multiple
Pearson et Spirman ont enquêté sur la relation entre deux variables. Mais comment agir s'il y en a trois ou encore plus. Un coefficient de corrélation multiple arrive à la rescousse. Par exemple, non seulement les investissements étrangers directs, mais également une politique monétaire et fiscale de l'État, ainsi que le niveau des exportations affectent le produit national brut. Le taux de croissance et le volume du PIB résultent de l'interaction d'un certain nombre de facteurs. Cependant, il est nécessaire de comprendre que le modèle de corrélation multiple repose sur un certain nombre de simplifications et d'hypothèses. Premièrement, la multicollinearité entre les valeurs est exclue. Deuxièmement, la relation entre dépendants et affecte l'influence des variables est considérée comme linéaire.
Domaines d'utilisation d'une analyse de corrélation et de régression
Cette méthode de recherche de la relation entre les valeurs est largement utilisée dans les statistiques. Il est le plus souvent recuché à trois cas de base:
- Pour tester les relations de causalité entre les valeurs de deux variables. En conséquence, le chercheur espère détecter une dépendance linéaire et retirer la formule qui décrit ces relations entre les valeurs. Les unités de leur mesure peuvent être différentes.
- Vérifier la disponibilité entre les valeurs. Dans ce cas, personne ne détermine quelle variable dépend. Il peut s'avérer que la valeur des deux valeurs provoque un autre facteur.
- Pour la sortie de l'équation. Dans ce cas, vous pouvez simplement substituer les chiffres et trouver les valeurs d'une variable inconnue.
Homme à la recherche d'une relation de causalité
La conscience est agencée de telle sorte que nous devons expliquer les événements qui se produisent. Une personne cherche toujours une relation entre la photo du monde dans lequel il habite et reçue par les informations. Souvent, le cerveau crée un ordre du chaos. Il peut facilement voir la relation de causalité où ce n'est pas le cas. Les scientifiques doivent apprendre spécifiquement à surmonter cette tendance. La capacité d'évaluer les liens entre les données objectivement est nécessaire dans une carrière académique.
Le biais des médias
Considérez comment la présence de corrélation peut être interprétée de manière incorrecte. Un groupe d'étudiants britanniques distingués par un comportement médiocre, interviewé si leurs parents fument. Ensuite, le test a été publié dans le journal. Le résultat a montré une forte corrélation entre le tabagisme des parents et les infractions de leurs enfants. Le professeur qui a mené cette étude, a même proposé un avertissement à ce sujet pour les paquets de cigarettes. Cependant, il existe un certain nombre de problèmes avec un tel résultat. Premièrement, la corrélation ne montre pas laquelle des valeurs est indépendante. Par conséquent, il est tout à fait possible de supposer que l'habitude destructeurs des parents est causée par la désobéissance des enfants. Deuxièmement, il est impossible de dire avec confiance que les deux problèmes ne figuraient pas à cause d'un troisième facteur. Par exemple, les familles à faible revenu. Un aspect émotionnel des conclusions initiales du professeur qui a mené une étude devrait être notée. Il était un jar ennemi fumant. Par conséquent, il n'y a rien de surprenant qu'il a interprété les résultats de ses recherches de cette manière.
conclusions
Une interprétation incorrecte de la corrélation en tant que relation de causalité entre deux variables peut entraîner des erreurs honteuses dans la recherche. Le problème est qu'il réside à la base de la conscience humaine. De nombreux astuces marketing sont construites sur cette fonctionnalité. Comprendre les différences entre la liaison causale et la corrélation vous permet d'analyser rationnellement des informations à la fois dans la vie quotidienne et dans une carrière professionnelle.
06.06.2018 17 887 0 Igor
Psychologie et société
Tout dans le monde est interrelié. Chaque personne au niveau de l'intuition tente de trouver la relation entre les phénomènes afin de pouvoir les influencer et de les gérer. Le concept qui reflète cette relation s'appelle la corrélation. Qu'est-ce qu'elle veut dire des mots simples?
Contenu:
Concept de corrélation
Corrélation (de latin "Correlalatio" - Ratio, relation) - terme mathématique, qui signifie la mesure de la dépendance de probabilité statistique entre les valeurs aléatoires (variables).
Exemple: Prenez deux types d'interconnexion:
- D'abord - Stylo à la main de l'homme. De quelle manière la main se déplace de la même manière et manipulez-vous. Si la main est au repos, la poignée n'écrira pas. Si une personne qui lui tienne à peine, la trace sur papier sera riche. Ce type de relation reflète une dépendance difficile et n'est pas une corrélation. Cette relation est fonctionnelle.
- Deuxième vue - Dépendance entre niveaux de formation humaine et littérature de lecture. On ne sait pas à l'avance que des gens lisent plus: avec ou sans enseignement supérieur. Cette relation est aléatoire ou stochastique, sa science statistique est étudiée, qui est engagée uniquement par des phénomènes de masse. Si le calcul statistique vous permet de prouver l'obligation de corrélation entre le niveau d'éducation et la lecture de la littérature, elle permettra de prédire les prévisions, de prédire l'événement probabiliste. Dans cet exemple, avec beaucoup de probabilité, il est possible de dire que les personnes ayant une éducation supérieure sont en train de lire plus de livres de lecture, ceux qui sont plus éduqués. Mais étant donné que la connexion entre ces paramètres n'est pas fonctionnelle, nous pouvons et faire une erreur. Vous pouvez toujours calculer la probabilité d'une telle erreur, qui sera sans ambiguïté et appelée le niveau de signification statistique (P).
Des exemples de relation entre phénomènes naturels sont: La chaîne nutritionnelle de la nature, le corps humain, qui consiste en des systèmes d'organes, interdépendant et fonctionnant dans son ensemble.
Chaque jour, nous rencontrons une dépendance de corrélation dans la vie quotidienne: entre la météo et la bonne humeur, le libellé approprié des buts et de leur réalisation, une attitude positive et une chance, le bonheur et le bien-être financier. Mais nous recherchons une communication, en s'appuyant non pas sur des calculs mathématiques, mais sur les mythes, l'intuition, la superstition et la superstition. Ces phénomènes sont très difficiles à traduire en langage mathématique, exprimer en chiffres, mesurer. Une autre chose est que nous analysons les phénomènes que vous pouvez calculer, soumettre sous la forme de chiffres. Dans ce cas, nous pouvons déterminer la corrélation à l'aide du coefficient de corrélation (R), reflétant la puissance, le degré, l'étanchéité et la direction de la corrélation entre les variables aléatoires.
Corrélation forte entre les valeurs aléatoires - Certificat de présence d'une connexion statistique spécifiquement entre ces phénomènes, mais cette connexion ne peut être transférée sur les mêmes phénomènes, mais pour une autre situation. Souvent, des chercheurs ont reçu une corrélation significative entre deux variables dans les calculs, sur la base de la simplicité de l'analyse de corrélation, apportent des hypothèses fausses intuitives sur l'existence de relations causales entre les signes, oubliant que le coefficient de corrélation est probabiliste.
Exemple: Le nombre de blessés pendant la glace et le nombre d'accidents des véhicules. Ces valeurs seront corrélées entre elles, bien qu'elles ne soient absolument pas interrelées entre elles, mais ne disposent que d'une connexion avec la cause globale de ces événements aléatoires - en tant que polyvalence. Si l'analyse n'a pas révélé la relation de corrélation entre les phénomènes, il ne s'agit pas encore de la preuve du manque de relation entre eux, qui peut être un complexe non linéaire, non détecté à l'aide de calculs de corrélation.
Le premier à introduire le concept de corrélation dans la circulation scientifique était le français paléontologue Georges Kuwier. Au XVIIIe siècle, il a apporté la corrélation de la loi des parties et des organes d'organismes vivants, grâce auxquels la possibilité de restaurer le fondement de toute la créature fossile, un animal dans les parties trouvées du corps (restes). En statistiques, le terme corrélation a d'abord appliqué un scientifique anglais en 1886 Francis Galton. Mais il n'a pas pu supprimer la formule exacte pour calculer le coefficient de corrélation, mais cela a été fait par son élève - le plus célèbre mathématicien et le biologiste Karl Pearson.
Types de corrélation
En importance - Très valorisé, significatif et insignifiant.
Vues |
qu'est-ce que R. |
Risque élevé |
r correspond au niveau de signification statistique p<=0,01 |
Significatif |
r correspond à P.<=0,05 |
Insignifiant |
r n'atteint pas p\u003e 0.1 |
Négatif (La réduction de la valeur d'une variable conduit à une augmentation du niveau de l'autre: plus la phobie humaine est importante, moins la position de guidage) et positive (si la croissance d'une valeur entraîne une augmentation du niveau de la Autre: Les plus nerveux, plus susceptibles de tomber malades). S'il n'y a pas de connexion entre les variables, une telle corrélation est appelée zéro.
Linéaire (Lorsqu'une valeur augmente ou diminue, la seconde augmente ou diminue également) et non linéaire (lorsque, lorsqu'un changement d'une valeur, la nature du deuxième changement ne peut pas être décrite à l'aide de la dépendance linéaire, les autres lois mathématiques sont appliquées - polynôme, hyperbolique dépendance).
De force.
Les facteurs
Selon quelle échelle inclut les variables étudiées, différents types de coefficients de corrélation sont calculés:
- Le coefficient de corrélation Pearson, le coefficient de corrélation linéaire de paires ou la corrélation des points des travaux est calculé pour les variables de l'échelle de mesure d'intervalle et quantitative.
- Le coefficient de rang de corrélation d'esprit ou de Kendalla - lorsque au moins une des valeurs a une échelle de séquence n'est pas distribuée normale.
- Le point de la corrélation à point de point (le coefficient de corrélation des signes Fechner) est si l'une des deux valeurs est dichotomique.
- Le coefficient de corrélation à quatre températures (le coefficient de corrélation de rang multiple (concordation) - si deux variables sont dichotomiques.
Le coefficient Pearson fait référence aux indicateurs de corrélation paramétriques, tous les autres - à non paramétriques.
La valeur de coefficient de corrélation allant de -1 à +1. Avec une corrélation positive complète, R \u003d +1, avec un négatif complet - R \u003d -1.
Formule et calcul
Exemples
Il est nécessaire de déterminer la relation de deux variables: le niveau de développement intellectuel (selon les tests) et le nombre de solutions pour le mois (selon des enregistrements dans le journal de formation) des écoliers.
Les données initiales sont présentées dans le tableau:
№ |
Données IQ (x) |
Données sur le nombre de dessètes (Y) |
Somme |
1122 |
|
Moyenne |
112,2 |
Pour activer l'interprétation correcte de l'indicateur résultant, il est nécessaire d'analyser le signe de coefficient de corrélation (+ ou -) et sa valeur absolue (module).
Conformément à la table de classification, le coefficient de corrélation sur la force Nous concluons que RXY \u003d -0.827 est une forte dépendance de corrélation négative. Ainsi, le nombre de tarts écoliers a une très forte dépendance à son niveau de développement intellectuel. On peut dire que les étudiants ayant un QI de haut niveau sont moins susceptibles d'occuper que les étudiants ayant un QI faible.
Le coefficient de corrélation peut être utilisé comme scientifiques pour confirmer ou réfuter l'hypothèse de la dépendance de deux quantités ou de phénomènes et de mesurer sa force, sa signification et ses étudiants pour des études empiriques et statistiques sur divers sujets. Il faut se rappeler que cet indicateur n'est pas un outil idéal, il est calculé que pour mesurer la résistance de la dépendance linéaire et sera toujours une valeur probabiliste qui a une certaine erreur.
L'analyse de corrélation est appliquée dans les domaines suivants:
- sciences économiques;
- astrophysique;
- sciences sociales (sociologie, psychologie, pédagogie);
- agrochimie;
- Études métalliques;
- industrie (pour le contrôle de la qualité);
- hydrobiologie;
- biométrie, etc.
Causes de la popularité de la méthode d'analyse de corrélation:
- La simplicité relative du calcul des coefficients de corrélation n'est pas nécessaire une éducation mathématique spéciale.
- Vous permet de calculer la relation entre les valeurs aléatoires de masse soumises à la science statistique. À cet égard, cette méthode gagnait généralisée dans le domaine des études statistiques.
J'espère que vous pouvez maintenant distinguer la relation fonctionnelle de la corrélation et vous saurez que lorsque vous entendez à la télévision ou que vous avez lu dans une presse de corrélation, il implique une interdépendance positive et suffisamment significative entre deux phénomènes.
Coefficient de corrélation
Corrélation - la relation statistique entre deux ou plusieurs variables aléatoires (ou des valeurs pouvant être considérées comme telles à une précision admissible). Dans le même temps, les changements dans une ou plusieurs de ces valeurs conduisent à un changement systématique des autres valeurs ou d'autres valeurs. La mesure mathématique de la corrélation de deux variables aléatoires est le coefficient de corrélation.
La corrélation peut être positive et négative (il existe également une situation de manque de relations statistiques - par exemple, pour des variables aléatoires indépendantes). Corrélation négative - Corrélation à laquelle une augmentation d'une variable est associée à une diminution d'une autre variable, tandis que le coefficient de corrélation est négatif. Correlation positive - Corrélation à laquelle une augmentation de la variable est associée à une augmentation d'une autre variable, tandis que le coefficient de corrélation est positif.
Autocorrélation - la relation statistique entre les valeurs aléatoires d'une rangée, mais à prendre avec un décalage, par exemple, pour un processus aléatoire - avec un changement de temps.
Laisser être X.,Y. - Deux variables aléatoires définies sur un espace probabiliste. Ensuite, leur coefficient de corrélation est défini par la formule:
,où COV signifie covariance, et d est une dispersion, ou que la même chose
,où le symbole fait référence à une attente mathématique.
Vous pouvez utiliser un système de coordonnées rectangulaires avec des axes correspondant aux deux variables. Chaque paire de valeurs est marquée à l'aide d'un symbole spécifique. Un tel tableau s'appelle un "diagramme de diffusion".
La méthode de calcul du coefficient de corrélation dépend du type d'échelle auxquelles se rapportent des variables. Ainsi, pour mesurer les variables avec intervalles et balances quantitatives, il est nécessaire d'utiliser le coefficient de corrélation Pearson (corrélation des moments des travaux). Si au moins une des deux variables a une échelle de séquence ou n'est pas normalement distribuée, il est nécessaire d'utiliser la corrélation de rang de l'alcoolique ou de τ (Tau) Kendale. Dans le cas où une des deux variables est dichotomique, une corrélation à double rangée de point est utilisée et si les deux variables sont dichotomes: corrélation à quatre voies. Le calcul du coefficient de corrélation entre deux variables non fractionnaires n'est pas privé de sens qu'au bout à présent, la liaison est liée entre elles de linéaire (unidirectionnel).
Coefficient de corrélation Kendella
Utilisé pour mesurer le trouble mutuel.
Coefficient de corrélation de Spearman
Propriétés du coefficient de corrélation
Si vous prenez un produit scalaire de deux covariances aléatoires, le taux de variable aléatoire sera égal à Et la conséquence de l'inégalité de Cauchy - Bunyakovsky sera :. où. De plus dans ce cas des signes et k. correspondre: .Analyse de corrélation
Analyse de corrélation - Méthode de traitement des données statistiques consistant à l'étude des coefficients ( corrélation) Entre les variables. Dans ce cas, les coefficients de corrélation sont comparés entre une paire ou une variété de paires de caractéristiques pour établir des relations statistiques entre elles.
objectif analyse de corrélation - Fournir des informations sur une variable à l'aide d'une autre variable. Dans les cas où il est possible d'atteindre l'objectif, il est dit que les variables corrélatif. Sous la forme la plus générale, l'adoption de l'hypothèse sur la présence de corrélation signifie que la variation de la valeur de la variable A apparaît simultanément à un changement proportionnel de la valeur de B: si les deux variables se développent corrélation positiveSi une variable augmente et que la seconde diminue, corrélation négative.
La corrélation ne reflète qu'une dépendance linéaire de quantités, mais ne reflète pas leur connectivité fonctionnelle. Par exemple, si le calcul du coefficient de corrélation entre les valeurs UNE. = s.jE.n.(x.) et B. = c.o.s.(x.) , il sera proche de zéro, c'est-à-dire que la relation entre les valeurs est absente. Pendant ce temps, les valeurs A et B sont évidemment associées fonctionnellement par la loi s.jE.n. 2 (x.) + c.o.s. 2 (x.) = 1 .
Restrictions d'analyse de corrélation
Couples (x, y) Graphiques de distribution avec coefficients de corrélation X et Y appropriés pour chacun d'eux. Notez que le coefficient de corrélation reflète la dépendance linéaire (ligne supérieure), mais ne décrit pas la courbe de dépendance (ligne moyenne) et ne convient pas du tout à la description des dépendances complexes et non linéaires (ligne inférieure).
- L'application est possible dans le cas d'un nombre suffisant de cas d'étude: pour un type spécifique de coefficient de corrélation varie de 25 à 100 paires de surveillance.
- La deuxième limitation résulte de l'hypothèse de l'analyse de corrélation dans laquelle il est posé dépendance linéaire de variables. Dans de nombreux cas, lorsqu'il est connu de manière fiable que la dépendance existe, l'analyse de corrélation peut ne pas donner de résultats simplement en raison du fait que la relation est non linéaire (exprimée, par exemple, sous la forme d'une parabole).
- En soi, le fait des dépendances de corrélation ne permet pas de soutenir que les variables précèdent ou constitue la cause des modifications, ou que les variables sont généralement liées de manière causale les unes avec les autres, par exemple en raison des actions du troisième facteur.
Champ d'application
Cette méthode de traitement des données statistiques est très populaire dans l'économie et les sciences sociales (en particulier en psychologie et en sociologie), bien que la portée des coefficients de corrélation soit étendue: contrôle de la qualité des produits industriels, des études de métaux, une agrochimie, une hydrobiologie, des biométriques et d'autres .
La popularité de la méthode est due à deux moments: les coefficients de corrélation sont relativement simples dans le comptage, leur utilisation ne nécessite pas une formation mathématique spéciale. En combinaison avec la simplicité de l'interprétation, la simplicité du coefficient a permis de généraliser dans la portée de l'analyse des données statistiques.
Fausse corrélation
Souvent, la simplicité de la recherche de corrélation pousse le chercheur à faire de fausses conclusions intuitives sur la présence d'une relation de causalité entre les couples de signes, tandis que les coefficients de corrélation n'établissent que des relations statistiques.
Dans la méthodologie quantitative moderne des sciences sociales, il y avait en fait un refus d'essayer d'établir des relations de causalité entre les variables observées de méthodes empiriques. Par conséquent, lorsque les chercheurs en sciences sociales parlent de la mise en place d'interrelations entre les variables étudiées, cela signifie une hypothèse ou une dépendance statistique pertinente générale.
voir également
Fondation Wikimedia. 2010.
Regardez ce qui est un "coefficient de corrélation" dans d'autres dictionnaires:
Coefficient de corrélation - Vue mathématique du degré de communication entre les deux séries de mesures. Le coefficient de +1 désigne une corrélation positive claire: des indicateurs élevés d'un paramètre (par exemple, la croissance) sont corrélées avec précision avec des indicateurs élevés sur un autre ... ... Grande encyclopédie psychologique
- ρ μter de force de communication linéaire entre X et Y aléatoires:, où exhérences mathématiques x; DX DISPERSION X, ACT EST APPÉTENTION MATHÉMATIQUE Y; Dy dispersion y; 1 ≤ ρ ≤ 1. Si x, y est lié linéairement, alors ρ \u003d ± 1. Pour ... ... ... Encyclopédie géologique
Anglais Coefficient, corrélation; il. Korrélationskoeffizient. La mesure de l'étanchéité de deux variables ou plus. Antinazi. Encyclopédie de sociologie, 2009 ... Encyclopédie de sociologie
coefficient de corrélation - - Thèmes de biotechnologie en coefficient de corrélation ... Annuaire Traducteur technique
Coefficient de corrélation - (coefficients de corrélation) Coefficient de corrélation Ceci est un indicateur statistique de la dépendance de deux variables aléatoires Détermination du coefficient de corrélation, les types de coefficients de corrélation, les propriétés du coefficient de corrélation, du calcul et de l'application ... ... Encyclopédie Investor
coefficient de corrélation - 1.33. Coefficient de corrélation L'attitude de la covariance de deux variables aléatoires au produit de leurs écarts types: Notes 1. Cette valeur prendra toujours des valeurs de moins 1 à 1, y compris des valeurs extrêmes. 2. Si deux personnes aléatoires ... ... Conditions d'annuaire de Dictionnaire Termes de la documentation réglementaire et technique
COEFFICIENT DE CORRÉLATION - (coefficient de corrélation) Association d'une variable de l'autre. Voir la corrélation; Coefficient de corrélation de la valeur dérivée de Pearson; Coefficient de corrélation de rang de Spearman ... Grand Dictionnaire sociologique
Coefficient de corrélation - Indicateur de coefficient de corrélation de la relation linéaire entre deux variables: le coefficient de corrélation peut varier dans la plage de 1 à 1. si de grandes valeurs de la même valeur correspondent aux autres valeurs de l'autre (et .... .. Dictionnaire-annuaire pour l'économie
Dans la recherche scientifique, il est souvent nécessaire d'avoir une relation entre variables efficaces et facteurs (rendements de toute culture et la quantité de précipitations, la croissance et le poids d'une personne dans des groupes homogènes sur le sol et l'âge, la vitesse du pouls et la température corporelle , etc.).
La seconde représente des signes qui contribuent au changement de ceux qui leur sont concernés (d'abord).
Concept d'analyse de corrélation
Il convient de beaucoup sur la base de ce qui précède, on peut dire que l'analyse de corrélation est une méthode utilisée pour vérifier l'hypothèse sur la signification statistique de deux variables et plus de variables si le chercheur peut les mesurer, mais pas changer.
Il existe d'autres définitions du concept à l'étude. L'analyse de corrélation est une méthode de traitement consistant à l'étude des coefficients de corrélation entre variables. Cela compare les coefficients de corrélation entre une paire ou de nombreuses paires de caractéristiques, pour établir des relations statistiques entre elles. L'analyse de corrélation est une méthode d'étude de la dépendance statistique entre les valeurs aléatoires avec une présence facultative de nature fonctionnelle stricte, dans laquelle la dynamique d'une variable aléatoire conduit à la dynamique de l'attente mathématique de l'autre.
Concept pour les installations de corrélation
Lorsque vous effectuez une analyse de corrélation, il est nécessaire de prendre en compte qu'il peut être effectué en ce qui concerne toute totalité des signes, souvent absurde les unes des autres. Parfois, ils n'ont aucune connexion causale les uns avec les autres.
Dans ce cas, ils parlent de fausse corrélation.
Tâches d'analyse de corrélation
Basé sur les définitions ci-dessus, vous pouvez formuler les tâches suivantes de la méthode décrite: pour obtenir des informations sur l'une des variables souhaitées avec l'autre; Déterminez la proximité de la connexion entre les variables étudiées.
L'analyse de corrélation consiste à déterminer la dépendance entre les signes étudiés et donc les tâches d'analyse de corrélation peuvent être complétées avec les éléments suivants:
- identification de facteurs qui ont le plus grand impact sur la base productive;
- identifier des raisons inexplorées des connexions;
- construire un modèle de corrélation avec son analyse paramétrique;
- Étude de l'importance des paramètres de communication et de leur évaluation de l'intervalle.
Analyse corrective avec régression
La méthode d'analyse de corrélation n'est souvent pas limitée à la recherche de l'étanchéité de la relation entre les valeurs à l'étude. Parfois, il est complété par la préparation des équations de régression, obtenues en utilisant la même analyse et constitue une description de la dépendance de corrélation entre la fonction résultante et facteur (facteur) (signes). Cette méthode associée à l'analyse considérée est une méthode
Conditions d'utilisation de la méthode
D'excellents facteurs dépendent d'un à plusieurs facteurs. La méthode d'analyse de corrélation peut être appliquée s'il existe un grand nombre d'observations de la valeur des indicateurs efficaces et facteurs (facteurs), tandis que les facteurs étudiés doivent être quantitatifs et reflétés dans des sources spécifiques. Le premier peut être déterminé par la loi normale - dans ce cas, les résultats de l'analyse de corrélation sont les coefficients de corrélation du Pearson ou, si les signes ne sont pas soumis à cette loi, le coefficient de la corrélation de la spirmeale est utilisé. .
Règles de sélection des facteurs de corrélation
Lors de l'application de cette méthode, il est nécessaire de déterminer les facteurs affectant les indicateurs effectifs. Ils sont choisis en tenant compte du fait qu'il devrait y avoir des relations de causalité entre les indicateurs. Dans le cas de la création d'un modèle de corrélation multifacteurs, ceux d'entre eux sont pris, qui ont un effet significatif sur l'indicateur résultant, tandis que des facteurs interdépendants avec un coefficient de corrélation de paires supérieure à 0,85 dans le modèle de corrélation ne doivent de préférence pas inclure, comme ceux dont ceux dont les La communication avec le paramètre effectif porte un caractère indirectoriine ou fonctionnel.
Afficher les résultats
Les résultats de l'analyse de corrélation peuvent être représentés dans des espèces de texte et de graphique. Dans le premier cas, ils sont représentés comme un coefficient de corrélation, dans la seconde - sous la forme d'un diagramme de dispersion.
En l'absence de corrélation entre les paramètres du point dans le diagramme, il est chaotique, le degré de communication moyen est caractérisé par un degré de commande supérieur et caractérisé par un éloignement plus ou moins uniforme des marques appliquées de la médiane. Une obligation forte a tendance à diriger et à r \u003d 1, le graphique à points est une ligne plate. La corrélation inverse se distingue par la direction des graphiques du haut gauche en bas à droite, direct - de la gauche inférieure au coin supérieur droit.
Vue tridimensionnelle du diagramme de dispersion (dispersion)
Outre la représentation traditionnelle 2D du diagramme de dispersion, l'affichage 3D de la représentation graphique de l'analyse de corrélation est actuellement utilisé.
La matrice de diagramme de dispersion est également utilisée, qui affiche tous les graphiques de paire dans une image du format matriciel. Pour n variables, la matrice contient n cordes et n colonnes. Le diagramme situé à l'intersection de la I-Th Row et la j - colonne est un graphique des variables XI par rapport au XJ. Ainsi, chaque chaîne et chaque colonne sont une dimension, une cellule distincte affiche le schéma de dispersion de deux mesures.
Estimation de l'étanchéité de la communication
La tonalité de corrélation est déterminée par le coefficient de corrélation (R): fort - R \u003d ± 0,7 à ± 1, la moyenne - R \u003d ± 0,3 à ± 0,699, faible - R \u003d 0 à ± 0,299. Cette classification n'est pas stricte. La figure montre un schéma légèrement différent.
Un exemple de l'application de la méthode d'analyse de corrélation
Au Royaume-Uni, une étude curieuse a été entreprise. Il est consacré au lien de fumer avec le cancer du poumon et a été réalisé par analyse de corrélation. Cette observation est présentée ci-dessous.
Groupe professionnel | mortalité |
|
Agriculteurs, clignotant et pêcheurs | ||
Mineurs et ouvriers de carrière | ||
Fabricants de gaz, coke et produits chimiques | ||
Fabricants de verre et de céramique | ||
Employés des fours, forgeron, fonderie et laminoirs | ||
Employés Génie électrique et électronique | ||
Ingénierie et professions associées | ||
Production de bois | ||
Kozhevanniki | ||
Travailleurs textiles | ||
Fabricants de vêtements de travail | ||
Nourriture, boissons et travailleurs de l'industrie du tabac | ||
Fabricants de papier et d'impression | ||
Fabricants d'autres produits | ||
Constructeurs | ||
Artistes et décorateurs | ||
Conducteurs des moteurs immobiles, des grues, etc. | ||
Les travailleurs non inclus dans d'autres endroits | ||
Travailleurs de transport et de communication | ||
Travailleurs, commerçants, emballeurs et ouvriers des machines de coulée | ||
Ouvriers de papeterie | ||
Les vendeurs | ||
Travailleurs du sport et des loisirs | ||
Administrateurs et gestionnaires | ||
Professionnels, Travailleurs techniques et artistes |
Nous commençons l'analyse de corrélation. La solution est préférable de commencer la visibilité à partir de la méthode graphique, pour laquelle nous construisons le diagramme de dispersion (dispersion).
Il démontre une connexion directe. Cependant, sur la base de la méthode graphique, il est difficile de faire une conclusion sans ambiguïté. Par conséquent, continuez à effectuer une analyse de corrélation. Un exemple de calcul du coefficient de corrélation est présenté ci-dessous.
Utilisation du logiciel (sur l'exemple, MS Excel sera décrit ci-dessous) Définir le coefficient de corrélation, qui est de 0,716, ce qui signifie une connexion forte entre les paramètres à l'étude. Nous définissons la précision statistique de la valeur obtenue sur la table correspondante, pour laquelle nous devons soustrayer 25 paires de valeurs 2, à la suite de laquelle nous obtenons 23 et sur cette ligne dans le tableau, nous trouverons r P \u003d 0,01 (puisqu'il s'agit de données médicales, une dépendance plus stricte, dans d'autres cas, suffisamment P \u003d 0,05), qui correspond à 0,51 pour cette analyse de corrélation. L'exemple a démontré que R est le plus important r critique, la valeur de coefficient de corrélation est considérée comme statistiquement fiable.
Utilisation du logiciel lors de l'analyse de corrélation
La vision décrite des données statistiques de données peut être effectuée à l'aide de logiciels, en particulier, MS Excel. La corrélation implique le calcul des paramètres suivants à l'aide de fonctions:
1. Le coefficient de corrélation est déterminé par la fonction de corrélation (Array1; Array2). Massive1,2 - Intervalle de cellule de valeurs de variables productives et facteurs.
Le coefficient de corrélation linéaire s'appelle également le coefficient de corrélation Pearson, en relation avec lequel, à commencer par Excel 2007, vous pouvez utiliser la fonction avec les mêmes tableaux.
L'affichage graphique de l'analyse de corrélation dans Excel est effectué à l'aide du panneau "Tableau" avec un choix de "graphique à point".
Après avoir spécifié les données source, nous obtenons un graphique.
2. Évaluation de l'importance du coefficient de corrélation de paires utilisant le critère T-critère. La valeur calculée du critère T est comparée à une valeur tabulaire (critique) de cet indicateur de la table correspondante des valeurs du paramètre considéré, en tenant compte du niveau d'importance spécifié et du nombre de degrés de liberté . Cette évaluation est effectuée à l'aide du STANDSPOBRAOB (probabilité; degré de degrés).
3. Matrice de coefficients de corrélation de paires. L'analyse est effectuée à l'aide de l'outil "Analyse de données", dans lequel la "corrélation" est sélectionnée. L'estimation statistique des coefficients de corrélation de paires est effectuée en comparant sa valeur absolue avec une valeur tabulaire (critique). Lorsque le coefficient de corrélation de paire calculé est dépassé ci-dessus, il est possible de dire en tenant compte du degré de probabilité spécifié que l'hypothèse zéro de la signification de la communication linéaire n'est pas rejetée.
Pour terminer
L'utilisation d'une méthode d'analyse de corrélation dans les études scientifiques permet de déterminer la relation entre divers facteurs et des indicateurs efficaces. Dans ce cas, il est nécessaire de prendre en compte que le coefficient de corrélation élevé peut également être obtenu à partir d'une paire absurde ou de plusieurs données, en liaison avec laquelle ce type d'analyse doit être effectué sur un ensemble de données suffisamment volumineux.
Après avoir obtenu la valeur calculée de R, il est souhaitable de comparer avec R essentiel pour confirmer la fiabilité statistique d'une certaine valeur. L'analyse de corrélation peut être effectuée manuellement à l'aide de formules ou à l'aide de logiciels, en particulier MS Excel. Ici, vous pouvez également construire un diagramme de dispersion (dispersion) afin d'illustrer la présentation de la relation entre les facteurs étudiés par analyse de corrélation et une caractéristique effective.