Rapprochement des données expérimentales. Méthode des moindres carrés. Méthode des moindres carrés dans Excel. Analyse de régression
Après alignement, on obtient une fonction de la forme suivante: g (x) \u003d x + 1 3 + 1.
Nous pouvons approcher ces données en utilisant une relation linéaire y \u003d a x + b en calculant les paramètres correspondants. Pour ce faire, nous devrons appliquer la méthode dite des moindres carrés. Vous devrez également faire un dessin pour vérifier quelle ligne alignera le mieux les données expérimentales.
Yandex.RTB R-A-339285-1
Qu'est-ce que l'OLS (méthode des moindres carrés)
La principale chose à faire est de trouver de tels coefficients de dépendance linéaire auxquels la valeur de la fonction de deux variables F (a, b) \u003d ∑ i \u003d 1 n (y i - (a x i + b)) 2 sera la plus petite. En d'autres termes, pour certaines valeurs de a et b, la somme des carrés des écarts des données présentées par rapport à la droite résultante aura une valeur minimale. C'est le but de la méthode des moindres carrés. Tout ce que nous avons à faire pour résoudre l'exemple est de trouver l'extremum de la fonction de deux variables.
Comment dériver des formules pour calculer les coefficients
Afin de dériver des formules pour calculer les coefficients, vous devez composer et résoudre un système d'équations à deux variables. Pour ce faire, nous calculons les dérivées partielles de l'expression F (a, b) \u003d ∑ i \u003d 1 n (y i - (a x i + b)) 2 pour a et b et les assimilons à 0.
δ F (a, b) δ a \u003d 0 δ F (a, b) δ b \u003d 0 ⇔ - 2 ∑ i \u003d 1 n (yi - (axi + b)) xi \u003d 0 - 2 ∑ i \u003d 1 n ( yi - (axi + b)) \u003d 0 ⇔ a ∑ i \u003d 1 nxi 2 + b ∑ i \u003d 1 nxi \u003d ∑ i \u003d 1 nxiyia ∑ i \u003d 1 nxi + ∑ i \u003d 1 nb \u003d ∑ i \u003d 1 nyi ⇔ a ∑ i \u003d 1 nxi 2 + b ∑ i \u003d 1 nxi \u003d ∑ i \u003d 1 nxiyia ∑ i \u003d 1 nxi + nb \u003d ∑ i \u003d 1 nyi
Toute méthode peut être utilisée pour résoudre un système d'équations, par exemple, la substitution ou la méthode de Cramer. En conséquence, nous devrions obtenir des formules avec lesquelles les coefficients sont calculés en utilisant la méthode des moindres carrés.
n ∑ i \u003d 1 n x i y i - ∑ i \u003d 1 n x i ∑ i \u003d 1 n y i n ∑ i \u003d 1 n - ∑ i \u003d 1 n x i 2 b \u003d ∑ i \u003d 1 n y i - a ∑ i \u003d 1 n x i n
Nous avons calculé les valeurs des variables pour lesquelles la fonction
F (a, b) \u003d ∑ i \u003d 1 n (y i - (a x i + b)) 2 prend la valeur minimale. Dans le troisième point, nous allons prouver pourquoi c'est comme ça.
C'est l'application de la méthode des moindres carrés dans la pratique. Sa formule, qui permet de trouver le paramètre a, comprend ∑ i \u003d 1 n x i, ∑ i \u003d 1 n y i, ∑ i \u003d 1 n x i y i, ∑ i \u003d 1 n x i 2, ainsi que le paramètre
n - ils indiquent la quantité de données expérimentales. Nous vous conseillons de calculer chaque montant séparément. La valeur du coefficient b est calculée immédiatement après a.
Revenons à l'exemple d'origine.
Exemple 1
Ici, nous avons n égal à cinq. Pour faciliter le calcul des montants requis inclus dans les formules de coefficients, remplissez le tableau.
i \u003d 1 | i \u003d 2 | i \u003d 3 | i \u003d 4 | i \u003d 5 | ∑ i \u003d 1 5 | |
x i | 0 | 1 | 2 | 4 | 5 | 12 |
y je | 2 , 1 | 2 , 4 | 2 , 6 | 2 , 8 | 3 | 12 , 9 |
x i y i | 0 | 2 , 4 | 5 , 2 | 11 , 2 | 15 | 33 , 8 |
x i 2 | 0 | 1 | 4 | 16 | 25 | 46 |
Décision
La quatrième ligne comprend les données obtenues en multipliant les valeurs de la deuxième ligne par les valeurs de la troisième pour chaque individu i. La cinquième ligne contient les données de la deuxième au carré. La dernière colonne répertorie les sommes des valeurs des lignes individuelles.
Utilisons la méthode des moindres carrés pour calculer les coefficients a et b dont nous avons besoin. Pour ce faire, remplacez les valeurs requises de la dernière colonne et calculez les montants:
n ∑ i \u003d 1 nxiyi - ∑ i \u003d 1 nxi ∑ i \u003d 1 nyin ∑ i \u003d 1 n - ∑ i \u003d 1 nxi 2 b \u003d ∑ i \u003d 1 nyi - a ∑ i \u003d 1 nxin ⇒ a \u003d 533, 8 - 12 12, 9 5 46 - 12 2 b \u003d 12, 9 - a 12 5 ⇒ a ≈ 0, 165 b ≈ 2, 184
Nous avons obtenu que la ligne approximative souhaitée ressemblera à y \u003d 0, 165 x + 2, 184. Nous devons maintenant déterminer quelle ligne correspondra le mieux aux données - g (x) \u003d x + 1 3 + 1 ou 0, 165 x + 2, 184. Faisons une estimation en utilisant la méthode des moindres carrés.
Pour calculer l'erreur, il faut trouver la somme des carrés des écarts des données par rapport aux droites σ 1 \u003d ∑ i \u003d 1 n (yi - (axi + bi)) 2 et σ 2 \u003d ∑ i \u003d 1 n (yi - g (xi)) 2, la valeur minimale correspondra à la ligne la plus appropriée.
σ 1 \u003d ∑ i \u003d 1 n (yi - (axi + bi)) 2 \u003d \u003d ∑ i \u003d 1 5 (yi - (0,15 xi + 2,184)) 2 ≈ 0,019 σ 2 \u003d ∑ i \u003d 1 n (yi - g (xi)) 2 \u003d \u003d ∑ i \u003d 1 5 (yi - (xi + 1 3 + 1)) 2 ≈ 0,096
Répondre: depuis σ 1< σ 2 , то прямой, наилучшим образом аппроксимирующей исходные данные, будет
y \u003d 0, 165 x + 2, 184.
La méthode des moindres carrés est illustrée graphiquement. La ligne rouge marque la ligne droite g (x) \u003d x + 1 3 + 1, la ligne bleue - y \u003d 0, 165 x + 2, 184. Les données brutes sont indiquées par des points roses.
Expliquons à quoi exactement des approximations de ce type sont nécessaires.
Ils peuvent être utilisés dans les tâches nécessitant un lissage des données, ainsi que dans celles où les données doivent être interpolées ou extrapolées. Par exemple, dans le problème discuté ci-dessus, on pourrait trouver la valeur de la quantité observée y à x \u003d 3 ou à x \u003d 6. Nous avons consacré un article séparé à ces exemples.
Preuve de la méthode OLS
Pour que la fonction prenne la valeur minimale des a et b calculés, il faut qu'à ce point la matrice de la forme quadratique de la différentielle de la fonction de la forme F (a, b) \u003d ∑ i \u003d 1 n (y i - (a x i + b)) 2 soit définie positive. Voyons à quoi cela devrait ressembler.
Exemple 2
Nous avons un différentiel de second ordre de la forme suivante:
d 2 F (a; b) \u003d δ 2 F (a; b) δ a 2 d 2 a + 2 δ 2 F (a; b) δ a δ bdadb + δ 2 F (a; b) δ b 2 d 2 b
Décision
δ 2 F (a; b) δ a 2 \u003d δ δ F (a; b) δ a δ a \u003d \u003d δ - 2 ∑ i \u003d 1 n (yi - (axi + b)) xi δ a \u003d 2 ∑ i \u003d 1 n (xi) 2 δ 2 F (a; b) δ a δ b \u003d δ δ F (a; b) δ a δ b \u003d \u003d δ - 2 ∑ i \u003d 1 n (yi - (axi + b) ) xi δ b \u003d 2 ∑ i \u003d 1 nxi δ 2 F (a; b) δ b 2 \u003d δ δ F (a; b) δ b δ b \u003d δ - 2 ∑ i \u003d 1 n (yi - (axi + b)) δ b \u003d 2 ∑ i \u003d 1 n (1) \u003d 2 n
En d'autres termes, il peut s'écrire comme suit: d 2 F (a; b) \u003d 2 ∑ i \u003d 1 n (x i) 2 d 2 a + 2 2 ∑ x i i \u003d 1 n d a d b + (2 n) d 2 b.
Nous avons obtenu une matrice de forme quadratique de la forme M \u003d 2 ∑ i \u003d 1 n (x i) 2 2 ∑ i \u003d 1 n x i 2 ∑ i \u003d 1 n x i 2 n.
Dans ce cas, les valeurs des éléments individuels ne changeront pas en fonction de a et b. Cette matrice est-elle positive définie? Pour répondre à cette question, vérifions si ses mineurs de coin sont positifs.
Calculez le coin mineur du premier ordre: 2 ∑ i \u003d 1 n (x i) 2\u003e 0. Puisque les points x i ne coïncident pas, l'inégalité est stricte. Nous garderons cela à l'esprit dans nos calculs ultérieurs.
Nous calculons le coin mineur du second ordre:
d e t (M) \u003d 2 ∑ i \u003d 1 n (x i) 2 2 ∑ i \u003d 1 n x i 2 ∑ i \u003d 1 n x i 2 n \u003d 4 n ∑ i \u003d 1 n (x i) 2 - ∑ i \u003d 1 n x i 2
Après cela, nous passons à la preuve de l'inégalité n ∑ i \u003d 1 n (x i) 2 - ∑ i \u003d 1 n x i 2\u003e 0 en utilisant l'induction mathématique.
- Vérifions si cette inégalité est valable pour n arbitraire. Prenons 2 et comptons:
2 ∑ i \u003d 1 2 (xi) 2 - ∑ i \u003d 1 2 xi 2 \u003d 2 x 1 2 + x 2 2 - x 1 + x 2 2 \u003d \u003d x 1 2 - 2 x 1 x 2 + x 2 2 \u003d x 1 + x 2 2\u003e 0
Nous avons la bonne égalité (si les valeurs x 1 et x 2 ne correspondent pas).
- Supposons que cette inégalité sera vraie pour n, i.e. n ∑ i \u003d 1 n (x i) 2 - ∑ i \u003d 1 n x i 2\u003e 0 - vrai.
- Prouvons maintenant la validité pour n + 1, i.e. que (n + 1) ∑ i \u003d 1 n + 1 (xi) 2 - ∑ i \u003d 1 n + 1 xi 2\u003e 0 si n ∑ i \u003d 1 n (xi) 2 - ∑ i \u003d 1 nxi 2\u003e 0.
Nous calculons:
(n + 1) ∑ i \u003d 1 n + 1 (xi) 2 - ∑ i \u003d 1 n + 1 xi 2 \u003d \u003d (n + 1) ∑ i \u003d 1 n (xi) 2 + xn + 1 2 - ∑ i \u003d 1 nxi + xn + 1 2 \u003d \u003d n ∑ i \u003d 1 n (xi) 2 + n xn + 1 2 + ∑ i \u003d 1 n (xi) 2 + xn + 1 2 - - ∑ i \u003d 1 nxi 2 + 2 xn + 1 ∑ i \u003d 1 nxi + xn + 1 2 \u003d \u003d ∑ i \u003d 1 n (xi) 2 - ∑ i \u003d 1 nxi 2 + n xn + 1 2 - xn + 1 ∑ i \u003d 1 nxi + ∑ i \u003d 1 n (xi) 2 \u003d \u003d ∑ i \u003d 1 n (xi) 2 - ∑ i \u003d 1 nxi 2 + xn + 1 2 - 2 xn + 1 x 1 + x 1 2 + + xn + 1 2 - 2 xn + 1 x 2 + x 2 2 +. ... ... + xn + 1 2 - 2 xn + 1 x 1 + xn 2 \u003d \u003d n ∑ i \u003d 1 n (xi) 2 - ∑ i \u003d 1 nxi 2 + + (xn + 1 - x 1) 2 + (xn + 1 - x 2) 2 +. ... ... + (x n - 1 - x n) 2\u003e 0
L'expression entre accolades sera supérieure à 0 (d'après ce que nous avons supposé au point 2), et le reste des termes sera supérieur à 0, car ce sont tous des carrés de nombres. Nous avons prouvé l'inégalité.
Répondre: les trouvés a et b correspondront à la plus petite valeur de la fonction F (a, b) \u003d ∑ i \u003d 1 n (y i - (a x i + b)) 2, ce qui signifie qu'ils sont les paramètres requis de la méthode des moindres carrés (LSM).
Si vous remarquez une erreur dans le texte, veuillez le sélectionner et appuyez sur Ctrl + Entrée
Il a de nombreuses applications, car il permet une représentation approximative d'une fonction donnée par d'autres plus simples. L'OLS peut être extrêmement utile dans le traitement des observations, et il est activement utilisé pour estimer certaines quantités à partir des résultats de mesures d'autres qui contiennent des erreurs aléatoires. Cet article vous montrera comment implémenter les calculs des moindres carrés dans Excel.
Énoncé du problème à l'aide d'un exemple spécifique
Supposons qu'il y ait deux indicateurs X et Y. Et Y dépend de X. Étant donné que OLS nous intéresse du point de vue de l'analyse de régression (dans Excel, ses méthodes sont implémentées à l'aide de fonctions intégrées), vous devez immédiatement passer à un problème spécifique.
Donc, soit X l'espace de vente au détail d'une épicerie, mesuré en mètres carrés, et Y - le chiffre d'affaires annuel, mesuré en millions de roubles.
Il est nécessaire de faire une prévision du chiffre d'affaires (Y) du magasin s'il dispose d'un espace de vente particulier. Evidemment, la fonction Y \u003d f (X) est croissante, puisque l'hypermarché vend plus de marchandises que l'étal.
Quelques mots sur l'exactitude des données initiales utilisées pour la prédiction
Disons que nous avons une table construite à partir de données pour n magasins.
Selon les statistiques mathématiques, les résultats seront plus ou moins corrects si les données d'au moins 5 à 6 objets sont examinées. De plus, vous ne pouvez pas utiliser de résultats «anormaux». En particulier, une petite boutique d'élite peut avoir un chiffre d'affaires plusieurs fois supérieur au chiffre d'affaires des grands points de vente de la catégorie «masmarket».
Essence de méthode
Les données du tableau peuvent être affichées sur le plan cartésien sous forme de points M 1 (x 1, y 1),… M n (x n, y n). Maintenant la solution du problème se réduira à la sélection de la fonction d'approximation y \u003d f (x), avec un graphe passant le plus près possible des points M 1, M 2, .. M n.
Bien sûr, vous pouvez utiliser un polynôme de haut degré, mais cette option est non seulement difficile à implémenter, mais également tout simplement incorrecte, car elle ne reflétera pas la tendance principale que vous devez détecter. La solution la plus raisonnable est de trouver la droite y \u003d ax + b, qui se rapproche le mieux des données expérimentales, ou, plus précisément, des coefficients - a et b.
Évaluation de la précision
Pour toute approximation, une évaluation de sa précision est particulièrement importante. On note e i la différence (écart) entre les valeurs fonctionnelles et expérimentales pour le point x i, c'est-à-dire e i \u003d y i - f (x i).
Évidemment, pour estimer la précision d'approximation, la somme des écarts peut être utilisée, c'est-à-dire que lors du choix d'une ligne droite pour une représentation approximative de la dépendance de X sur Y, la préférence doit être donnée à celle avec la plus petite valeur de la somme e i à tous les points considérés. Cependant, tout n'est pas si simple, car avec les écarts positifs, des écarts négatifs seront pratiquement présents.
La question peut être résolue à l'aide des modules d'écarts ou de leurs carrés. Cette dernière méthode est la plus utilisée. Il est utilisé dans de nombreux domaines, y compris l'analyse de régression (Excel implémente deux fonctions intégrées), et a depuis longtemps fait ses preuves.
Méthode des moindres carrés
Dans Excel, comme vous le savez, il existe une fonction de somme automatique intégrée qui vous permet de calculer les valeurs de toutes les valeurs situées dans la plage sélectionnée. Ainsi, rien ne nous empêche de calculer la valeur de l'expression (e 1 2 + e 2 2 + e 3 2 + ... e n 2).
En notation mathématique, cela ressemble à:
Puisque la décision a été initialement prise de se rapprocher en utilisant une ligne droite, nous avons:
Ainsi, le problème de trouver une droite décrivant le mieux la dépendance spécifique des grandeurs X et Y se réduit au calcul du minimum d'une fonction de deux variables:
Cela nécessite de mettre à zéro les dérivées partielles par rapport aux nouvelles variables a et b, et de résoudre un système primitif constitué de deux équations à 2 inconnues de la forme:
Après quelques transformations simples, y compris la division par 2 et les manipulations avec des sommes, nous obtenons:
En le résolvant, par exemple, par la méthode de Cramer, nous obtenons un point stationnaire avec certains coefficients a * et b *. C'est le minimum, c'est-à-dire que pour prédire le chiffre d'affaires du magasin pour une certaine zone, la droite y \u003d a * x + b *, qui est un modèle de régression pour l'exemple en question, convient. Bien sûr, cela ne vous permettra pas de trouver un résultat exact, mais cela vous aidera à savoir si l'achat d'un magasin à crédit pour une zone particulière sera rentable.
Comment implémenter la méthode des moindres carrés dans Excel
Excel a une fonction pour calculer la valeur OLS. Il a la forme suivante: "TREND" (valeurs Y connues; valeurs X connues; nouvelles valeurs X; const.). Appliquons la formule de calcul de l'OLS dans Excel à notre tableau.
Pour ce faire, dans la cellule dans laquelle le résultat du calcul par la méthode des moindres carrés dans Excel doit être affiché, entrez le signe "\u003d" et sélectionnez la fonction "TENDANCE". Dans la fenêtre qui s'ouvre, remplissez les champs appropriés en mettant en évidence:
- la plage des valeurs connues de Y (dans ce cas, les données relatives au chiffre d'affaires);
- intervalle x 1,… x n, c'est-à-dire la taille de l'espace de vente au détail;
- valeurs connues et inconnues de x, pour lesquelles vous devez connaître la taille du chiffre d'affaires (pour plus d'informations sur leur emplacement sur la feuille de calcul, voir ci-dessous)
De plus, la formule contient la variable booléenne "Const". Si vous entrez 1 dans le champ correspondant, cela signifie que les calculs doivent être effectués, en supposant que b \u003d 0.
Si vous avez besoin de connaître la prévision pour plus d'une valeur x, après avoir entré la formule, vous ne devez pas appuyer sur "Entrée", mais vous devez taper sur le clavier la combinaison "Maj" + "Contrôle" + "Entrée" ("Entrée").
Certaines fonctionnalités
L'analyse de régression peut même être disponible pour les nuls. La formule Excel pour prédire la valeur d'un tableau de variables inconnues - "TREND" - peut être utilisée même par ceux qui n'ont jamais entendu parler de la méthode des moindres carrés. Il suffit de connaître certaines des caractéristiques de son travail. En particulier:
- Si vous organisez la plage de valeurs connues de la variable y dans une ligne ou une colonne, alors chaque ligne (colonne) avec des valeurs x connues sera perçue par le programme comme une variable distincte.
- Si la fenêtre "TENDANCE" ne contient pas de plage avec x connu, alors si la fonction est utilisée dans Excel, le programme la considérera comme un tableau composé d'entiers, dont le nombre correspond à la plage avec les valeurs spécifiées de la variable y.
- Pour obtenir un tableau de valeurs "prédites" en tant que sortie, l'expression de tendance doit être entrée sous forme de formule matricielle.
- Si aucune nouvelle valeur x n'est spécifiée, la fonction TREND les considère comme étant égales à connues. S'ils ne sont pas spécifiés, le tableau 1 est pris comme argument; 2; 3; 4;…, qui est proportionnel à l'intervalle avec les paramètres y déjà donnés.
- La plage contenant les nouvelles valeurs x doit être la même ou plusieurs lignes ou colonnes que la plage avec les valeurs y données. En d'autres termes, il doit être proportionnel aux variables indépendantes.
- Un tableau avec des valeurs x connues peut contenir plusieurs variables. Cependant, si nous ne parlons que d'un seul, il est nécessaire que les plages avec les valeurs données de x et y soient proportionnelles. Dans le cas de plusieurs variables, vous voulez que la plage avec les valeurs y données tienne dans une colonne ou une ligne.
Fonction PRÉVISION
Il est implémenté avec plusieurs fonctions. L'un d'eux s'appelle "PREVISION". Il est similaire à TREND, c'est-à-dire qu'il donne le résultat de calculs utilisant la méthode des moindres carrés. Cependant, seulement pour un X, pour lequel la valeur Y est inconnue.
Vous connaissez maintenant les formules dans Excel pour les nuls qui vous permettent de prédire la valeur future d'un indicateur donné selon une tendance linéaire.
Méthode des moindres carrés est utilisé pour estimer les paramètres de l'équation de régression.L'analyse de régression est l'une des méthodes pour étudier les connexions stochastiques entre les caractéristiques.
L'analyse de régression est la dérivation de l'équation de régression, à l'aide de laquelle la valeur moyenne d'une variable aléatoire (caractéristique-résultat) est trouvée, si la valeur d'une autre (ou d'autres) variables (caractéristiques-facteurs) est connue. Il comprend les étapes suivantes:
- choix de la forme de communication (type d'équation de régression analytique);
- estimation des paramètres d'équation;
- évaluation de la qualité de l'équation de régression analytique.
Dans le cas d'une connexion linéaire par paires, l'équation de régression prendra la forme: y i \u003d a + b x i + u i. Les paramètres de cette équation a et b sont estimés à partir des données d'observation statistique x et y. Le résultat d'une telle évaluation est l'équation:, où, sont les estimations des paramètres a et b, est la valeur de l'attribut effectif (variable), obtenue par l'équation de régression (valeur calculée).
Le plus souvent utilisé pour estimer les paramètres méthode des moindres carrés (OLS).
La méthode des moindres carrés donne les meilleures estimations (cohérentes, efficaces et sans biais) des paramètres de l'équation de régression. Mais seulement si certaines conditions préalables sont remplies concernant le terme aléatoire (u) et la variable indépendante (x) (voir les conditions préalables OLS).
Le problème de l'estimation des paramètres d'une équation linéaire appariée par la méthode des moindres carrés consiste en ce qui suit: obtenir de telles estimations de paramètres, pour lesquelles la somme des carrés des écarts des valeurs réelles de l'indicateur effectif - y i par rapport aux valeurs calculées - est minimale.
Officiellement critère OLS peut être écrit comme ceci: .
Classification des méthodes des moindres carrés
- Méthode des moindres carrés.
- Méthode du maximum de vraisemblance (pour le modèle de régression linéaire classique normal, la normalité des résidus de régression est postulée).
- La méthode OLS généralisée des moindres carrés est utilisée dans le cas de l'autocorrélation des erreurs et dans le cas de l'hétéroscédasticité.
- Méthode des moindres carrés pondérés (un cas particulier d'OLS avec des résidus hétéroscédastiques).
Illustrons l'essence la méthode classique des moindres carrés graphiquement... Pour ce faire, nous allons construire un dot plot en fonction des données d'observation (x i, y i, i \u003d 1; n) dans un système de coordonnées rectangulaires (un tel dot plot est appelé le champ de corrélation). Essayons de trouver une ligne droite la plus proche des points du champ de corrélation. Selon la méthode des moindres carrés, la ligne est choisie de telle sorte que la somme des carrés des distances verticales entre les points du champ de corrélation et cette ligne soit minimale.
Enregistrement mathématique de ce problème: .
Nous connaissons les valeurs y i et x i \u003d 1 ... n, ce sont des données d'observation. Dans la fonction S, ce sont des constantes. Les variables de cette fonction sont les estimations de paramètres requises - ,. Pour trouver le minimum d'une fonction de 2 variables, il faut calculer les dérivées partielles de cette fonction par rapport à chacun des paramètres et les assimiler à zéro, c'est-à-dire .
En conséquence, nous obtenons un système de 2 équations linéaires normales:
En résolvant ce système, nous trouvons les estimations de paramètres requises:
L'exactitude du calcul des paramètres de l'équation de régression peut être vérifiée en comparant les sommes (il peut y avoir un certain écart dû à l'arrondissement des calculs).
Pour calculer les estimations des paramètres, vous pouvez créer le tableau 1.
Le signe du coefficient de régression b indique le sens de la relation (si b\u003e 0, la relation est directe, si b<0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.
Formellement, la valeur du paramètre a est la valeur moyenne de y à x égale à zéro. Si le facteur d'attribut n'a pas et ne peut pas avoir une valeur nulle, alors l'interprétation ci-dessus du paramètre a n'a pas de sens.
Évaluation de l'étanchéité de la relation entre les signes
est effectuée en utilisant le coefficient de corrélation de paires linéaires - r x, y. Il peut être calculé à l'aide de la formule: ... De plus, le coefficient de corrélation linéaire par paire peut être déterminé par le coefficient de régression b: .
La plage de valeurs admissibles du coefficient de corrélation de paire linéaire est de –1 à +1. Le signe du coefficient de corrélation indique la direction du lien. Si r x, y\u003e 0, alors la connexion est directe; si r x, y<0, то связь обратная.
Si ce coefficient est proche de un en valeur absolue, alors la relation entre les caractéristiques peut être interprétée comme une relation linéaire assez proche. Si son module est égal à un ê r x, y ê \u003d 1, alors la connexion entre les caractéristiques est fonctionnelle linéaire. Si les caractéristiques x et y sont linéairement indépendantes, alors r x, y est proche de 0.
Pour calculer r x, y, vous pouvez également utiliser le tableau 1.
Tableau 1
Observation N | x i | y je | x i ∙ y i | ||
1 | x 1 | y 1 | x 1 y 1 | ||
2 | x 2 | y 2 | x 2 y 2 | ||
... | |||||
n | x n | y n | x n y n | ||
Somme des colonnes | ∑x | ∑y | ∑x y | ||
Signifier |
,
où d 2 est la variance y expliquée par l'équation de régression;
e 2 - variance résiduelle (non expliquée par l'équation de régression) y;
s 2 y - variance totale (totale) de y.
Le coefficient de détermination caractérise la proportion de la variation (variance) du trait effectif y, expliquée par la régression (et donc le facteur x), dans la variation totale (variance) y. Le coefficient de détermination R 2 yx prend des valeurs de 0 à 1. Par conséquent, la valeur 1-R 2 yx caractérise la proportion de variance y causée par l'influence d'autres facteurs non pris en compte dans le modèle et les erreurs de spécification.
Avec régression linéaire appariée R 2 yx \u003d r 2 yx.
Méthode des moindres carrés
Méthode des moindres carrés ( OLS, OLS, moindres carrés ordinaires) - l'une des méthodes de base de l'analyse de régression pour estimer les paramètres inconnus des modèles de régression sur la base de données d'échantillons. La méthode est basée sur la minimisation de la somme des carrés des résidus de régression.
Il convient de noter que la méthode des moindres carrés proprement dite peut être appelée méthode pour résoudre un problème dans n'importe quel domaine, si la solution consiste en ou satisfait à un critère pour minimiser la somme des carrés de certaines fonctions des variables souhaitées. Par conséquent, la méthode des moindres carrés peut également être utilisée pour une représentation approchée (approximation) d'une fonction donnée par d'autres fonctions (plus simples), lors de la recherche d'un ensemble de grandeurs satisfaisant des équations ou des contraintes dont le nombre dépasse le nombre de ces grandeurs, etc.
Essence d'OLS
Soit un modèle (paramétrique) de la dépendance probabiliste (régression) entre la variable (expliquée) y et de nombreux facteurs (variables explicatives) x
où est le vecteur des paramètres inconnus du modèle
- erreur aléatoire du modèle.Supposons également des exemples d'observations des valeurs de ces variables. Soit le numéro d'observation (). Viennent ensuite les valeurs des variables de la e observation. Ensuite, pour des valeurs données des paramètres b, il est possible de calculer les valeurs théoriques (modèle) de la variable expliquée y:
La quantité de résidus dépend des valeurs des paramètres b.
L'essence de l'OLS (ordinaire, classique) est de trouver de tels paramètres b pour lesquels la somme des carrés des résidus (eng. Somme résiduelle des carrés ) sera minime:
En général, ce problème peut être résolu par des méthodes d'optimisation numérique (minimisation). Dans ce cas, ils parlent de moindres carrés non linéaires (NLS ou NLLS - eng. Moindres carrés non linéaires). Dans de nombreux cas, une solution analytique peut être obtenue. Pour résoudre le problème de minimisation, il est nécessaire de trouver les points stationnaires de la fonction, en la différenciant par rapport aux paramètres inconnus b, en assimilant les dérivées à zéro et en résolvant le système d'équations résultant:
Si les erreurs aléatoires du modèle ont une distribution normale, ont la même variance et ne sont pas corrélées les unes aux autres, les estimations MCO des paramètres coïncident avec les estimations de la méthode du maximum de vraisemblance (MLM).
OLS dans le cas d'un modèle linéaire
Soit la dépendance de régression linéaire:
Laisser être y est le vecteur colonne des observations de la variable expliquée, et est la matrice des observations des facteurs (les lignes de la matrice sont les vecteurs des valeurs des facteurs dans cette observation, par colonnes - le vecteur des valeurs du facteur donné dans toutes les observations). La représentation matricielle du modèle linéaire est:
Alors le vecteur des estimations de la variable expliquée et le vecteur des résidus de régression seront égaux
par conséquent, la somme des carrés des résidus de régression sera
En différenciant cette fonction par rapport au vecteur de paramètres et en égalisant les dérivées à zéro, on obtient un système d'équations (sous forme matricielle):
.La solution de ce système d'équations donne la formule générale des estimations MCO pour le modèle linéaire:
À des fins d'analyse, la dernière représentation de cette formule est utile. Si dans le modèle de régression les données centré, alors dans cette représentation la première matrice a la signification de la matrice de covariance d'échantillon de facteurs, et la seconde est le vecteur de covariance des facteurs avec la variable dépendante. Si, en plus, les données sont également normalisé à SKO (c'est-à-dire finalement normalisé), alors la première matrice a le sens d'une matrice de corrélation sélective de facteurs, le deuxième vecteur est un vecteur de corrélations sélectives de facteurs avec une variable dépendante.
Une propriété importante des estimations MCO pour les modèles avec constante - la ligne de la régression construite passe par le centre de gravité des données de l'échantillon, c'est-à-dire que l'égalité est remplie:
En particulier, dans le cas extrême, lorsque le seul régresseur est une constante, on constate que l'estimation MCO du seul paramètre (la constante elle-même) est égale à la valeur moyenne de la variable expliquée. Autrement dit, la moyenne arithmétique, connue pour ses bonnes propriétés des lois des grands nombres, est également une estimation MCO - elle satisfait le critère de la somme minimale des carrés des écarts par rapport à elle.
Exemple: régression la plus simple (par paires)
Dans le cas de la régression linéaire par paires, les formules de calcul sont simplifiées (vous pouvez vous passer de l'algèbre matricielle):
Propriétés des estimations OLS
Tout d'abord, nous notons que pour les modèles linéaires, les estimations MCO sont des estimations linéaires, comme il ressort de la formule ci-dessus. Pour le non-biais des estimations MCO, il est nécessaire et suffisant de remplir la condition la plus importante de l'analyse de régression: l'espérance mathématique d'une erreur aléatoire, conditionnelle en termes de facteurs, doit être égale à zéro. Cette condition, en particulier, est remplie si
- l'espérance mathématique d'erreurs aléatoires est nulle, et
- les facteurs et les erreurs aléatoires sont des variables aléatoires indépendantes.
La deuxième condition - la condition des facteurs exogènes - est fondamentale. Si cette propriété n'est pas satisfaite, alors nous pouvons supposer que presque toutes les estimations seront extrêmement insatisfaisantes: elles ne seront même pas cohérentes (c'est-à-dire que même une très grande quantité de données ne permet pas d'obtenir des estimations qualitatives dans ce cas). Dans le cas classique, une hypothèse plus forte est faite sur le déterminisme des facteurs, par opposition à une erreur aléatoire, ce qui signifie automatiquement la réalisation de la condition exogène. Dans le cas général, pour la cohérence des estimations, il suffit de satisfaire la condition d'exogénéité avec la convergence de la matrice vers une matrice non dégénérée lorsque la taille de l'échantillon augmente à l'infini.
Pour que, en plus de la cohérence et du non-biais, les estimations des moindres carrés (ordinaires) soient efficaces (les meilleures de la classe des estimations linéaires sans biais), il est nécessaire de remplir des propriétés supplémentaires d'une erreur aléatoire:
Ces hypothèses peuvent être formulées pour la matrice de covariance du vecteur d'erreurs aléatoires
Un modèle linéaire satisfaisant ces conditions est appelé classique... Les estimations MCO pour la régression linéaire classique sont sans biais, cohérentes et les estimations les plus efficaces dans la classe de toutes les estimations linéaires sans biais (dans la littérature anglaise, l'abréviation BLEU (Meilleur estimateur linéaire sans suralimentation) est la meilleure estimation linéaire sans biais; dans la littérature nationale, le théorème de Gauss-Markov est souvent cité). Il est facile de montrer que la matrice de covariance du vecteur des estimations de coefficients sera égale à:
OLS généralisé
La méthode des moindres carrés peut être largement généralisée. Au lieu de minimiser la somme des carrés des résidus, on peut minimiser une forme quadratique définie positive du vecteur résiduel, où se trouve une matrice symétrique de poids défini positive. L'OLS ordinaire est un cas particulier de cette approche, lorsque la matrice de poids est proportionnelle à la matrice d'identité. Comme cela est connu de la théorie des matrices symétriques (ou opérateurs), il existe une décomposition pour de telles matrices. Par conséquent, la fonctionnelle spécifiée peut être représentée comme suit, c'est-à-dire que cette fonctionnelle peut être représentée comme la somme des carrés de certains «résidus» transformés. Ainsi, nous pouvons distinguer une classe de méthodes des moindres carrés - les méthodes LS (Least Squares).
Il a été prouvé (théorème d'Aitken) que pour un modèle de régression linéaire généralisé (dans lequel aucune restriction n'est imposée à la matrice de covariance des erreurs aléatoires), les plus efficaces (dans la classe des estimations linéaires sans biais) sont les estimations de ce que l'on appelle oLS généralisé (OLS, GLS - Moindres carrés généralisés) - Méthode LS avec une matrice de poids égale à la matrice de covariance inverse des erreurs aléatoires:.
On peut montrer que la formule des estimations MCO des paramètres d'un modèle linéaire a la forme
La matrice de covariance de ces estimations sera donc égale à
En fait, l'essence de l'OLS est une certaine transformation (linéaire) (P) des données d'origine et l'application de l'OLS habituel aux données transformées. Le but de cette transformation est que pour les données transformées, les erreurs aléatoires satisfont déjà les hypothèses classiques.
OLS pondéré
Dans le cas d'une matrice de poids diagonale (et donc d'une matrice de covariance d'erreurs aléatoires), nous avons ce que l'on appelle les moindres carrés pondérés (WLS). Dans ce cas, la somme pondérée des carrés des résidus du modèle est minimisée, c'est-à-dire que chaque observation reçoit un «poids» inversement proportionnel à la variance de l'erreur aléatoire dans cette observation:. En fait, les données sont transformées en pondérant les observations (en divisant par une valeur proportionnelle à l'écart-type estimé des erreurs aléatoires), et des MCO régulières sont appliquées aux données pondérées.
Quelques cas particuliers d'utilisation d'OLS dans la pratique
Approximation de dépendance linéaire
Considérons le cas où, à la suite de l'étude de la dépendance d'une certaine quantité scalaire sur une certaine quantité scalaire (Cela peut être, par exemple, la dépendance de la tension sur l'intensité du courant:, où est une valeur constante, la résistance du conducteur), des mesures de ces grandeurs ont été effectuées, à la suite de quoi valeurs et leurs valeurs correspondantes. Les données de mesure doivent être enregistrées dans un tableau.
Table. Résultats de mesure.
No. de mesure | ||
---|---|---|
1 | ||
2 | ||
3 | ||
4 | ||
5 | ||
6 |
La question est: quelle valeur du coefficient peut être choisie pour décrire au mieux la relation? Selon le LSM, cette valeur doit être telle que la somme des carrés des écarts des quantités par rapport aux quantités
était minime
La somme des carrés des écarts a un extremum - un minimum, ce qui nous permet d'utiliser cette formule. Trouvons la valeur du coefficient à partir de cette formule. Pour ce faire, transformez son côté gauche comme suit:
La dernière formule nous permet de trouver la valeur du coefficient, qui était requise dans le problème.
L'histoire
Jusqu'au début du 19ème siècle. les scientifiques n'avaient pas de règles définies pour résoudre un système d'équations dans lequel le nombre d'inconnues est inférieur au nombre d'équations; Jusque-là, des méthodes particulières étaient utilisées, en fonction du type d'équations et de l'esprit des calculatrices, et donc différentes calculatrices, basées sur les mêmes données d'observation, arrivaient à des conclusions différentes. Gauss (1795) fut l'auteur de la première application de la méthode, et Legendre (1805) la découvrit et la publia indépendamment sous le nom moderne (fr. Méthode des moindres quarrés ). Laplace a lié la méthode à la théorie des probabilités, et le mathématicien américain Edrain (1808) a examiné ses applications probabilistes. La méthode a été diffusée et améliorée par des recherches supplémentaires menées par Encke, Bessel, Hansen et d'autres.
Utilisation alternative de l'OLS
L'idée de la méthode des moindres carrés peut également être utilisée dans d'autres cas non directement liés à l'analyse de régression. Le fait est que la somme des carrés est l'une des mesures de proximité les plus courantes pour les vecteurs (la métrique euclidienne dans les espaces de dimension finie).
L'une des applications est la "solution" de systèmes d'équations linéaires dans lesquels le nombre d'équations est supérieur au nombre de variables
où la matrice n'est pas carrée mais rectangulaire.
Un tel système d'équations, dans le cas général, n'a pas de solution (si le rang est effectivement supérieur au nombre de variables). Par conséquent, ce système ne peut être «résolu» que dans le sens de choisir un tel vecteur afin de minimiser la «distance» entre les vecteurs et. Pour ce faire, vous pouvez appliquer le critère de minimisation de la somme des carrés des différences entre les côtés gauche et droit des équations du système, c'est-à-dire. Il est facile de montrer que la résolution de ce problème de minimisation conduit à résoudre le système d'équations suivant
L'essence de la méthode des moindres carrés est à trouver les paramètres du modèle de tendance, qui décrit le mieux la tendance dans le développement de tout phénomène aléatoire dans le temps ou dans l'espace (la tendance est la ligne qui caractérise la tendance de cette évolution). La tâche de la méthode des moindres carrés (MCO) est réduite à trouver non seulement un modèle de tendance, mais aussi à trouver le modèle meilleur ou optimal. Ce modèle sera optimal si la somme des écarts types entre les valeurs réelles observées et les valeurs de tendance calculées correspondantes est minimale (la plus petite):
où est l'écart au carré entre la valeur réelle observée
et la valeur de tendance calculée correspondante,
La valeur réelle (observée) du phénomène étudié,
La valeur calculée du modèle de tendance,
Le nombre d'observations du phénomène étudié.
OLS est rarement utilisé seul. En règle générale, il n'est le plus souvent utilisé que comme technique nécessaire pour les études de corrélation. Il ne faut pas oublier que la base d'information de l'OLS ne peut être qu'une série statistique fiable et que le nombre d'observations ne doit pas être inférieur à 4, sinon les procédures de lissage OLS risquent de perdre leur bon sens.
La boîte à outils OLS est réduite aux procédures suivantes:
Première procédure. On découvre s’il existe généralement une tendance à modifier l’attribut effectif lorsque l’argument-facteur sélectionné change, ou en d’autres termes, existe-t-il un lien entre " à "Et" x ».
Deuxième procédure. On détermine quelle ligne (trajectoire) est la mieux à même de décrire ou de caractériser cette tendance.
Troisième procédure.
Exemple... Disons que nous avons des informations sur le rendement moyen de tournesol pour la ferme étudiée (tableau 9.1).
Tableau 9.1
Numéro d'observation |
||||||||||
Productivité, c / ha |
Étant donné que le niveau de technologie dans la production de tournesol dans notre pays n'a pratiquement pas changé au cours des 10 dernières années, ce qui signifie que, très probablement, les fluctuations de rendement au cours de la période analysée étaient très dépendantes des fluctuations des conditions météorologiques et climatiques. Est-ce vraiment le cas?
Première procédure OLS. L'hypothèse est testée sur l'existence d'une tendance à modifier le rendement du tournesol en fonction de l'évolution des conditions météorologiques et climatiques sur les 10 années analysées.
Dans cet exemple, pour " y "Il est conseillé de prendre le rendement du tournesol, et pour" x »- le numéro de l'année observée dans la période analysée. Tester l'hypothèse de l'existence de toute relation entre " x "Et" y »Peut être effectué de deux manières: manuellement et à l'aide de programmes informatiques. Bien sûr, en présence de la technologie informatique, ce problème est résolu par lui-même. Mais afin de mieux comprendre la boîte à outils OLS, il est conseillé de tester l'hypothèse de l'existence d'un lien entre " x "Et" y »Manuellement, quand seuls un stylo et une calculatrice ordinaire sont à portée de main. Dans de tels cas, l'hypothèse de l'existence d'une tendance est mieux vérifiée visuellement par l'emplacement de l'image graphique de la série de dynamiques analysée - le champ de corrélation:
Le champ de corrélation dans notre exemple est situé autour d'une ligne à croissance lente. Cela en soi parle de l'existence d'une certaine tendance dans l'évolution du rendement du tournesol. Il est impossible de parler de la présence d'une tendance uniquement lorsque le champ de corrélation ressemble à un cercle, un cercle, un nuage strictement vertical ou strictement horizontal, ou qu'il est constitué de points dispersés de manière chaotique. Dans tous les autres cas, l'hypothèse de l'existence d'une relation entre " x "Et" y », Et continuez les recherches.
Deuxième procédure OLS. On détermine quelle ligne (trajectoire) est la mieux à même de décrire ou de caractériser la tendance des changements du rendement du tournesol au cours de la période analysée.
En présence de la technologie informatique, la sélection de la tendance optimale se produit automatiquement. Dans le cas d'un traitement "manuel", le choix de la fonction optimale est effectué, en règle générale, par une méthode visuelle - en fonction de l'emplacement du champ de corrélation. Autrement dit, selon le type de graphique, l'équation de la ligne est choisie qui correspond le mieux à la tendance empirique (à la trajectoire réelle).
Comme vous le savez, dans la nature, il existe une grande variété de dépendances fonctionnelles, il est donc extrêmement difficile d'analyser même une petite partie d'entre elles visuellement. Heureusement, dans la pratique économique réelle, la plupart des relations peuvent être décrites assez précisément soit par une parabole, soit par une hyperbole, soit par une ligne droite. À cet égard, avec l'option «manuelle» de sélection de la meilleure fonction, vous pouvez vous limiter à ces trois modèles uniquement.
Hyperbole: |
||
Parabole de second ordre: :
Il est facile de voir que dans notre exemple, la tendance du changement de rendement du tournesol au cours des 10 années analysées est mieux caractérisée par une ligne droite, donc l'équation de régression sera une équation de ligne droite.
Troisième procédure. Les paramètres de l'équation de régression caractérisant la ligne donnée sont calculés, ou en d'autres termes, une formule analytique est déterminée qui décrit le meilleur modèle de tendance.
Trouver les valeurs des paramètres de l'équation de régression, dans notre cas les paramètres et, est au cœur de l'OLS. Ce processus se réduit à résoudre un système d'équations normales.
(9.2)
Ce système d'équations est assez facilement résolu par la méthode gaussienne. Rappelons qu'à la suite de la solution, dans notre exemple, les valeurs des paramètres et sont trouvées. Ainsi, l'équation de régression trouvée ressemblera à ceci: