Intervalles de confiance pour les fréquences et les battements. Intervalle de confiance pour estimer la moyenne (la variance est connue) dans MS EXCEL
Supposons que nous ayons un grand nombre d'articles avec une distribution normale de certaines caractéristiques (par exemple, un entrepôt complet du même type de légumes, dont la taille et le poids varient). Vous voulez connaître les caractéristiques moyennes de l'ensemble du lot de marchandises, mais vous n'avez ni le temps ni l'envie de mesurer et peser chaque légume. Vous comprenez que ce n'est pas nécessaire. Mais combien devraient être échantillonnés?
Avant de donner quelques formules utiles pour cette situation, nous rappelons quelques notations.
Premièrement, si nous mesurions néanmoins l'ensemble de l'entrepôt de légumes (cet ensemble d'éléments s'appelle la population générale), alors nous saurions avec toute la précision dont nous disposons le poids moyen de l'ensemble du lot. Appelons cette moyenne X mer .g fr ... - moyenne générale. Nous savons déjà qu'il est déterminé complètement si nous connaissons sa valeur moyenne et son écart s . Certes, jusqu'à présent, nous ne sommes ni une génération moyenne X. Nis nous ne connaissons pas la population générale. Nous ne pouvons prélever qu'un certain échantillon, mesurer les valeurs dont nous avons besoin et calculer pour cet échantillon à la fois la valeur moyenne de X cf. et l'écart type S select.
On sait que si notre échantillon de contrôle contient un grand nombre d'éléments (généralement n est supérieur à 30), ils sont pris vraiment aléatoire, puis s de la population générale ne différera guère du choix S.
De plus, pour le cas d'une distribution normale, on peut utiliser les formules suivantes:
Avec une probabilité de 95%
Avec une probabilité de 99%
Sous forme générale, avec probabilité Р (t)
La relation entre la valeur de t et la valeur de la probabilité P (t), avec laquelle on veut connaître l'intervalle de confiance, peut être tirée du tableau suivant:
Ainsi, nous avons déterminé dans quelle fourchette se situe la valeur moyenne pour la population générale (avec une probabilité donnée).
Si nous n'avons pas un échantillon assez grand, nous ne pouvons pas dire que la population a s \u003d S sélectionner. De plus, dans ce cas, la proximité de l'échantillon avec la distribution normale est problématique. Dans ce cas, utilisez également le choix S au lieu des dans la formule:
mais la valeur de t pour une probabilité fixe P (t) dépendra du nombre d'éléments dans l'échantillon n. Plus n est grand, plus l'intervalle de confiance obtenu sera proche de la valeur donnée par la formule (1). Les valeurs de t dans ce cas sont tirées d'une autre table (test t de Student), que nous donnons ci-dessous:
Valeurs du test t de Student pour les probabilités 0,95 et 0,99
Exemple 3. 30 personnes ont été sélectionnées au hasard parmi les employés de l'entreprise. Pour l'échantillon, il s'est avéré que le salaire moyen (par mois) est de 30 mille roubles, avec un écart carré moyen de 5 mille roubles. Avec une probabilité de 0,99, déterminez le salaire moyen dans l'entreprise.
Décision:Par hypothèse, on a n \u003d 30, X cf. \u003d 30 000, S \u003d 5 000, P \u003d 0,99. Pour trouver l'intervalle de confiance, nous utiliserons la formule correspondant au critère de Student. D'après le tableau pour n \u003d 30 et P \u003d 0,99, nous trouvons t \u003d 2,756, donc,
ceux. recherché la confiance intervalle 27484< Х ср.ген
< 32516.
Ainsi, avec une probabilité de 0,99, on peut affirmer que l'intervalle (27484; 32516) contient le salaire moyen dans l'entreprise.
Nous espérons que vous utiliserez cette méthode, mais vous n'avez pas besoin d'avoir une table avec vous à chaque fois. Les calculs peuvent être effectués automatiquement dans Excel. Dans le fichier Excel, cliquez sur le bouton fx dans le menu supérieur. Ensuite, sélectionnez parmi les fonctions le type "statistique", et dans la liste proposée dans la fenêtre - STYUDRESIST. Ensuite, selon l'indice, en plaçant le curseur dans le champ «probabilité», tapez la valeur de la probabilité inverse (c'est-à-dire, dans notre cas, au lieu de la probabilité 0,95, vous devez taper la probabilité 0,05). Apparemment, la feuille de calcul est conçue de manière à ce que le résultat réponde à la question de savoir dans quelle mesure nous pouvons nous tromper. De même, dans le champ de degré de liberté, entrez une valeur (n-1) pour votre sélection.
Intervalle de confiance (IC; en anglais, intervalle de confiance - IC) obtenu dans une étude avec un échantillon donne une mesure de l'exactitude (ou de l'incertitude) des résultats de l'étude afin de tirer des conclusions sur la population de tous ces patients (population générale). La définition correcte de l'IC à 95% peut être formulée comme suit: 95% de ces intervalles contiendront la vraie valeur dans la population. Cette interprétation est un peu moins précise: CI est la plage de valeurs dans laquelle on peut être sûr à 95% qu'elle contient la vraie valeur. Lors de l'utilisation d'IC, l'accent est mis sur la quantification de l'effet, par opposition à la valeur P obtenue en testant la signification statistique. La valeur P ne mesure aucune quantité, mais sert plutôt de mesure de la force de la preuve par rapport à l'hypothèse nulle de "sans effet". La valeur P en elle-même ne nous dit rien sur l'ampleur de la différence, ni même sur sa direction. Par conséquent, les valeurs indépendantes de P ne sont absolument pas informatives dans les articles ou les résumés. En revanche, l'IC indique à la fois la quantité d'effet d'intérêt immédiat, comme l'utilité d'un traitement, et la force des preuves. Par conséquent, JI est directement liée à la pratique de l'EBM.
L'approche d'évaluation de l'analyse statistique illustrée par l'IC vise à mesurer l'ampleur de l'effet d'intérêt (sensibilité du test diagnostique, taux d'incidence prévu, réduction du risque relatif dans le traitement, etc.), ainsi qu'à mesurer l'incertitude de cet effet. Le plus souvent, l'IC est la plage de valeurs des deux côtés de l'estimation, dans laquelle la valeur réelle est susceptible de se trouver, et vous pouvez en être sûr à 95%. L'accord d'utiliser arbitrairement la probabilité de 95%, ainsi que la valeur P<0,05 для оценки статистической значимости, и авторы иногда используют 90% или 99% ДИ. Заметим, что слово «интервал» означает диапазон величин и поэтому стоит в единственном числе. Две величины, которые ограничивают интервал, называются «доверительными пределами».
L'IC est basé sur l'idée que la même étude réalisée sur d'autres échantillons de patients ne conduirait pas à des résultats identiques, mais que leurs résultats seraient répartis autour d'une valeur vraie mais inconnue. En d'autres termes, l'IC décrit cela comme une «variabilité dépendante de l'échantillon». L'IC ne reflète pas l'incertitude supplémentaire due à d'autres causes; en particulier, il n'inclut pas les effets d'une perte sélective du patient dans le suivi, d'une mauvaise observance ou d'une mesure inexacte des résultats, d'un manque de mise en aveugle, etc. L'IC sous-estime donc toujours le montant total de l'incertitude.
Calcul de l'intervalle de confiance
Tableau A1.1. Erreurs standard et intervalles de confiance pour certaines mesures cliniques
En général, l'IC est calculé à partir d'une estimation observée d'une mesure quantitative, telle que la différence (d) entre deux proportions, et une erreur standard (SE) dans l'estimation de cette différence. L'IC approximatif à 95% ainsi obtenu est d ± 1,96 SE. La formule change selon la nature de la mesure du résultat et la couverture de l'IC. Par exemple, dans un essai randomisé et contrôlé par placebo portant sur le vaccin anticoquelucheux acellulaire, 72 des 1 670 (4,3%) nourrissons qui ont reçu le vaccin ont développé la coqueluche et 240 des 1 665 (14,4%) témoins. La différence de pourcentage, appelée réduction du risque absolu, est de 10,1%. Le SE de cette différence est de 0,99%. En conséquence, l'IC à 95% est de 10,1% + 1,96 x 0,99%, soit de 8,2 à 12,0.
Malgré des approches philosophiques différentes, les IC et les tests de signification statistique sont étroitement liés mathématiquement.
Ainsi, la valeur P est "significative", c'est-à-dire R<0,05 соответствует 95% ДИ, который исключает величину эффекта, указывающую на отсутствие различия. Например, для различия между двумя средними пропорциями это ноль, а для относительного риска или отношения шансов - единица. При некоторых обстоятельствах эти два подхода могут быть не совсем эквивалентны. Преобладающая точка зрения: оценка с помощью ДИ - предпочтительный подход к суммированию результатов исследования, но ДИ и величина Р взаимодополняющи, и во многих статьях используются оба способа представления результатов.
L'incertitude (incertitude) de l'estimation, exprimée en CI, est en grande partie liée à la racine carrée de la taille de l'échantillon. Les petits échantillons fournissent moins d'informations que les grands, et l'IC est proportionnellement plus large dans le plus petit échantillon. Par exemple, un article comparant les caractéristiques de trois tests utilisés pour diagnostiquer une infection à Helicobacter pylori rapportait une sensibilité de 95,8% du test respiratoire à l'urée (IC à 95% 75-100). Alors que le nombre de 95,8% semble impressionnant, un petit échantillon de 24 patients adultes atteints d'I. Pylori signifie qu'il existe une incertitude significative dans cette estimation, comme le montre l'IC général. En effet, la limite inférieure de 75% est bien inférieure à l'estimation de 95,8%. Si la même sensibilité était observée dans un échantillon de 240 personnes, alors l'IC à 95% serait de 92,5 à 98,0, ce qui donnerait plus de garanties que le test est très sensible.
Dans les essais contrôlés randomisés (ECR), les résultats non significatifs (c'est-à-dire ceux avec P\u003e 0,05) sont particulièrement susceptibles d'être mal interprétés. L'IC est particulièrement utile ici car il montre à quel point les résultats sont cohérents avec l'effet réel cliniquement bénéfique. Par exemple, dans un ECR comparant l'anastomose par suture et agrafage au côlon, une infection de la plaie s'est développée chez 10,9% et 13,5% des patients, respectivement (P \u003d 0,30). L'IC à 95% pour cette différence est de 2,6% (-2 à +8). Même dans cette étude portant sur 652 patients, la probabilité demeure qu'il existe une différence modeste dans l'incidence des infections résultant des deux procédures. Moins il y a de recherche, plus il y a d'incertitude. Sung et coll. a réalisé un ECR pour comparer la perfusion d'octréotide à la sclérothérapie d'urgence pour le saignement variqueux aigu chez 100 patients. Dans le groupe octréotide, le taux de contrôle des saignements était de 84%; dans le groupe sclérothérapie - 90%, ce qui donne P \u003d 0,56. Notez que les taux de saignement en cours sont similaires à ceux de l'infection des plaies dans l'étude mentionnée. Dans ce cas, cependant, l'IC à 95% de la différence d'intervention est de 6% (-7 à +19). Cette fourchette est assez large par rapport à la différence de 5% qui présenterait un intérêt clinique. De toute évidence, l'étude n'exclut pas des différences d'efficacité significatives. Par conséquent, la conclusion des auteurs «la perfusion d'octréotide et la sclérothérapie sont tout aussi efficaces dans le traitement des hémorragies variqueuses» est définitivement invalide. Dans des cas comme celui-ci, où, comme ici, l'IC à 95% pour la réduction du risque absolu (ARR) comprend zéro, l'IC pour le nombre à traiter (NST) est plutôt difficile à interpréter. ... Le NPLP et son IC sont dérivés de l'inverse de l'ACP (multiplié par 100 si ces valeurs sont données en pourcentages). Ici, nous obtenons BPPP \u003d 100: 6 \u003d 16,6 avec un IC à 95% de -14,3 à 5,3. Comme vous pouvez le voir dans la note de bas de page "d" dans le tableau. A1.1, cet IC comprend les valeurs BPHP de 5,3 à l'infini et les valeurs BPHP de 14,3 à l'infini.
Les IC peuvent être construits pour les estimations ou comparaisons statistiques les plus couramment utilisées. Pour les ECR, il comprend la différence entre les proportions moyennes, les risques relatifs, les rapports de cotes et les NPP. De même, des IC peuvent être obtenus pour toutes les principales estimations faites dans les études d'exactitude des tests diagnostiques - sensibilité, spécificité, valeur prédictive positive (qui sont toutes des proportions simples) et rapports de vraisemblance - estimations à partir de méta-analyses et d'études de comparaison avec le contrôle. Un programme informatique pour ordinateurs personnels qui couvre bon nombre de ces utilisations de l'identification est disponible avec la deuxième édition de Statistics with Confidence. Des macros de calcul des IC pour les proportions sont disponibles gratuitement pour Excel et les programmes statistiques SPSS et Minitab à l'adresse http://www.uwcm.ac.uk/study/medicine/epidemiology_statistics / research / statistics / proportions, htm.
Évaluations multiples de l'effet du traitement
Bien que les IC soient souhaitables pour les résultats des tests primaires, ils ne sont pas obligatoires pour tous les résultats. L'IC traite des comparaisons cliniquement pertinentes. Par exemple, lors de la comparaison de deux groupes, l'IC qui est construit pour distinguer les groupes, comme indiqué dans les exemples ci-dessus, est correct, et non l'IC qui peut être construit pour l'évaluation dans chaque groupe. Non seulement il est inutile de donner des IC séparés pour les notations dans chaque groupe, mais cette représentation peut être trompeuse. De même, l'approche correcte pour comparer l'efficacité du traitement dans différents sous-groupes consiste à comparer directement deux (ou plus) sous-groupes. Il est incorrect de supposer que le traitement n'est efficace que dans un sous-groupe si son IC n'exclut aucun effet et d'autres non. Les IC sont également utiles pour comparer les résultats de plusieurs sous-groupes. En figue. Un 1.1 montre le risque relatif d'éclampsie chez les femmes atteintes de prééclampsie dans un sous-groupe de femmes d'un ECR contrôlé par placebo sur le sulfate de magnésium.
Figure: A1.2. Le graphique forestier montre les résultats de 11 essais cliniques randomisés sur le vaccin antirotavirus bovin pour la prévention de la diarrhée par rapport au placebo. Un IC à 95% a été utilisé pour estimer le risque relatif de diarrhée. La taille du carré noir est proportionnelle à la quantité d'informations. De plus, le score d'efficacité totale du traitement et l'intervalle de confiance à 95% (indiqué par un losange) sont indiqués. La méta-analyse a utilisé un modèle à effets aléatoires qui dépasse certains modèles préétablis; par exemple, il peut s'agir de la taille utilisée pour calculer la taille de l'échantillon. Pour un critère plus strict, l'ensemble de la gamme CI devrait montrer des bénéfices supérieurs à un minimum prédéterminé.
Nous avons déjà discuté de l'erreur dans laquelle l'absence de signification statistique est considérée comme une indication que deux traitements sont également efficaces. Il est tout aussi important de ne pas assimiler la signification statistique à la signification clinique. L'importance clinique peut être présumée lorsque le résultat est statistiquement significatif et l'ampleur de l'évaluation de l'efficacité du traitement
La recherche peut montrer si les résultats sont statistiquement significatifs et lesquels sont cliniquement importants et lesquels ne le sont pas. En figue. A1.2 montre les résultats de quatre tests pour lesquels l'ensemble de l'IC<1, т.е. их результаты статистически значимы при Р <0,05 , . После высказанного предположения о том, что клинически важным различием было бы сокращение риска диареи на 20% (ОР = 0,8), все эти испытания показали клинически значимую оценку сокращения риска, и лишь в исследовании Treanor весь 95% ДИ меньше этой величины. Два других РКИ показали клинически важные результаты, которые не были статистически значимыми. Обратите внимание, что в трёх испытаниях точечные оценки эффективности лечения были почти идентичны, но ширина ДИ различалась (отражает размер выборки). Таким образом, по отдельности доказательная сила этих РКИ различна.
En statistique, il existe deux types d'estimations: ponctuelle et intervalle. Estimation ponctuelle est une statistique d'échantillon unique utilisée pour estimer un paramètre d'une population. Par exemple, la moyenne de l'échantillon est une estimation ponctuelle de l'espérance mathématique de la population générale et de la variance de l'échantillon S 2 - estimation ponctuelle de la variance de la population générale σ 2... il a été montré que la moyenne de l'échantillon est une estimation non biaisée de l'espérance mathématique de la population générale. La moyenne de l'échantillon est appelée sans biais parce que la moyenne de toutes les moyennes de l'échantillon (pour la même taille d'échantillon n) est égale à l'espérance mathématique de la population générale.
Afin que la variance de l'échantillon S 2 est devenue une estimation non biaisée de la variance de la population σ 2, le dénominateur de la variance de l'échantillon doit être égal à n – 1 , mais non n... En d'autres termes, la variance de la population générale est la moyenne de toutes les variances possibles de l'échantillon.
Lors de l'évaluation des paramètres de la population générale, il convient de garder à l'esprit que des exemples de statistiques, tels que , dépendent d'échantillons spécifiques. Pour tenir compte de ce fait, pour obtenir estimation d'intervalle les attentes mathématiques de la population générale analysent la distribution des moyennes des échantillons (voir détails). L'intervalle construit est caractérisé par un certain niveau de confiance, qui est la probabilité que le vrai paramètre de la population générale soit estimé correctement. Des intervalles de confiance similaires peuvent être utilisés pour estimer la proportion d'une entité r et la principale masse distribuée de la population générale.
Téléchargez une note au format ou des exemples au format
Construction de l'intervalle de confiance pour l'espérance mathématique de la population générale avec un écart type connu
Construction d'un intervalle de confiance pour la part d'une entité dans la population générale
Dans cette section, le concept d'intervalle de confiance est étendu aux données catégorielles. Cela vous permet d'estimer la part du trait dans la population générale. r en utilisant une fréquence d'échantillonnage r S \u003d X /n... Comme indiqué, si les quantités nr et n(1 - p) dépasser le nombre 5, la distribution binomiale peut être approximée par une distribution normale. Par conséquent, pour évaluer la part d'une caractéristique dans la population générale r on peut construire un intervalle dont le niveau de confiance est (1 - α) х100%.
où p S - une part sélective d'une caractéristique égale à X /n, c'est à dire. le nombre de succès divisé par la taille de l'échantillon, r - la part de la fonctionnalité dans la population générale, Z - la valeur critique de la distribution normale normalisée, n - taille de l'échantillon.
Exemple 3. Supposons qu'un échantillon soit extrait du système d'information, composé de 100 factures complétées au cours du dernier mois. Disons que 10 de ces factures sont faites avec des erreurs. Donc, r \u003d 10/100 \u003d 0,1. Le niveau de confiance de 95% correspond à la valeur critique Z \u003d 1,96.
Ainsi, la probabilité que 4,12% à 15,88% des factures contiennent des erreurs est de 95%.
Pour une taille d'échantillon donnée, l'intervalle de confiance contenant la part d'une caractéristique dans la population générale semble être plus large que pour une variable aléatoire continue. En effet, les mesures d'une variable aléatoire continue contiennent plus d'informations que les mesures de données catégorielles. En d'autres termes, les données catégorielles ne prenant que deux valeurs ne contiennent pas suffisamment d'informations pour estimer les paramètres de leur distribution.
DANScalculer des estimations dérivées d'une population finie
Estimation de l'espérance mathématique.Facteur de correction pour la population finale ( fpc) a été utilisé pour diminuer l'erreur standard d'un facteur. Lors du calcul des intervalles de confiance pour les estimations de population, un facteur de correction est appliqué dans les situations où des échantillons sont extraits sans être retournés. Ainsi, l'intervalle de confiance pour l'espérance mathématique ayant un niveau de confiance égal à (1 - α) х100%, est calculé par la formule:
Exemple 4.Pour illustrer l'application du facteur de correction pour la population finale, revenons au problème du calcul de l'intervalle de confiance pour le montant moyen des factures discuté ci-dessus dans l'exemple 3. Supposons qu'une entreprise émette 5000 factures par mois, et X \u003d 110,27 dollars., S \u003d 28,95 $ N = 5000, n = 100, α \u003d 0,05, t 99 \u003d 1,9842. Par formule (6) on obtient:
Évaluation de la part de la fonctionnalité.Lors du choix sans retour, l'intervalle de confiance pour la fraction d'une entité ayant un niveau de confiance égal à (1 - α) х100%, est calculé par la formule:
Intervalles de confiance et problèmes éthiques
Des problèmes d'éthique se posent souvent lors de l'échantillonnage de la population et de la formulation de conclusions statistiques. Le principal est la concordance des intervalles de confiance et des estimations ponctuelles des statistiques de l'échantillon. La publication d'estimations ponctuelles sans intervalles de confiance appropriés (généralement des niveaux de confiance de 95%) et la taille des échantillons dont elles sont dérivées peut être trompeuse. Cela peut donner à l'utilisateur l'impression que l'estimation ponctuelle est exactement ce dont il a besoin pour prédire les propriétés de l'ensemble de la population. Ainsi, il est nécessaire de comprendre que dans toute recherche, les estimations d'intervalle doivent être placées au premier plan. En outre, une attention particulière doit être accordée à la sélection correcte des tailles d'échantillon.
Le plus souvent, les objets de manipulation statistique sont les résultats de sondages sociologiques de la population sur diverses questions politiques. Dans le même temps, les résultats de l'enquête sont portés à la une des journaux, et l'erreur de la recherche de l'échantillon et la méthodologie de l'analyse statistique sont imprimées quelque part au milieu. Pour prouver la validité des estimations ponctuelles obtenues, il est nécessaire d'indiquer la taille de l'échantillon sur la base de laquelle elles ont été obtenues, les limites de l'intervalle de confiance et son niveau de signification.
Note suivante
Matériel utilisé du livre Levin et autres statistiques pour les gestionnaires. - M .: Williams, 2004 - p. 448-462
Théorème de la limite centrale fait valoir que pour une taille d'échantillon suffisamment grande, la distribution de l'échantillon des moyennes peut être approximée par une distribution normale. Cette propriété ne dépend pas du type de répartition de la population générale.
Dans cet article, vous apprendrez:
Quoi intervalle de confiance?
Quelle est l'essence 3 règles sigma?
Comment ces connaissances peuvent-elles être appliquées dans la pratique?
De nos jours, en raison d'une surabondance d'informations associée à un large assortiment de produits, de zones de vente, de salariés, de domaines d'activité, etc., il peut être difficile de mettre en évidence le principal, ce que, tout d'abord, il convient de prêter attention et de faire des efforts pour gérer. Définition intervalle de confiance et l'analyse du dépassement des limites de ses valeurs réelles - une technique qui vous aide à mettre en évidence des situations, influencer le changement des tendances.Vous pourrez développer des facteurs positifs et réduire l'influence des facteurs négatifs. Cette technologie est utilisée dans de nombreuses entreprises mondiales bien connues.
Il y a des soi-disant " alertes "lequel informer les gestionnaires que la valeur suivante est dans une certaine direction est allé au-delà intervalle de confiance... Qu'est-ce que ça veut dire? C'est un signal qu'un événement non standard s'est produit, ce qui, peut-être, changera la tendance actuelle dans cette direction. C'est le signal au fait comprendre dans la situation et comprendre ce qui l'a influencé.
Par exemple, considérons quelques situations. Nous avons calculé les prévisions de ventes avec des limites de prévision pour 100 articles de produit pour 2011 par mois et en mars les ventes réelles:
- Pour «l'huile de tournesol», ils ont franchi la limite supérieure de la prévision et ne sont pas tombés dans l'intervalle de confiance.
- Pour la «levure sèche», ils sont allés au-delà de la limite inférieure de la prévision.
- Sur la «bouillie d'avoine», la limite supérieure était dépassée.
Pour le reste des marchandises, les ventes réelles se situaient dans les limites de prévision spécifiées. Ceux. leurs ventes ont été conformes aux attentes. Nous avons donc identifié 3 produits qui allaient au-delà des frontières, et avons commencé à comprendre ce qui a influencé le dépassement des frontières:
- En ce qui concerne l'huile de tournesol, nous sommes entrés dans un nouveau réseau de distribution, ce qui nous a apporté des ventes supplémentaires, ce qui a conduit à dépasser la limite supérieure. Pour ce produit, il convient de recalculer la prévision jusqu'à la fin de l'année, en tenant compte des prévisions de ventes sur ce réseau.
- Quant à «Dry Yeast», la voiture s'est bloquée à la douane, et un déficit s'est formé en 5 jours, ce qui a affecté la baisse des ventes et le dépassement de la frontière inférieure. Il peut être utile de comprendre quelle en était la raison et d'essayer de ne pas répéter cette situation.
- Un événement de promotion des ventes a été lancé pour la bouillie d'avoine, ce qui a donné une augmentation significative des ventes et conduit à aller au-delà des prévisions.
Nous avons identifié 3 facteurs qui ont influencé le dépassement des limites de prévision. Il peut y en avoir beaucoup plus dans la vie. Pour améliorer la précision des prévisions et de la planification, les facteurs qui conduisent au fait que les ventes réelles peuvent dépasser les limites des prévisions, il convient de mettre en évidence et de construire des prévisions et des plans séparément. Et puis considérez leur impact sur les principales prévisions de ventes. Vous pouvez également évaluer régulièrement l'impact de ces facteurs et changer la situation pour le mieux pour en réduisant l'influence du négatif et en augmentant l'influence des facteurs positifs.
Avec l'intervalle de confiance, nous pouvons:
- Mettre en évidence les directions, qui méritent une attention particulière, car événements survenus dans ces directions et pouvant affecter changement de tendance.
- Identifier les facteursqui affectent vraiment le changement de situation.
- Accepter décision équilibrée (par exemple, sur l'approvisionnement, la planification, etc.).
Voyons maintenant ce qu'est un intervalle de confiance et comment le calculer dans Excel à l'aide d'un exemple.
Qu'est-ce qu'un intervalle de confiance?
L'intervalle de confiance correspond aux limites de prévision (supérieure et inférieure), à \u200b\u200bl'intérieur desquelles avec une probabilité donnée (sigma) les valeurs réelles seront incluses.
Ceux. nous calculons la prévision - c'est notre principal point de référence, mais nous comprenons que les valeurs réelles sont peu susceptibles d'être égales à 100% à nos prévisions. Et la question se pose, dans quelles limites les valeurs réelles peuvent être incluses, si la tendance actuelle se poursuit? Et cette question nous aidera à répondre calcul de l'intervalle de confiance, c'est à dire. - limites supérieure et inférieure de la prévision.
Quelle est une probabilité sigma donnée?
Lors du calcul intervalle de confiance que nous pouvons définir la probabilité les coups valeurs réelles dans les limites de prévision données... Comment faire? Pour ce faire, nous définissons la valeur sigma et, si sigma est égal:
3 sigma - alors, la probabilité que la valeur réelle suivante tombe dans l'intervalle de confiance sera de 99,7%, soit 300 à 1, ou il y a une probabilité de 0,3% de dépasser les limites.
2 sigma - alors la probabilité d'atteindre la valeur suivante dans les limites est ≈ 95,5%, c'est-à-dire les chances sont d'environ 20 contre 1, ou il y a 4,5% de chances de sortir des limites.
1 sigma - alors la probabilité est ≈ 68,3%, soit les chances sont d'environ 2 à 1, ou il y a 31,7% de chances que la valeur suivante tombe en dehors de l'intervalle de confiance.
Nous avons formulé règle 3 sigma,qui dit que probabilité de frapper valeur aléatoire suivante dans l'intervalle de confiance avec une valeur donnée trois sigma est 99,7%.
Le grand mathématicien russe Chebyshev a prouvé le théorème selon lequel il y a une probabilité de 10% de dépasser les limites de prévision avec une valeur donnée de trois sigma. Ceux. la probabilité de tomber dans l'intervalle de confiance de 3 sigma sera d'au moins 90%, tandis qu'une tentative de calculer la prévision et ses limites «à l'œil nu» est semée d'erreurs beaucoup plus significatives.
Comment calculer vous-même l'intervalle de confiance dans Excel?
Considérons le calcul de l'intervalle de confiance dans Excel (c'est-à-dire les limites supérieure et inférieure de la prévision) à l'aide d'un exemple. Nous avons une série chronologique - ventes par mois sur 5 ans. Voir fichier joint.
Pour calculer les limites des prévisions, nous calculons:
- Prévisions de ventes().
- Sigma - écart type modèles de prévision à partir de valeurs réelles.
- Trois sigma.
- Intervalle de confiance.
1. Prévisions des ventes.
\u003d (RC [-14] (données en séries chronologiques) - RC [-1] (valeur du modèle)) ^ 2 (au carré)
3. Résumons pour chaque mois les valeurs des écarts par rapport à l'étape 8 Sum ((Xi-Ximod) ^ 2), soit résumer janvier, février ... pour chaque année.
Pour ce faire, utilisez la formule \u003d SUMIF ()
SUMIF (un tableau avec les numéros des périodes à l'intérieur du cycle (pour les mois de 1 à 12); référence au numéro de la période dans le cycle; référence au tableau avec les carrés de la différence entre les données initiales et les valeurs de période)
4. Calculons l'écart type pour chaque période du cycle de 1 à 12 (10 étapes dans le fichier joint).
Pour ce faire, nous extrayons la racine de la valeur calculée à l'étape 9 et divisons par le nombre de périodes de ce cycle moins 1 \u003d ROOT ((Sum (Xi-Ximod) ^ 2 / (n-1))
Utilisons des formules dans Excel \u003d ROOT (R8 (référence à (Sum (Xi-Ximod) ^ 2)/ (COUNTIF ($ O 8 $: $ O $ 67 (référence à un tableau avec des numéros de cycle); O8 (référence à un numéro de cycle spécifique, qui sont comptés dans le tableau))-1))
En utilisant la formule Excel \u003d COUNTIF on compte le nombre n
En calculant l'écart type des données réelles à partir du modèle de prévision, nous avons obtenu la valeur sigma pour chaque mois - étape 10 dans le fichier joint .
3. Calculons 3 sigma.
À l'étape 11, nous définissons le nombre de sigma - dans notre exemple "3" (étape 11 dans le fichier joint):
Les valeurs sigma pratiques sont également:
1,64 sigma - 10% de chances de dépasser la limite (1 chance sur 10);
1,96 sigma - 5% de chances de sortir des limites (1 chance sur 20);
2,6 sigma - 1% de chance de sortir des limites (1 chance sur 100).
5) Calcul de trois sigma, pour cela, nous multiplions les valeurs "sigma" de chaque mois par "3".
3. Déterminez l'intervalle de confiance.
- La limite supérieure de la prévision - prévision des ventes tenant compte de la croissance et de la saisonnalité + (plus) 3 sigma;
- Limite inférieure de la prévision - prévision des ventes tenant compte de la croissance et de la saisonnalité - (moins) 3 sigma;
Pour faciliter le calcul de l'intervalle de confiance sur une longue période (voir fichier joint), nous utiliserons la formule Excel \u003d Y8 + RECHERCHEV (W8; $ U $ 8: $ V $ 19; 2; 0)où
Y8 - prévisions de ventes;
W8 - le numéro du mois pour lequel nous prendrons la valeur 3-sigma;
Ceux. La limite supérieure de la prévision \u003d "Prévisions des ventes" + "3 sigma" (dans l'exemple, RECHERCHEV (numéro du mois; table avec 3 valeurs sigma; colonne à partir de laquelle nous extrayons la valeur sigma égale au numéro du mois dans la ligne correspondante; 0)).
Limite inférieure de la prévision \u003d "Prévisions de ventes" moins "3 sigma".
Nous avons donc calculé l'intervalle de confiance dans Excel.
Nous avons maintenant une prévision et une plage avec des limites dans lesquelles les valeurs réelles tomberont avec une probabilité donnée de sigma.
Dans cet article, nous avons examiné ce que sont sigma et la règle des trois sigma, comment déterminer l'intervalle de confiance et pourquoi vous pouvez utiliser cette technique dans la pratique.
Prévisions précises et succès!
Que Forecast4AC PRO peut vous aiderlors du calcul de l'intervalle de confiance?:
Forecast4AC PRO calculera automatiquement les limites supérieures ou inférieures de la prévision pour plus de 1000 séries temporelles simultanément;
La capacité d'analyser les limites de la prévision en comparaison avec la prévision, la tendance et les ventes réelles sur le graphique avec une seule touche;
Forcast4AC PRO a la possibilité de définir une valeur sigma de 1 à 3.
Rejoignez-nous!
Téléchargez des applications gratuites de prévision et d'analyse commerciale:
- Novo Forecast Lite - automatique calcul des prévisions dans Exceller.
- 4analytique - Analyse ABC-XYZ et analyse des émissions en Exceller.
- Qlik Sense Bureau et QlikViewPersonal Edition - Systèmes BI pour l'analyse et la visualisation des données.
Testez les capacités des solutions payantes:
- Prévisions Novo PRO - prévision dans Excel pour les grands ensembles de données.
Souvent, un évaluateur doit analyser le marché immobilier du segment dans lequel se trouve l'objet d'évaluation. Si le marché est développé, il peut être difficile d'analyser l'ensemble des objets présentés, par conséquent, un échantillon d'objets est utilisé pour l'analyse. Cet échantillon ne s'avère pas toujours homogène, il est parfois nécessaire de le débarrasser des extrêmes - offres de marché trop élevées ou trop basses. À cette fin s'applique intervalle de confiance... Le but de cette étude est d'effectuer une analyse comparative de deux méthodes de calcul de l'intervalle de confiance et de choisir l'option de calcul optimale lorsque l'on travaille avec différents échantillons dans le système estimatica.pro.
L'intervalle de confiance est un intervalle de valeurs caractéristiques calculées sur la base d'un échantillon qui, avec une probabilité connue, contient le paramètre estimé de la population générale.
Le sens du calcul de l'intervalle de confiance est de construire, sur la base des données d'échantillon, un tel intervalle de sorte qu'il puisse être affirmé avec une probabilité donnée que la valeur du paramètre estimé se trouve dans cet intervalle. En d'autres termes, l'intervalle de confiance avec une certaine probabilité contient la valeur inconnue de la valeur estimée. Plus l'intervalle est large, plus l'inexactitude est élevée.
Il existe différentes méthodes pour déterminer l'intervalle de confiance. Dans cet article, nous examinerons 2 façons:
- par la médiane et l'écart type;
- par la valeur critique de la statistique t (coefficient de Student).
Étapes de l'analyse comparative des différentes méthodes de calcul de l'IC:
1. nous formons un échantillon de données;
2. nous la traitons par des méthodes statistiques: nous calculons la moyenne, la médiane, la variance, etc.;
3. nous calculons l'intervalle de confiance de deux manières;
4. Analysez les échantillons nettoyés et les intervalles de confiance obtenus.
Étape 1. Échantillonnage des données
L'échantillon a été formé à l'aide du système estimatica.pro. L'échantillon comprenait 91 offres de vente d'appartements 1 pièce dans la 3ème zone de prix avec le type de disposition «Khrouchtchevka».
Tableau 1. Échantillon initial
Prix \u200b\u200bpour 1 m2, d.e. |
|
Fig. 1. Échantillon initial
Étape 2. Traitement de l'échantillon original
Le traitement d'un échantillon par des méthodes statistiques nécessite le calcul des valeurs suivantes:
1. Moyenne arithmétique
2. Médiane - un nombre caractérisant l'échantillon: exactement la moitié de l'échantillon est supérieure à la médiane, l'autre moitié est inférieure à la médiane
(pour un échantillon avec un nombre impair de valeurs)
3. Span - la différence entre les valeurs maximale et minimale de l'échantillon
4. Variance - utilisé pour une estimation plus précise de la variation des données
5. L'écart type de l'échantillon (ci-après - RMS) est l'indicateur le plus courant de la dispersion des valeurs d'ajustement autour de la moyenne arithmétique.
6. Coefficient de variation - reflète le degré de dispersion des valeurs d'ajustement
7. coefficient d'oscillation - reflète la fluctuation relative des valeurs extrêmes des prix dans l'échantillon autour de la moyenne
Tableau 2. Indicateurs statistiques de l’échantillon initial
Le coefficient de variation, qui caractérise l'uniformité des données, est de 12,29%, mais le coefficient d'oscillation est trop grand. Ainsi, nous pouvons affirmer que l'échantillon d'origine n'est pas homogène, passons donc au calcul de l'intervalle de confiance.
Étape 3. Calcul de l'intervalle de confiance
Méthode 1. Calcul par la médiane et l'écart type.
L'intervalle de confiance est déterminé comme suit: la valeur minimale - l'écart type est soustrait de la médiane; valeur maximale - l'écart type est ajouté à la médiane.
Ainsi, l'intervalle de confiance (CU 47179; CU 60689)
Figure: 2. Valeurs comprises dans l'intervalle de confiance 1.
Méthode 2. Construction de l'intervalle de confiance par la valeur critique des statistiques t (coefficient de Student)
S.V. Gribovsky dans son livre "Mathematical Methods for Assessing the Value of Property" décrit une méthode pour calculer l'intervalle de confiance par le coefficient de Student. Lors du calcul par cette méthode, l'évaluateur lui-même doit fixer le niveau de signification ∝, qui détermine la probabilité avec laquelle l'intervalle de confiance sera construit. Des niveaux de signification de 0,1 sont couramment utilisés; 0,05 et 0,01. Des probabilités de confiance de 0,9 leur correspondent; 0,95 et 0,99. Avec cette méthode, les vraies valeurs de l'espérance mathématique et de la variance sont supposées être pratiquement inconnues (ce qui est presque toujours vrai lors de la résolution de problèmes d'estimation pratiques).
Formule d'intervalle de confiance:
n est la taille de l'échantillon;
La valeur critique des statistiques t (distribution de Student) avec un niveau de signification ∝, le nombre de degrés de liberté n-1, qui est déterminé par des tableaux statistiques spéciaux ou en utilisant MS Excel (→ "Statistique" → STYUDRASPOBR);
∝ - le niveau de signification, nous prenons ∝ \u003d 0,01.
Figure: 2. Valeurs comprises dans l'intervalle de confiance 2.
Étape 4. Analyse des différentes méthodes de calcul de l'intervalle de confiance
Deux méthodes de calcul de l'intervalle de confiance - par la médiane et le coefficient de Student - ont conduit à des valeurs différentes des intervalles. En conséquence, nous avons obtenu deux échantillons nettoyés différents.
Tableau 3. Indicateurs statistiques pour trois échantillons.
Indice |
Échantillon initial |
Option 1 |
Option 2 |
Signifier |
|||
Dispersion |
|||
Coef. variations |
|||
Coef. oscillations |
|||
Nombre d'objets retirés, pcs. |
Sur la base des calculs effectués, on peut dire que les valeurs des intervalles de confiance obtenues par différentes méthodes se croisent, par conséquent, n'importe laquelle des méthodes de calcul peut être utilisée à la discrétion de l'évaluateur.
Cependant, nous pensons que lorsque vous travaillez dans le système estimatica.pro, il est conseillé de choisir une méthode de calcul de l'intervalle de confiance en fonction du degré de développement du marché:
- si le marché n'est pas développé, appliquez la méthode de calcul à travers la médiane et l'écart type, car le nombre d'objets retirés dans ce cas est faible;
- si le marché est développé, appliquer le calcul par la valeur critique de la statistique t (coefficient de Student), car il est possible de former un large échantillon initial.
Lors de la préparation de l'article, les éléments suivants ont été utilisés:
1. Gribovsky S.V., Sivets S.A., Levykina I.A. Méthodes mathématiques pour évaluer la valeur de la propriété. Moscou, 2014
2. Données du système Estimatica.pro