Понятия статистической значимости и статистического критерия. Определение значимости воздействия Усреднение по обучающему множеству
В каких случаях вы принимаете научное открытие всерьез? Когда оно «значимо»?
Паранормальные события по определению являются экстраординарными и выходят за рамки мира обычной науки. Если вы делаете ошибочный вывод о том, что результат не случаен, а имеет конкретную причину, то это ошибка I рода. (Ошибочный вывод в том, что реальный неслучайный эффект - всего лишь результат случайности, называется ошибкой II рода.) Говоря проще, ошибка 1 рода - это когда вы считаете, что «происходит что-то необычное», тогда как на самом деле все идет своим чередом. В данном тексте мы рассмотрим процедуру сверки с реальностью, призванную выявлять ошибки I рода.
Пусть ученый проводит эксперимент с целью определить, стоит ли за неким явлением - скажем, необычайной способно стью выигрывать в лотерею, читать мысли или предсказывать результаты выборов - какая-то конкретная причина или это чистая случайность. Пусть далее наш ученый получит подряд несколько позитивных результатов. В конце концов игрок в покер может иногда получить удачные карты, в этом нет ничего таинственного. Да и в лотерею люди иногда выигрывают.
К счастью, существуют статистические процедуры для оценки вероятности ошибки I рода. К примеру, мы считаем, что выигрыши в лотерее распределяются совершенно случайно и честно, так что выигрыш каждого человека зависит исключительно от удачи. При этом некоторым людям все же выпадают выигрыши. Если выигрышей больше, чем можно было ожидать, мы можем заподозрить, что лотерея работает не совсем случайно. Возможно, кто-нибудь жульничает или здесь работают паранормальные силы. Чтобы разобраться в происходящем, статистики вычисляют, сколько выигрышных билетиков должно быть предъявлено, чтобы мы сделали вывод о том, что происходит нечто странное. Может быть, по законам случайности на один миллион участников должно приходиться 10, 100 или даже 1000 выигрышей. Любое число, превышающее 10, 100 или 1000, вызовет подозрения. Но как выбрать допустимое число выигрышей? Все зависит от того, чем вы готовы рискнуть. Насколько вы боитесь совершить ошибку I рода.
«Уровень риска» совершения ошибки I рода называется a-уровнем. Традиционно многие ученые ориентируются на а-уровень 5 % (0,05), но иногда используются и другие уровни (1 % (0,01) и 0,1 % (0,001)). Так, а-уровень 5 % означает, что лотерея становится по-настоящему подозрительной. Если же уровень уверенности не превышает 5 %, т. е. вероятность ошибки не превышает 1/20. Иногда уровень вероятности для краткости называют p-величиной. В научных докладах можно часто встретить следующие утверждения (не забывайте, что при этом р лучше, т. е. меньше, 0,05, и, соответственно, результаты эксперимента значимы):
Мы сравнили уровень успешности предсказания пятидесяти экстрасенсов и пятидесяти людей без заявленных паранормальных способностей. Предсказания экстрасенсов оправдывались в 45 % случаев, предсказания обычных людей - в 41 % случаев.
Предсказания экстрасенсов были точны значительно чаще, чем предсказания обычных людей (р = 0,02). Вывод: результаты эксперимента свидетельствуют о том, что экстрасенсы могут предсказывать будущее.
Если эксперимент не подтвердил точности предсказаний экстрасенсов, отчет может выглядеть примерно так:
Мы сравнили уровень успешности предсказания пятидесяти экстрасенсов и пятидесяти людей без заявленных паранормальных способностей. Предсказания экстрасенсов оправдывались в 44 % случаев, предсказания обычных людей - в 43 % случаев. Превышение успешности предсказаний экстрасенсов по отношению к предсказаниям обычных людей не было статистически значимым (р = 0,12). Вывод: результаты эксперимента не подтверждают вывод о том, что экстрасенсы могут предсказывать будущее.
Обратите внимание: ученые говорят о «статистической значимости» явления, если полученная в ходе эксперимента «-величина не превышает принятого в эксперименте уровня значимости (a-уровня)». Утверждение «Этот результат является статистически значимым, р = 0,02» можно перевести примерно так: «Мы уверены, что этот результат - не просто удача или случайность. Наша статистика показывает, что вероятность ошибки составляет всего 2 шанса из 100, а это лучше, чем уровень 5/100, принятый большинством ученых».
Способ, при помощи которого вычисляется а-уровень для статистических данных, останется за пределами этой книги. Однако заметим, что эта задача может оказаться весьма сложной. К примеру, многократное повторение одного и того же эксперимента может создавать совершенно особую проблему, о которой иногда забывают исследователи паранормального. Любой эксперимент сам по себе напоминает бросание монетки. Со временем при многократном повторении вы можете по чистой случайности получить желаемый результат. В гипотетическом исследовании предсказаний экстрасенсов и обычных людей, о котором мы говорили выше, некоторые участники (как экстрасенсы, так и неэкстрасенсы), вполне воз можно, сделали удачное предсказание случайно. Мы уже объяснили, что статистики умеют оценивать уровень вероятности и учитывать его при обработке результатов. Точно так же, если повторить этот эксперимент сотни раз, исследуя каждый раз по 50 экстрасенсов и неэкстрасенсов, в некоторых случаях доля успешных предсказаний у экстрасенсов обязательно окажется выше - по чистой случайности. Минимум, что вы должны сделать, - это изменить a-уровень так, чтобы учесть возросший риск ложноположительного решения.
Исследователи, которые многократно повторяют один и тот же эксперимент (или учитывают большое количество параметров водном эксперименте), вынуждены принимать дополнительные меры, чтобы исключить ложноположительное решение. Некоторые из них пользуются тестом, придуманным Карло Эмилио Бонферрони (Bonferroni, 1935), и делят а-уровень (0,05 или 0,01) на число экспериментов (или параметров), чтобы скомпенсировать тем самым возросшую вероятность ошибочного результата. Новый a-уровень отражает более жесткие критерии, при помощи которых придется в этом случае оценивать достоверность проведенного исследования. Ведь, если провести аналогию с бросанием костей, вы увеличиваете вероятность выигрыша за счет большого количества бросков. К примеру, если вы провели 100 экспериментов по экстрасенсорному предсказанию будущего (или один эксперимент, в котором попросили участников предсказать поведение 100 отдельных трупп объектов, таких как спортивные матчи, номера лотерейных билетов, природные события и т. д.), то новый a-уровень у вас будет 0,0005 (0,05/100). Таким образом, если после статистической обработки результатов вашего исследования окажется, что уровень достоверности составляет всего 0,05. В данном случае это будет означать, что значимых результатов вам получить не удалось.
Возможно, вы плохо разбираетесь в статистике и с трудом понимаете, о чем идет речь. Тем не менее Бонферрони снабдил нас очень удобным инструментом оценки, пользоваться которым совсем не трудно. При помощи этого инструмента вы всегда можете понять, не возбуждают ли результаты того или иного исследования ложных надежд. Сосчитайте число экспериментов, о которых идет речь. Или число различных «исходящих» переменных, которые подвергались исследованию. Разделите 0,05 на число экспериментов или переменных и получите новое пороговое значение. Уровень достоверности исследования, о котором идет речь, должен быть не выше этого значения (т. е. меньше или равен ему). Только тогда вы можете быть уверены в значимости полученных результатов. Ниже приведен гипотетический отчет об исследовании зеленого чая. Можете ли вы определить, почему он вводит читателя в заблуждение?
Мы проверили действие зеленого чая на успеваемость. В двойном слепом исследовании с применением плацебо, 20 учащихся получали зеленый чай, а еще 20 - подкрашенную воду, похожую на зеленый чай. Участники эксперимента пили чай каждый день в течение месяца. Мы проверяли 5 переменных: средний балл, экзаменационные оценки, оценки за письменные работы, оценки за работу в классе и посещаемость. За письменные работы те, кто пил зеленый чай, получили в среднем «5», а те, кто пил воду, - в среднем «4». Это значимая разница, р = 0,02. Вывод: зеленый чай повышает успеваемость.
А вот тот же отчет с поправкой на тест Бонферрони:
Мы проверили действие зеленого чая на успеваемость. В двойном слепом исследовании с применением плацебо, 20 учащихся получали зеленый чай, а еще 20 - подкрашенную воду, похожую на зеленый чай. Участники эксперимента пили чай каждый день в течение месяца. Мы проверяли 5 переменных: средний балл, экзаменационные оценки, оценки за письменные работы, оценки за работу в классе и посещаемость. Лучше всего зеленый чай сказался на качестве письменных работ. Здесь те, кто пил зеленый чай, получили в среднем «5», а те, кто пил воду, - в среднем «4». Разница в оценках дает нам р = 0,02. Однако этот результат не удовлетворяет а-уровню с поправкой Бонферрони (0,01). Вывод: зеленый чай не повышает успеваемость.
Определение показателей значимости через градиент
Нейронная сеть двойственного функционирования может вычислять градиент функции оценки по входным сигналам и обучаемым параметрам сети.
Показателем значимости параметра при решении q- о примера будем называть величину, которая показывает насколько изменится значение функции оценки решения сетью q- о примера если текущее значение параметра w p заменить на выделенное значение w p . Точно эту величину можно определить произведя замену и вычислив оценку сети. Однако учитывая большое число параметров сети вычисление показателей значимости для всех параметров будет занимать много времени. Для ускорения процедуры оценки параметров значимости вместо точных значений используют различные оценки . Рассмотрим простейшую и наиболее используемую линейную оценку показателей значимости. Разложим функцию оценки в ряд Тейлора с точностью до членов первого порядка:
где H 0 q - значение функции оценки решения q- о примера при w =w. Таким образом показатель значимости p- о параметра при решении q- о примера определяется по следующей формуле:
Показатель значимости (1) может вычисляться для различных объектов. Наиболее часто его вычисляют для обучаемых параметров сети. Однако показатель значимости вида (1) применим и для сигналов. Как уже отмечалось в главе сеть при обратном функционировании всегда вычисляет два вектора градиента - градиент функции оценки по обучаемым параметрам сети и по всем сигналам сети. Если показатель значимости вычисляется для выявления наименее значимого нейрона, то следует вычислять показатель значимости выходного сигнала нейрона. Аналогично, в задаче определения наименее значимого входного сигнала нужно вычислять значимость этого сигнала, а не сумму значимостей весов связей, на которые этот сигнал подается.
Усреднение по обучающему множеству
Показатель значимости параметра X q p зависит от точки в пространстве параметров, в которой он вычислен и от примера из обучающего множества. Существует два принципиально разных подхода для получения показателя значимости параметра, не зависящего от примера. При первом подходе считается, что в обучающей выборке заключена полная информация о всех возможных примерах. В этом случае, под показателем значимости понимают величину, которая показывает насколько изменится значение функции оценки по обучающему множеству, если текущее значение параметра w p заменить на выделенное значение w p . Эта величина вычисляется по следующей формуле:
В рамках другого подхода обучающее множество рассматривают как случайную выборку в пространстве входных параметров. В этом случае показателем значимости по всему обучающему множеству будет служить результат некоторого усреднения по обучающей выборке.
Существует множество способов усреднения. Рассмотрим два из них. Если в результате усреднения показатель значимости должен давать среднюю значимость, то такой показатель вычисляется по следующей формуле:
Если в результате усреднения показатель значимости должен давать величину, которую не превосходят показатели значимости по отдельным примерам (значимость этого параметра по отдельному примеру не больше чем О§ p), то такой показатель вычисляется по следующей формуле:
Накопление показателей значимости
Все показатели значимости зависят от точки в пространстве параметров сети, в которой они вычислены, и могут сильно изменяться при переходе от одной точки к другой. Для показателей значимости, вычисленных с использованием градиента эта зависимость еще сильнее, поскольку при обучении по методу наискорейшего спуска (см. раздел ) в двух соседних точках пространства параметров, в которых вычислялся градиент, градиенты ортогональны. Для снятия зависимости от точки пространства используются показатели значимости, вычисленные в нескольких точках. Далее они усредняются по формулам аналогичным (3) и (4). Вопрос о выборе точек в пространстве параметров в которых вычислять показатели значимости обычно решается просто. В ходе нескольких шагов обучения по любому из градиентных методов при каждом вычислении градиента вычисляются и показатели значимости. Число шагов обучения, в ходе которых накапливаются показатели значимости, должно быть не слишком большим, поскольку при большом числе шагов обучения первые вычисленные показатели значимости теряют смысл, особенно при использовании усреднения по формуле (4).
Из анализа литературы и опыта работы группы НейроКомп можно сформулировать следующие задачи, решаемые с помощью контрастирования нейронных сетей.
1. Упрощение архитектуры нейронной сети.
2. Уменьшение числа входных сигналов.
3. Сведение параметров нейронной сети к небольшому набору выделенных значений.
4. Снижение требований к точности входных сигналов.
5. Получение явных знаний из данных.
Алгоритмы контрастирования, рассматриваемые в данной главе, позволяют выделить минимально необходимое множество входных сигналов. Использование минимального набора входных сигналов позволяет более экономично организовать работу нейркомпьютера. Однако у минимального множества есть свои недостатки. Поскольку множество минимально, то информация, несомая одним из сигналов, как правило не подкрепляется другими входными сигналами. Это приводит к тому, что при ошибке в одном входном сигнале сеть ошибается с большой степенью вероятности. При избыточном наборе входных сигналов этого как правило не происходит, поскольку информация каждого сигнала подкрепляется (дублируется) другими сигналами.
Таким образом возникает противоречие - использование исходного избыточного множества сигналов неэкономично, а использование минимального набора сигналов приводит к повышению риска ошибок. В этой ситуации правильным является компромиссное решение - необходимо найти такое минимальное множество, в котором вся информация дублируется. В данном разделе рассматриваются методы построения таких множеств, повышенной надежности. Кроме того, построение дублей второго рода позволяет установить какие из входных сигналов не имеют дублей в исходном множестве сигналов. Попадание такого «уникального» сигнала в минимальное множество является сигналом о том, что при использовании нейронной сети для решения данной задачи следует внимательно следить за правильностью значения этого сигнала.
Существует два типа процедуры контрастирования - контрастирование по значимости параметров и не ухудшающее контрастирование. В данном разделе описаны оба типа процедуры контрастирования.
В данном разделе описан способ определения показателей значимости параметров и сигналов. Далее будем говорить об определении значимости параметров. Показатели значимости сигналов сети определяются по тем же формулам с заменой параметров на сигналы.
Как вы думаете, что делает вашу «вторую половинку» особенной, значимой? Это связано с ее (его) личностью или с вашими чувствами, которые вы испытываете к этому человеку? А может, с простым фактом, что гипотеза о случайности вашей симпатии, как показывают исследования, имеет вероятность менее 5%? Если считать последнее утверждение достоверным, то успешных сайтов знакомств не существовало бы в принципе:
Когда вы проводите сплит-тестирование или любой другой анализ вашего сайта, неверное понимание «статистической значимости» может привести к неправильной интерпретации результатов и, следовательно, ошибочным действиям в процессе оптимизации конверсии. Это справедливо и для тысяч других статистических тестов, проводимых ежедневно в любой существующей отрасли.
Чтобы разобраться, что же такое «статистическая значимость», необходимо погрузиться в историю появления этого термина, познать его истинный смысл и понять, как это «новое» старое понимание поможет вам верно трактовать результаты своих исследований.
Немного истории
Хотя человечество использует статистику для решения тех или иных задач уже много веков, современное понимание статистической значимости, проверки гипотез, рандомизации и даже дизайна экспериментов (Design of Experiments (DOE) начало формироваться только в начале 20-го столетия и неразрывно связано с именем сэра Рональда Фишера (Sir Ronald Fisher, 1890-1962):
Рональд Фишер был эволюционным биологом и статистиком, который имел особую страсть к изучению эволюции и естественного отбора в животном и растительном мире. В течение своей прославленной карьеры он разработал и популяризировал множество полезных статистических инструментов, которыми мы пользуемся до сих пор.
Фишер использовал разработанные им методики, чтобы объяснить такие процессы в биологии, как доминирование, мутации и генетические отклонения. Те же инструменты мы можем применить сегодня для оптимизации и улучшения контента веб-ресурсов. Тот факт, что эти средства анализа могут быть задействованы для работы с предметами, которых на момент их создания даже не существовало, кажется довольно удивительным. Столь же удивительно, что раньше сложнейшие вычисления люди выполняли без калькуляторов или компьютеров.
Для описания результатов статистического эксперимента как имеющих высокую вероятность оказаться истиной Фишер использовал слово «значимость» (от англ. significance).
Также одной из наиболее интересных разработок Фишера можно назвать гипотезу «сексуального сына». Согласно этой теории, женщины отдают свое предпочтение неразборчивым в половых связях мужчинам (гулящим), потому что это позволит рожденным от этих мужчин сыновьям иметь такую же предрасположенность и произвести на свет больше своих отпрысков (обращаем внимание, что это всего лишь теория).
Но никто, даже гениальные ученые, не застрахованы от совершения ошибок. Огрехи Фишера досаждают специалистам и по сей день. Но помните слова Альберта Эйнштейна: «Кто никогда не ошибался, тот не создавал ничего нового».
Прежде чем перейти к следующему пункту, запомните: статистическая значимость — это ситуация, когда разница в результатах при проведении тестирования настолько велика, что эту разницу нельзя объяснить влиянием случайных факторов.
Какова ваша гипотеза?
Чтобы понять, что значит «статистическая значимость», сначала нужно разобраться с тем, что такое «проверка гипотез», поскольку два этих термина тесно переплетаются.
Гипотеза — это всего лишь теория. Как только вы разработаете какую-либо теорию, вам будет необходимо установить порядок сбора достаточного количества доказательств и, собственно, собрать эти доказательства. Существует два типа гипотез.
Яблоки или апельсины — что лучше?
Нулевая гипотеза
Как правило, именно в этом месте многие испытывают трудности. Нужно иметь в виду, что нулевая гипотеза — это не то, что нужно доказать, как, например, вы доказываете, что определенное изменение на сайте приведет к повышению конверсии, а наоборот. Нулевая гипотеза — это теория, которая гласит, что при внесении каких-либо изменений на сайт ничего не произойдет. И цель исследователя — опровергнуть эту теорию, а не доказать.
Если обратиться к опыту раскрытия преступлений, где следователи также строят гипотезы в отношении того, кто является преступником, нулевая гипотеза принимает вид так называемой презумпции невиновности, концепта, согласно которому обвиняемый считается невиновным до тех пор, пока его вина не будет доказана в суде.
Если нулевая гипотеза заключается в том, что два объекта равны в своих свойствах, а вы пытаетесь доказать, что один из них все же лучше (например, A лучше B), вам нужно отказаться от нулевой гипотезы в пользу альтернативной. Например, вы сравниваете между собой тот или иной инструмент для оптимизации конверсии. В нулевой гипотезе они оба оказывают на объект воздействия одинаковый эффект (или не оказывают никакого эффекта). В альтернативной — эффект от одного из них лучше.
Ваша альтернативная гипотеза может содержать числовое значение, например, B - A > 20%. В таком случае нулевая гипотеза и альтернативная могут принять следующий вид:
Другое название для альтернативной гипотезы — это исследовательская гипотеза, поскольку исследователь всегда заинтересован в доказательстве именно этой гипотезы.
Статистическая значимость и значение «p»
Вновь вернемся к Рональду Фишеру и его понятию о статистической значимости.
Теперь, когда у вас есть нулевая гипотеза и альтернативная, как вы можете доказать одно и опровергнуть другое?
Поскольку статистические данные по самой своей природе предполагают изучение определенной совокупности (выборки), вы никогда не можете быть на 100% уверены в полученных результатах. Наглядный пример: зачастую результаты выборов расходятся с результатами предварительных опросов и даже эксит-пулов.
Доктор Фишер хотел создать определитель (dividing line), который позволял бы понять, удался ли ваш эксперимент или нет. Так и появился индекс достоверности. Достоверность — это тот уровень, который мы принимаем для того, чтобы сказать, что мы считаем «значимым», а что нет. Если «p», индекс достоверности, равен 0,05 или меньше, то результаты достоверны.
Не волнуйтесь, в действительности все не так запутано, как кажется.
Распределение вероятностей Гаусса. По краям — менее вероятные значения переменной, в центре — наиболее вероятные. P-показатель (закрашенная зеленым область) — это вероятность наблюдаемого результата, возникающего случайно.
Нормальное распределение вероятностей (распределение Гаусса) — это представление всех возможных значений некой переменной на графике (на рисунке выше) и их частот. Если вы проведете свое исследование правильно, а затем расположите все полученные ответы на графике, вы получите именно такое распределение. Согласно нормальному распределению, вы получите большой процент похожих ответов, а оставшиеся варианты разместятся по краям графика (так называемые «хвосты»). Такое распределение величин часто встречается в природе, поэтому оно и носит название «нормального».
Используя уравнение на основе вашей выборки и результатов теста, вы можете вычислить то, что называется «тестовой статистикой», которая укажет, насколько отклонились полученные результаты. Она также подскажет, насколько близко вы к тому, чтобы нулевая гипотеза оказалась верной.
Чтобы не забивать свою голову, используйте онлайн-калькуляторы для вычисления статистической значимости:
Один из примеров таких калькуляторов
Буква «p» обозначает вероятность того, что нулевая гипотеза верна. Если число будет небольшим, это укажет на разницу между тестовыми группами, тогда как нулевая гипотеза будет заключаться в том, что они одинаковы. Графически это будет выглядеть так, что ваша тестовая статистика окажется ближе к одному из хвостов вашего колоколообразного распределения.
Доктор Фишер решил установить порог достоверности результатов на уровне p ≤ 0,05. Однако и это утверждение спорное, поскольку приводит к двум затруднениям:
1. Во-первых, тот факт, что вы доказали несостоятельность нулевой гипотезы, не означает, что вы доказали альтернативную гипотезу. Вся эта значимость всего лишь значит, что вы не можете доказать ни A, ни B.
2. Во-вторых, если p-показатель будет равен 0,049, это будет означать, что вероятность нулевой гипотезы составит 4,9%. Это может означать, что в одно и то же время результаты ваших тестов могут быть одновременно и достоверными, и ошибочными.
Вы можете использовать p-показатель, а можете отказаться от него, но тогда вам будет необходимо в каждом отдельном случае высчитывать вероятность осуществления нулевой гипотезы и решать, достаточно ли она большая, чтобы не вносить тех изменений, которые вы планировали и тестировали.
Наиболее распространенный сценарий проведения статистического теста сегодня — это установление порога значимости p ≤ 0,05 до запуска самого теста. Только не забудьте внимательно изучить p-значение при проверке результатов.
Ошибки 1 и 2
Прошло так много времени, что ошибки, которые могут возникнуть при использовании показателя статистической значимости, даже получили собственные имена.
Ошибка 1 (Type 1 Errors)
Как было упомянуто выше, p-значение, равное 0,05, означает: вероятность того, что нулевая гипотеза окажется верной, равняется 5%. Если вы откажетесь от нее, вы совершите ошибку под номером 1. Результаты говорят, что ваш новый веб-сайт повысил показатели конверсии, но существует 5%-ная вероятность, что это не так.
Ошибка 2 (Type 2 Errors)
Эта ошибка является противоположной ошибке 1: вы принимаете нулевую гипотезу, в то время как она является ложной. К примеру, результаты тестов говорят вам, что внесенные изменения в сайт не принесли никаких улучшений, тогда как изменения были. Как итог: вы упускаете возможность повысить свои показатели.
Такая ошибка распространена в тестах с недостаточным размером выборки, поэтому помните: чем больше выборка, тем достовернее результат.
Заключение
Пожалуй, ни один термин среди исследователей не пользуется такой популярностью, как статистическая значимость. Когда результаты тестов не признаются статистически значимыми, последствия бывают самые разные: от роста показателя конверсии до краха компании.
И раз уж маркетологи используют этот термин при оптимизации своих ресурсов, нужно знать, что же он означает на самом деле. Условия проведения тестов могут меняться, но размер выборки и критерий успеха важен всегда. Помните об этом.
Проверка гипотез проводится с помощью статистического анализа. Статистическую значимость находят с помощью Р-значения, которое соответствует вероятности данного события при предположении, что некоторое утверждение (нулевая гипотеза) истинно. Если Р-значение меньше заданного уровня статистической значимости (обычно это 0,05), экспериментатор может смело заключить, что нулевая гипотеза неверна, и перейти к рассмотрению альтернативной гипотезы. С помощью t-критерия Стьюдента можно вычислить Р-значение и определить значимость для двух наборов данных.
Шаги
Часть 1
Постановка эксперимента- Нулевая гипотеза (H 0) обычно утверждает, что между двумя наборами данных нет разницы. Например: те ученики, которые читают материал перед занятиями, не получают более высокие оценки.
- Альтернативная гипотеза (H a) противоположна нулевой гипотезе и представляет собой утверждение, которое нужно подтвердить с помощью экспериментальных данных. Например: те ученики, которые читают материал перед занятиями, получают более высокие оценки.
-
Установите уровень значимости, чтобы определить, насколько распределение данных должно отличаться от обычного, чтобы это можно было считать значимым результатом. Уровень значимости (его называют также α {\displaystyle \alpha } -уровнем) - это порог, который вы определяете для статистической значимости. Если Р-значение меньше уровня значимости или равно ему, данные считаются статистически значимыми.
Решите, какой критерий вы будете использовать: односторонний или двусторонний. Одно из предположений в t-критерии Стьюдента гласит, что данные распределены нормальным образом. Нормальное распределение представляет собой колоколообразную кривую с максимальным количеством результатов посередине кривой. t-критерий Стьюдента - это математический метод проверки данных, который позволяет установить, выпадают ли данные за пределы нормального распределения (больше, меньше, либо в “хвостах” кривой).
- Если вы не уверены, находятся ли данные выше или ниже контрольной группы значений, используйте двусторонний критерий. Это позволит вам определить значимость в обоих направлениях.
- Если вы знаете, в каком направлении данные могут выйти за пределы нормального распределения, используйте односторонний критерий. В приведенном выше примере мы ожидаем, что оценки студентов повысятся, поэтому можно использовать односторонний критерий.
-
Определите объем выборки с помощью статистической мощности. Статистическая мощность исследования - это вероятность того, что при данном объеме выборки получится ожидаемый результат. Распространенный порог мощности (или β) составляет 80%. Анализ статистической мощности без каких-либо предварительных данных может представлять определенные сложности, поскольку требуется некоторая информация об ожидаемых средних значениях в каждой группе данных и об их стандартных отклонениях. Используйте для анализа статистической мощности онлайн-калькулятор, чтобы определить оптимальный объем выборки для ваших данных.
- Обычно ученые проводят небольшое пробное исследование, которое позволяет получить данные для анализа статистической мощности и определить объем выборки, необходимый для более расширенного и полного исследования.
- Если у вас нет возможности провести пробное исследование, постарайтесь на основании литературных данных и результатов других людей оценить возможные средние значения. Возможно, это поможет вам определить оптимальный объем выборки.
Часть 2
Вычислите стандартное отклонение-
Запишите формулу для стандартного отклонения. Стандартное отклонение показывает, насколько велик разброс данных. Оно позволяет заключить, насколько близки данные, полученные на определенной выборке. На первый взгляд формула кажется довольно сложной, но приведенные ниже объяснения помогут понять ее. Формула имеет следующий вид: s = √∑((x i – µ) 2 /(N – 1)).
- s - стандартное отклонение;
- знак ∑ указывает на то, что следует сложить все полученные на выборке данные;
- x i соответствует i-му значению, то есть отдельному полученному результату;
- µ - это среднее значение для данной группы;
- N - общее число данных в выборке.
-
Найдите среднее значение в каждой группе. Чтобы вычислить стандартное отклонение, необходимо сначала найти среднее значение для каждой исследуемой группы. Среднее значение обозначается греческой буквой µ (мю). Чтобы найти среднее, просто сложите все полученные значения и поделите их на количество данных (объем выборки).
- Например, чтобы найти среднюю оценку в группе тех учеников, которые изучают материал перед занятиями, рассмотрим небольшой набор данных. Для простоты используем набор из пяти точек: 90, 91, 85, 83 и 94.
- Сложим вместе все значения: 90 + 91 + 85 + 83 + 94 = 443.
- Поделим сумму на число значений, N = 5: 443/5 = 88,6.
- Таким образом, среднее значение для данной группы составляет 88,6.
-
Вычтите из среднего каждое полученное значение. Следующий шаг заключается в вычислении разницы (x i – µ). Для этого следует вычесть из найденной средней величины каждое полученное значение. В нашем примере необходимо найти пять разностей:
- (90 – 88,6), (91- 88,6), (85 – 88,6), (83 – 88,6) и (94 – 88,6).
- В результате получаем следующие значения: 1,4, 2,4, -3,6, -5,6 и 5,4.
-
Возведите в квадрат каждую полученную величину и сложите их вместе. Каждую из только что найденных величин следует возвести в квадрат. На этом шаге исчезнут все отрицательные значения. Если после данного шага у вас останутся отрицательные числа, значит, вы забыли возвести их в квадрат.
- Для нашего примера получаем 1,96, 5,76, 12,96, 31,36 и 29,16.
- Складываем полученные значения: 1,96 + 5,76 + 12,96 + 31,36 + 29,16 = 81,2.
-
Поделите на объем выборки минус 1. В формуле сумма делится на N – 1 из-за того, что мы не учитываем генеральную совокупность, а берем для оценки выборку из числа всех студентов.
- Вычитаем: N – 1 = 5 – 1 = 4
- Делим: 81,2/4 = 20,3
-
Извлеките квадратный корень. После того как вы поделите сумму на объем выборки минус один, извлеките из найденного значения квадратный корень. Это последний шаг в вычислении стандартного отклонения. Есть статистические программы, которые после введения начальных данных производят все необходимые вычисления.
- В нашем примере стандартное отклонение оценок тех учеников, которые читают материал перед занятиями, составляет s =√20,3 = 4,51.
Часть 3
Определите значимость-
Рассчитайте дисперсию между двумя группами данных. До этого шага мы рассматривали пример лишь для одной группы данных. Если вы хотите сравнить две группы, очевидно, следует взять данные для обеих групп. Вычислите стандартное отклонение для второй группы данных, а затем найдите дисперсию между двумя экспериментальными группами. Дисперсия вычисляется по следующей формуле: s d = √((s 1 /N 1) + (s 2 /N 2)).
Определите свою гипотезу. Первый шаг при оценке статистической значимости состоит в том, чтобы выбрать вопрос, ответ на который вы хотите получить, и сформулировать гипотезу. Гипотеза - это утверждение об экспериментальных данных, их распределении и свойствах. Для любого эксперимента существует как нулевая, так и альтернативная гипотеза. Вообще говоря, вам придется сравнивать два набора данных, чтобы определить, схожи они или различны.
При построении регрессионной модели встает вопрос определения значимости факторов, входящих в уравнение регрессии (1). Определение значимости фактора означает выяснение вопроса о силе влияния фактора на функцию отклика. Если в ходе решения задачи о проверке значимости фактора выясняется, что фактор незначим, то его можно исключить из уравнения. В этом случае считают, что фактор не оказывает существенного влияния на функцию отклика. Если же подтверждается значимость фактора, то его оставляют в модели регрессии. Считается, что в этом случае фактор оказывает влияние на функцию отклика, которым нельзя пренебрегать. Решение вопроса о значимости факторов эквивалентно проверке гипотезы о равенстве нулю коэффициентов регрессии при данных факторах. Таким образом, нулевая гипотеза будет иметь вид: , где подвектор вектора размерности (l*1). Перепишем уравнение регрессии в матричном виде:
Y = Xb+e ,(2)
Y – вектор размера n;
X - матрица размера (p*n);
b - вектор размера p.
Уравнение (2) можно переписать в виде:
,
где X l и X p - l - матрицы размера (n,l) и (n,p-l) соответственно. Тогда гипотеза H 0 эквивалентна предположению, что
.
Определим минимум функции . Так как при соответствующих гипотезах H 0 и H 1 = 1- H 0 оцениваются все параметры некоторой линейной модели, то минимум при гипотезе H 0 равен
,
тогда как при H 1 он равен
.
Для проверки нулевой гипотезы рассчитаем статистику , которая имеет распределение Фишера с (l,n-p) степенями свободы, и критическая область для H 0 образована 100*a процентами наибольших значений величины F. Если F
Проверку значимости факторов можно проводить и другим методом, независимо друг от друга. Данный метод основан на исследовании доверительных интервалов для коэффициентов уравнения регрессии. Определим дисперсии коэффициентов , Значения являются диагональными элементами матрицы . Определив оценки дисперсий коэффициентов, можно построить доверительные интервалы для оценок коэффициентов уравнения регрессии. Доверительный интервал для каждой оценки будет равен , где - табличное значение критерия Стьюдента при числе степеней свободы, с которым определялся элемент , и выбранном уровне значимости . Фактор с номером i значим, если абсолютная величина коэффициента при данном факторе больше величины отклонения, рассчитанного при построении доверительного интервала. Другими словами, фактор с номером i значим, если 0 не будет принадлежать доверительному интервалу, построенному для данной оценки коэффициента . На практике, чем уже доверительный интервал при заданном уровне значимости, тем с большей уверенностью можно говорить о значимости фактора. Для проверки значимости фактора по критерию Стьюдента можно воспользоваться формулой . Вычисленное значение t-критерия сравнивается с табличным при заданном уровне значимости и соответствующем числе степеней свободы. Данным методом проверки значимости факторов можно пользоваться лишь в случае независимости факторов. Если есть основания считать ряд факторов зависимыми друг от друга, то данный метод может использоваться только для ранжирования факторов по степени их влияния на функцию отклика. Проверку значимости в этой ситуации необходимо дополнять методом, основанным на критерии Фишера.
Таким образом, рассмотрена задача проверки значимости факторов и сокращения размерности модели в случае несущественного влияния факторов на функцию отклика. Далее здесь было бы логично рассмотреть вопрос о введении в модель дополнительных факторов, которые, по мнению исследователя, в ходе проведения эксперимента не были учтены, но их воздействие на функцию отклика существенно. Предположим, что уже после того, как подобрана модель регрессии
, ,
возникла задача включить в модель дополнительные факторы x j , чтобы модель с введением этих факторов приняла вид:
, (3)
где X - матрица размера n*p ранга p, Z – матрица размера n*g ранга g и столбцы матрицы Z линейно не зависят от столбцов матрицы X, т.е. матрица W размера n*(p+g) имеет ранг (p+g). В выражении (3) использованы обозначения (X,Z)=W, . Имеется две возможности определения оценок вновь введенных коэффициентов модели. Во-первых, можно найти оценку и ее дисперсионную матрицу непосредственно из соотношений