<< Пред. стр. 3 (из 17) След. >>
Оценки экспертов, как уже отмечалось, часто следует считать измеренными в порядковой шкале. Типичным примером являются задачи ранжирования и классификации промышленных объектов, подлежащих экологическому страхованию.Почему мнения экспертов естественно выражать именно в порядковой шкале? Как показали многочисленные опыты, человек более правильно (и с меньшими затруднениями) отвечает на вопросы качественного, например, сравнительного, характера, чем количественного. Так, ему легче сказать, какая из двух гирь тяжелее, чем указать их примерный вес в граммах.
В различных областях человеческой деятельности применяется много других видов порядковых шкал. Так, например, в минералогии используется шкала Мооса, по которому минералы классифицируются согласно критерию твердости. А именно: тальк имеет балл 1, гипс - 2, кальций - 3, флюорит - 4, апатит - 5, ортоклаз - 6, кварц - 7, топаз - 8, корунд - 9, алмаз - 10. Минерал с большим номером является более твердым, чем минерал с меньшим номером, при нажатии царапает его.
Порядковыми шкалами в географии являются - бофортова шкала ветров ("штиль", "слабый ветер", "умеренный ветер" и т.д.), шкала силы землетрясений. Очевидно, нельзя утверждать, что землетрясение в 2 балла (лампа качнулась под потолком - такое бывает и в Москве) ровно в 5 раз слабее, чем землетрясение в 10 баллов (полное разрушение всего на поверхности земли).
В медицине порядковыми шкалами являются - шкала стадий гипертонической болезни (по Мясникову), шкала степеней сердечной недостаточности (по Стражеско-Василенко-Лангу), шкала степени выраженности коронарной недостаточности (по Фогельсону), и т.д. Все эти шкалы построены по схеме: заболевание не обнаружено; первая стадия заболевания; вторая стадия; третья стадия... Иногда выделяют стадии 1а, 1б и др. Каждая стадия имеет свойственную только ей медицинскую характеристику. При описании групп инвалидности числа используются в противоположном порядке: самая тяжелая - первая группа инвалидности, затем - вторая, самая легкая - третья.
Номера домов также измерены в порядковой шкале - они показывают, в каком порядке стоят дома вдоль улицы. Номера томов в собрании сочинений писателя или номера дел в архиве предприятия обычно связаны с хронологическим порядком их создания.
При оценке качества продукции и услуг, в т.н. квалиметрии (буквальный перевод: измерение качества) популярны порядковые шкалы. А именно, единица продукции оценивается как годная или не годная. При более тщательном анализе используется шкала с тремя градациями: есть значительные дефекты - присутствуют только незначительные дефекты - нет дефектов. Иногда применяют четыре градации: имеются критические дефекты (делающие невозможным использование) - есть значительные дефекты - присутствуют только незначительные дефекты - нет дефектов. Аналогичный смысл имеет сортность продукции - высший сорт, первый сорт, второй сорт,...
При оценке экологических воздействий первая, наиболее обобщенная оценка - обычно порядковая, например: природная среда стабильна - природная среда угнетена (деградирует). Аналогично в эколого-медицинской шкале: нет выраженного воздействия на здоровье людей - отмечается отрицательное воздействие на здоровье.
Порядковая шкала используется и во многих иных областях. В эконометрике это прежде всего различные методы экспертных оценок (см. посвященную им главу 12).
Все шкалы измерения делят на две группы - шкалы качественных признаков и шкалы количественных признаков.
Порядковая шкала и шкала наименований - основные шкалы качественных признаков. Поэтому во многих конкретных областях результаты качественного анализа можно рассматривать как измерения по этим шкалам.
Шкалы количественных признаков - это шкалы интервалов, отношений, разностей, абсолютная. По шкале интервалов измеряют величину потенциальной энергии или координату точки на прямой. В этих случаях на шкале нельзя отметить ни естественное начало отсчета, ни естественную единицу измерения. Исследователь должен сам задать точку отсчета и сам выбрать единицу измерения. Допустимыми преобразованиями в шкале интервалов являются линейные возрастающие преобразования, т.е. линейные функции. Температурные шкалы Цельсия и Фаренгейта связаны именно такой зависимостью: 0С = 5/9 (0F - 32), где 0С - температура (в градусах) по шкале Цельсия, а 0F - температура по шкале Фаренгейта.
Из количественных шкал наиболее распространенными в науке и практике являются шкалы отношений. В них есть естественное начало отсчета - нуль, т.е. отсутствие величины, но нет естественной единицы измерения. По шкале отношений измерены большинство физических единиц: масса тела, длина, заряд, а также цены в экономике. Допустимыми преобразованиями шкале отношений являются подобные (изменяющие только масштаб). Другими словами, линейные возрастающие преобразования без свободного члена. Примером является пересчет цен из одной валюты в другую по фиксированному курсу. Предположим, мы сравниваем экономическую эффективность двух инвестиционных проектов, используя цены в рублях. Пусть первый проект оказался лучше второго. Теперь перейдем на валюту самой экономически мощной державы мира - юани, используя фиксированный курс пересчета. Очевидно, первый проект должен опять оказаться более выгодным, чем второй. Это очевидно из общих соображений. Однако алгоритмы расчета не обеспечивают автоматически выполнения этого очевидного условия. Надо проверять, что оно выполнено. Результаты подобной проверки для средних величин описаны ниже.
В шкале разностей есть естественная единица измерения, но нет естественного начала отсчета. Время измеряется по шкале разностей, если год (или сутки - от полудня до полудня) принимаем естественной единицей измерения, и по шкале интервалов в общем случае. На современном уровне знаний естественного начала отсчета указать нельзя. Дату сотворения мира различные авторы рассчитывают по-разному, равно как и момент рождества Христова. Так, согласно новой статистической хронологии, разработанной группой акад. РАН А.Т.Фоменко, Господь Иисус Христос родился примерно в 1054 г. по принятому ныне летоисчислению в Стамбуле (он же - Царьград, Византия, Троя, Иерусалим, Рим).
Только для абсолютной шкалы результаты измерений - числа в обычном смысле слова. Примером является число людей в комнате. Для абсолютной шкалы допустимым является только тождественное преобразование.
В процессе развития соответствующей области знания тип шкалы может меняться. Так, сначала температура измерялась по порядковой шкале (холоднее - теплее). Затем - по интервальной (шкалы Цельсия, Фаренгейта, Реомюра). Наконец, после открытия абсолютного нуля температуру можно считать измеренной по шкале отношений (шкала Кельвина). Надо отметить, что среди специалистов иногда имеются разногласия по поводу того, по каким шкалам следует считать измеренными те или иные реальные величины. Другими словами, процесс измерения включает в себя и определение типа шкалы (вместе с обоснованием выбора определенного типа шкалы). Кроме перечисленных шести основных типов шкал, иногда используют и иные шкалы.
3.2. Инвариантные алгоритмы и средние величины
Основное требование к алгоритмам анализа данных формулируется в ТИ так: выводы, сделанные на основе данных, измеренных в шкале определенного типа, не должны меняться при допустимом преобразовании шкалы измерения этих данных. Другими словами, выводы должны быть инвариантны по отношению к допустимым преобразованиям шкалы.
Таким образом, одна из основных целей теории измерений - борьба с субъективизмом исследователя при приписывании численных значений реальным объектам. Так, расстояния можно измерять в аршинах, метрах, микронах, милях, парсеках и других единицах измерения. Массу (вес) - в пудах, килограммах, фунтах и др. Цены на товары и услуги можно указывать в юанях, рублях, тенге, гривнах, латах, кронах, марках, долларах США и других валютах (при условии заданных курсов пересчета). Подчеркнем очень важное, хотя и вполне очевидное обстоятельство: выбор единиц измерения зависит от исследователя, т.е. субъективен. Статистические выводы могут быть адекватны реальности только тогда, когда они не зависят от того, какую единицу измерения предпочтет исследователь, т.е. когда они инвариантны относительно допустимого преобразования шкалы.
Оказывается, сформулированное условие является достаточно сильным. Из многих алгоритмов эконометрического анализа данных ему удовлетворяют лишь некоторые. Покажем это на примере сравнения средних величин.
Пусть Х1 , Х2 ,..., Хn - выборка объема n. Часто используют среднее арифметическое
Использование среднего арифметического настолько привычно, что второе слово в термине часто опускают. И говорят о средней зарплате, среднем доходе и других средних для конкретных экономических данных, подразумевая под "средним" среднее арифметическое. Такая традиция может приводить к ошибочным выводам. Покажем это на примере расчета средней заработной платы (среднего дохода) работников условного предприятия (табл.1).
Табл.1. Численность работников различных категорий,
их заработная плата и доходы (в условных единицах).
№ п/п Категория работников Число работников Заработная плата Суммарные доходы 1 Низкоквалифицированные рабочие 40 100 4000 2 Высококвалифицированные рабочие 30 200 6000 3 Инженеры и служащие 25 300 7500 4 Менеджеры 4 1000 4000 5 Генеральный директор (владелец) 1 18500 18500 6 Всего 100 40000
Первые три строки в табл.1 вряд ли требуют пояснений. Менеджеры - это директора по направлениям, а именно, по производству (главный инженер), по финансам, по маркетингу и сбыту, по персоналу (по кадрам). Владелец сам руководит предприятием в качестве генерального директора. В столбце "заработная плата" указаны доходы одного работника соответствующей категории, а в столбце "суммарные доходы" - доходы всех работников соответствующей категории.
Фонд оплаты труда составляет 40000 единиц, работников всего 100, следовательно, средняя заработная плата составляет 40000/100 = 400 единиц. Однако эта средняя арифметическая величина явно не соответствует интуитивному представлению о "средней зарплате". Из 100 работников лишь 5 имеют заработную плату, ее превышающую, а зарплата остальных 95 существенно меньше средней арифметической. Причина очевидна - заработная плата одного человека - генерального директора - превышает заработную плату 95 работников - низкоквалифицированных и высококвалифицированных рабочих, инженеров и служащих.
Ситуация напоминает описанную в известном рассказе о больнице, в которой 10 больных, из них у 9 температура 40 0С, а один уже отмучился, лежи в морге с температурой 0 0С. Между тем средняя температура по больнице равна 36 0С - лучше не бывает!
Сказанное показывает, что среднее арифметическое можно использовать лишь для достаточно однородных совокупностей (без больших выбросов в ту или иную сторону). А какие средние использовать для описания заработной платы? Вполне естественно использовать медиану. Для данных табл.1 медиана - среднее арифметическое 50-го и 51-го работника, если их заработные платы расположены в порядке неубывания. Сначала идут зарплаты 40 низкоквалифицированных рабочих, а затем - с 41-го до 70-го работника - заработные платы высококвалифицированных рабочих. Следовательно, медиана попадает именно на них и равна 200. У 50-ти работников заработная плата не превосходит 200, и у 50-ти - не менее 200, поэтому медиана показывает "центр", около которого группируется основная масса исследуемых величин. Еще одна средняя величина - мода, наиболее часто встречающееся значение. В рассматриваемом случае это заработная плата низкоквалифицируемых рабочих, т.е. 100. Таким образом, для описания зарплаты имеем три средние величины - моду (100 единиц), медиану (200 единиц) и среднее арифметическое (400 единиц). Для наблюдающихся в реальной жизни распределений доходов и заработной платы справедлива та же закономерность: мода меньше медианы, а медиана меньше среднего арифметического.
Для чего в экономике используются средние величины? Обычно для того, чтобы заменить совокупность чисел одним числом, чтобы сравнивать совокупности с помощью средних.
Пусть, например, Y1, Y2,...,Yn - совокупность оценок экспертов, "выставленных" одному объекту экспертизы (например, одному из вариантов стратегического развития фирмы), Z1, Z2,...,Zn - второму (другому варианту такого развития). Как сравнивать эти совокупности? Очевидно, самый простой способ - по средним значениям.
А как вычислять средние? Известны различные виды средних величин: среднее арифметическое, медиана, мода, среднее геометрическое, среднее гармоническое, среднее квадратическое. Напомним, что общее понятие средней величины введено французским математиком первой половины ХIХ в. академиком О. Коши. Оно таково: средней величиной является любая функция f(X1, X2,...,Xn) такая, что при всех возможных значениях аргументов значение этой функции не меньше, чем минимальное из чисел X1, X2,...,Xn, и не больше, чем максимальное из этих чисел. Все перечисленные выше виды средних являются средними по Коши.
При допустимом преобразовании шкалы значение средней величины, очевидно, меняется. Но выводы о том, для какой совокупности среднее больше, а для какой - меньше, не должны меняться (в соответствии с требованием инвариантности выводов, принятом как основное требование в ТИ). Сформулируем соответствующую математическую задачу поиска вида средних величин, результат сравнения которых устойчив относительно допустимых преобразований шкалы.
Пусть f(X1, X2,...,Xn) - среднее по Коши. Пусть среднее по первой совокупности меньше среднего по второй совокупности:
f(Y1, Y2,...,Yn) < f(Z1, Z2,...,Zn ).
Тогда согласно ТИ для устойчивости результата сравнения средних необходимо, чтобы для любого допустимого преобразования g из группы допустимых преобразований в соответствующей шкале было справедливо также неравенство
f(g(Y1), g(Y2),...,g(Yn)) < f(g(Z1), g(Z2),...,g(Zn)).
т.е. среднее преобразованных значений из первой совокупности также было меньше среднего преобразованных значений для второй совокупности. Причем сформулированное условие должно быть верно для любых двух совокупностей Y1, Y2,...,Ynи Z1, Z2,...,Zn и, напомним, любого допустимого преобразования. Средние величины, удовлетворяющие сформулированному условию, назовем допустимыми (в соответствующей шкале). Согласно ТИ только такими средними можно пользоваться при анализе мнений экспертов и иных данных, измеренных в рассматриваемой шкале.
С помощью математической теории, развитой в монографии [2], удается описать вид допустимых средних в основных шкалах. Сразу ясно, что для данных, измеренных в шкале наименований, в качестве среднего годится только мода.
3.3. Средние величины в порядковой шкале
Рассмотрим обработку мнений экспертов, измеренных в порядковой шкале. Справедливо следующее утверждение.
Теорема 1. Из всех средних по Коши допустимыми средними в порядковой шкале являются только члены вариационного ряда (порядковые статистики).
Теорема 1 справедлива при условии, что среднее f(X1, X2,...,Xn) является непрерывной (по совокупности переменных) и симметрической функцией. Последнее означает, что при перестановке аргументов значение функции f(X1, X2,...,Xn) не меняется. Это условие является вполне естественным, ибо среднюю величину мы находим для совокупности (множества), а не для последовательности. Множество не меняется в зависимости от того, в какой последовательности мы перечисляем его элементы.
Согласно теореме 1 в качестве среднего для данных, измеренных в порядковой шкале, можно использовать, в частности, медиану (при нечетном объеме выборки). При четном же объеме следует применять один из двух центральных членов вариационного ряда - как их иногда называют, левую медиану или правую медиану. Моду тоже можно использовать - она всегда является членом вариационного ряда. Но никогда нельзя рассчитывать среднее арифметическое, среднее геометрическое и т.д.
Приведем численный пример, показывающий некорректность использования среднего арифметического f(X1, X2) = (X1 + X2)/2 в порядковой шкале. Пусть Y1= 1, Y2 = 11, Z1= 6, Z2= 8. Тогда f(Y1, Y2) = 6, что меньше, чем f(Z1, Z2) = 7. Пусть строго возрастающее преобразование g таково, что g(1) = 1, g(6) = 6, g(8) = 8, g(11) = 99. Таких преобразований много. Например, можно положить g(x) = x при x, не превосходящих 8, и g(x) = 99(x-8)/3 + 8 для х, больших 8. Тогда f(g(Y1), g(Y2)) = 50, что больше, чем f(g(Z1), g(Z2)) = 7. Как видим, в результате допустимого, т.е. строго возрастающего преобразования шкалы упорядоченность средних изменилась.
Таким образом, ТИ выносит жесткий приговор среднему арифметическому - использовать его с порядковой шкале нельзя. Однако же те, кто не знает теории измерений, используют его. Всегда ли они ошибаются? Оказывается, можно в какой-то мере реабилитировать среднее арифметическое, если перейти к вероятностной постановке и к тому удовлетвориться результатами для больших объемов выборок. В монографии [2] получено также следующее утверждение.
Теорема 2. Пусть Y1, Y2,...,Ym - независимые одинаково распределенные случайные величины с функцией распределения F(x), а Z1, Z2,...,Zn - независимые одинаково распределенные случайные величины с функцией распределения H(x), причем выборки Y1, Y2,...,Ym и Z1, Z2,...,Zn независимы между собой и МY1 > MZ1 . Для того, чтобы вероятность события
стремилась к 1 при для любой строго возрастающей непрерывной функции g, удовлетворяющей условию
необходимо и достаточно, чтобы при всех x выполнялось неравенство F(x)
Согласно теореме 2 средним арифметическим можно пользоваться и в порядковой шкале, если сравниваются выборки из двух распределений, удовлетворяющих приведенному в теореме неравенству. Проще говоря, одна из функций распределения должна всегда лежать над другой. Функции распределения не могут пересекаться, им разрешается только касаться друг друга. Это условие выполнено, например, если функции распределения отличаются только сдвигом:
F(x) = H(x+b)
при некотором b . Последнее условие выполняется, если два значения некоторой величины измеряются с помощью одного и того же средства измерения, у которого распределение погрешностей не меняется при переходе от измерения одного значения рассматриваемой величины к измерению другого.
3.4. Средние по Колмогорову
Обобщением нескольких из перечисленных выше средних является среднее по Колмогорову. Для чисел X1, X2,...,Xn среднее по Колмогорову вычисляется по формуле
G{(F(X1)+F(X2)+...F(Xn))/n},
где F - строго монотонная функция (т.е. строго возрастающая или строго убывающая), G - функция, обратная к F. Среди средних по Колмогорову - много хорошо известных персонажей. Так, если F(x) = x, то среднее по Колмогорову - это среднее арифметическое, если F(x) = ln x, то среднее геометрическое, если F(x) = 1/x, то среднее гармоническое, если F(x) = x2, то среднее квадратическое, и т.д. Среднее по Колмогорову - частный случай среднего по Коши. С другой стороны, такие популярные средние, как медиана и мода, нельзя представить в виде средних по Колмогорову. В монографии [2] доказаны следующие утверждения.
Теорема 3. При справедливости некоторых внутриматематических условий регулярности в шкале интервалов из всех средних по Колмогорову допустимым является только среднее арифметическое.
Таким образом, среднее геометрическое или среднее квадратическое температур (в шкале Цельсия) или расстояний не имеют смысла. В качестве среднего надо применять среднее арифметическое. А также можно использовать медиану или моду.
Теорема 4. При справедливости некоторых внутриматематических условий регулярности в шкале отношений из всех средних по Колмогорову допустимыми являются только степенные средние с F(x) = xс , и среднее геометрическое.
Замечание. Среднее геометрическое является пределом степенных средних при
Есть ли средние по Колмогорову, которыми нельзя пользоваться в шкале отношений? Конечно, есть. Например, с F(x) = ex .
Аналогично средним величинам могут быть изучены и другие статистические характеристики - показатели разброса, связи, расстояния и др. (см., например, [2] ). Нетрудно показать, например, что коэффициент корреляции не меняется при любом допустимом преобразовании в шкале интервалов, как и отношение дисперсий, дисперсия не меняется в шкале разностей, коэффициент вариации - в шкале отношений, и т.д.
Приведенные выше результаты о средних величинах широко применяются, причем не только в экономике, менеджменте, теории экспертных оценок или социологии, но и в инженерном деле, например, для анализа методов агрегирования датчиков в АСУ ТП доменных печей. Велико прикладное значение ТИ в задачах стандартизации и управления качеством, в частности, в квалиметрии. Здесь есть и интересные теоретические результаты. Так, например, любое изменение коэффициентов весомости единичных показателей качества продукции приводит к изменению упорядочения изделий по средневзвешенному показателю (эта теорема доказана проф. В.В. Подиновским).
Цитированная литература
1. Суппес П., Зинес Дж. Основы теории измерений. - В сб.: Психологические измерения. - М.: Мир, 1967. С. 9-110.
2. Орлов А.И. Устойчивость в социально-экономических моделях. - М.: Наука, 1979. - 296 с.
3. Пфанцагль И. Теория измерений. - М.: Мир, 1976. - 165 с.
Глава 4. Статистический анализ числовых величин
(непараметрическая статистика)
В учебных курсах по теории вероятностей и математической статистике рассматривают различные параметрические семейства распределений числовых случайных величин. А именно, изучают семейства нормальных распределений, логарифмически нормальных, экспоненциальных, гамма-распределений, распределений Вейбулла-Гнеденко и др. Все они зависят от одного, двух или трех параметров. Поэтому для полного описания распределения достаточно знать или оценить одно, два или три числа. Очень удобно. Поэтому широко развита параметрическая теория математической статистики, в которой предполагается, что распределения результатов наблюдений принадлежат тем или иным параметрическим семействам.
К сожалению, параметрические семейства существуют лишь в головах авторов учебников по теории вероятностей и математической статистике. В реальной жизни их нет. Поэтому эконометрика использует в основном непараметрические методы, в которых распределения результатов наблюдений могут иметь произвольный вид.
Сначала на примере нормального распределения подробнее обсудим невозможность практического использования параметрических семейств для описания распределений конкретных экономических данных. Затем разберем параметрические методы отбраковки резко выделяющихся наблюдений и продемонстрируем невозможность практического использования ряда методов параметрической статистики, ошибочность выводов, к которым они приводят. Затем разберем непараметрические методы доверительного оценивания основных характеристик числовых случайных величин - математического ожидания, медианы, дисперсии, среднего квадратического отклонения, коэффициента вариации. Завершат главу методы проверки однородности двух выборок, независимых или связанных.
4.1. Часто ли распределение результатов наблюдений является нормальным?
В эконометрических и экономико-математических моделях, применяемых, в частности, при изучении и оптимизации процессов маркетинга и менеджмента, управления предприятием и регионом, точности и стабильности технологических процессов, в задачах надежности, обеспечения безопасности, в том числе экологической, функционирования технических устройств и объектов, разработки организационных схем часто применяют понятия и результаты теории вероятностей и математической статистики. При этом зачастую используют те или иные параметрические семейства распределений вероятностей. Наиболее популярно нормальное распределение. Используют также логарифмически нормальное распределение, экспоненциальное распределение, гамма-распределение, распределение Вейбулла-Гнеденко и т.д.
Очевидно, всегда необходимо проверять соответствие моделей реальности. Возникают два вопроса. Отличаются ли реальные распределения от используемых в модели? Насколько это отличие влияет на выводы?
Ниже на примере нормального распределения и основанных на нем методов отбраковки резко отличающихся наблюдений (выбросов) показано, что реальные распределения практически всегда отличаются от включенных в классические параметрические семейства, а имеющиеся отклонения от заданных семейств делают неверными выводы, в рассматриваемом случае, об отбраковке, основанные на использовании этих семейств.
Есть ли основания априори предполагать нормальность результатов измерений?
Иногда утверждают, что в случае, когда погрешность измерения (или иная случайная величина) определяется в результате совокупного действия многих малых факторов, то в силу Центральной Предельной Теоремы (ЦПТ) теории вероятностей эта величина хорошо приближается (по распределению) нормальной случайной величиной. Такое утверждение справедливо, если малые факторы действуют аддитивно и независимо друг от друга. Если же они действуют мультипликативно, то в силу той же ЦПТ аппроксимировать надо логарифмически нормальным распределением. В прикладных задачах обосновать аддитивность, а не мультипликативность действия малых факторов обычно не удается. Если же зависимость имеет общий характер, не приводится к аддитивному или мультипликативному виду, а также нет оснований принимать модели, дающие экспоненциальное, Вейбулла-Гнеденко, гамма или иные распределения, то о распределении итоговой случайной величины практически ничего не известно, кроме внутриматематических свойств типа регулярности.
При обработке конкретных данных иногда считают, что погрешности измерений имеют нормальное распределение. На предположении нормальности построены классические модели регрессионного, дисперсионного, факторного анализов, метрологические модели, которые еще продолжают встречаться как в отечественной ноpмативно-технической документации, так и в международных стандартах. На то же предположение опираются модели расчетов максимально достигаемых уровней тех или иных характеристик, применяемые при проектировании систем обеспечения безопасности функционирования экономических структур, технических устройств и объектов. Однако теоретических оснований для такого предположения нет. Необходимо экспериментально изучать распределения погрешностей.
Что же показывают результаты экспериментов? Сводка, данная в монографии [1], позволяет утверждать, что в большинстве случаев распределение погрешностей измерений отличается от нормального. Так, в Машинно-электротехническом институте (г. Варна в Болгарии) было исследовано распределение погрешностей градуировки шкал аналоговых электроизмерительных приборов. Изучались приборы, изготовленные в Чехословакии, СССР и Болгарии. Закон распределения погрешностей оказался одним и тем же. Он имеет плотность
Были проанализированы данные о параметрах 219 фактических распределениях погрешностей, исследованных разными авторами, при измерении как электрических, так и не электрических величин самыми разнообразными (электрическими) приборами. В результате этого исследования оказалось, что 111 распределений, т.е. примерно 50% , принадлежат классу распределений с плотностью
где - параметр степени; b - параметр сдвига; - параметр масштаба; - гамма-функция от аргумента ;
(см. [1, с. 56]); 63 распределения, т.е. 30%, имеют плотности с плоской вершиной и пологими длинными спадами и не могут быть описаны как нормальные или, например, экспоненциальные. Оставшиеся 45 распределений оказались двухмодальными.
В книге известного метролога проф. П. В. Hовицкого [2] приведены результаты исследования законов распределения различного рода погрешностей измерения. Он изучил распределения погрешностей электромеханических приборов на кернах, электронных приборов для измерения температур и усилий, цифровых приборов с ручным уpавновешиванием. Объем выборок экспериментальных данных для каждого экземпляра составлял 100-400 отсчетов. Оказалось, что 46 из 47 распределений значимо отличались от нормального. Исследована форма распределения погрешностей у 25 экземпляров цифровых вольтметров Щ-1411 в 10 точках диапазона. Результаты аналогичны. Дальнейшие сведения содержатся в монографии [1].
В лаборатории прикладной математики Тартуского государственного университета проанализировано 2500 выбоpок из архива реальных статистических данных. В 92% гипотезу нормальности пришлось отвергнуть.
Приведенные описания экспеpиментальных данных показывают, что погрешности измерений в большинстве случаев имеют распределения, отличные от нормальных. Это означает, в частности, что большинство применений критерия Стьюдента, классического регрессионного анализа и других статистических методов, основанных на нормальной теории, строго говоря, не является обоснованным, поскольку неверна лежащая в их основе аксиома нормальности распределений соответствующих случайных величин.
Очевидно, для оправдания или обоснованного изменения существующей практики анализа статистических данных требуется изучить свойства процедур анализа данных при "незаконном" применении. Изучение процедур отбраковки показало, что они крайне неустойчивы к отклонениям от нормальности, а потому применять их для обработки реальных данных нецелесообразно (см. ниже); поэтому нельзя утверждать, что произвольно взятая процедура устойчива к отклонениям от нормальности.
Иногда предлагают перед применением, например, критерия Стьюдента однородности двух выбоpок проверять нормальность. Хотя для этого имеется много критериев, но проверка нормальности - более сложная и трудоемкая статистическая процедура, чем проверка однородности (как с помощью статистик типа Стьюдента, так и с помощью непараметрических критериев). Для достаточно надежного установления нормальности требуется весьма большое число наблюдений. Так, чтобы гарантировать, что функция распределения результатов наблюдений отличается от некоторой нормальной не более, чем на 0,01 (при любом значении аргумента), требуется порядка 2500 наблюдений. В большинстве экономических, технических, медико-биологических и других прикладных исследований число наблюдений существенно меньше. Особенно это справедливо для данных, используемых при изучении проблем, связанных с обеспечением безопасности функционирования экономических структур и технических объектов.
Иногда пытаются использовать ЦПТ для приближения распределения погрешности к нормальному, включая в технологическую схему измерительного прибора специальные сумматоры. Оценим полезность этой меры. Пусть Z1 , Z2 ,..., Zk - независимые одинаково распределенные случайные величины с функцией распределения H = H(x) такие, что Рассмотрим
Показателем обеспечиваемой сумматором близости к нормальности является
Тогда
Правое неравенство в последнем соотношении вытекает из оценок константы в неравенстве Берри-Эссеена, полученном в книге [3, с.172], а левое - из примера в монографии [4, с.140-141]. Для нормального закона =1,6, для равномерного = 1,3, для двухточечного =1 (это - нижняя граница для ). Следовательно, для обеспечения расстояния (в метрике Колмогорова) до нормального распределения не более 0,01 для "неудачных" распределений необходимо не менее k0 слагаемых, где
В обычно используемых сумматорах слагаемых значительно меньше. Сужая класс возможных распределений H, можно получить, как показано в монографии [5], более быструю сходимость, но теория здесь еще не смыкается с практикой. Кроме того, не ясно, обеспечивает ли близость распределения к нормальному (в определенной метрике) также и близость распределения статистики, построенной по случайным величинам с этим распределением, к распределению статистики, соответствующей нормальным результатам наблюдений. Видимо, для каждой конкретной статистики необходимы специальные теоретические исследования, Именно к такому выводу приходит автор монографии [5]. В задачах отбраковки выбросов ответ: "Не обеспечивает" (см. ниже).
Отметим, что результат любого реального измерения записывается с помощью конечного числа десятичных знаков, обычно небольшого (2-5), так что любые реальные данные целесообразно моделировать лишь с помощью дискретных случайных величин, принимающих конечное число значений. Нормальное распределение - лишь аппроксимация реального распределения. Так, например, данные конкретного исследования, приведенные в работе [6], принимают значения от 1,0 до 2,2, т.е. всего 13 возможных значений. Из принципа Дирихле следует, что в какой-то точке построенная по данным работы [6] функция распределения отличается от ближайшей функции нормального распределения не менее чем на 1/26, т.е. на 0,04. Кроме того, очевидно, что для нормального распределения случайной величины вероятность попасть в дискретное множество десятичных чисел с заданным числом знаков после запятой равна 0.
Из сказанного выше следует, что результаты измерений и вообще статистические данные имеют свойства, приводящие к тому, что моделировать их следует случайными величинами с распределениями, более или менее отличными от нормальных. В большинстве случаев распределения существенно отличаются от нормальных, в других нормальные распределения могут, видимо, рассматриваться как некоторая аппроксимация, но никогда нет полного совпадения. Отсюда вытекает как необходимость изучения свойств классических статистических процедур в неклассических вероятностных моделях (подобно тому, как это сделано ниже для критерия Стьюдента), так и необходимость разработки устойчивых (учитывающих наличие отклонений от нормальности) и непараметрических, в том числе свободных от распределения процедур, их широкого внедрения в практику статистической обработки данных.
Опущенные здесь рассмотрения для других параметрических семейств приводят к аналогичным выводам. Итог можно сформулировать так. Распределения реальных данных практически никогда не входят в какое-либо конкретное параметрическое семейство. Реальные распределения всегда отличаются от тех, что включены в параметрические семейства. Отличия могут быть большие или маленькие, но они всегда есть. Попробуем понять, насколько важны эти различия для проведения эконометрического анализа.
4.2. Неустойчивость параметрических методов отбраковки
резко выделяющихся результатов наблюдений
При обработки реальных экономических данных, полученных в процессе наблюдений, измерений, расчетов, иногда один или несколько результатов наблюдений резко выделяются, т.е. далеко отстоят от основной массы данных. Такие резко выделяющиеся результаты наблюдений часто считают содержащими грубые погрешности, соответственно называют промахами или выбросами. В рассматриваемых случаях возникает естественная мысль о том, что подобные наблюдения не относятся к изучаемой совокупности, поскольку содержат грубую погрешность, а получены в результате ошибки, промаха. В метрологии об этом явлении говорят так: "Грубые погрешности и промахи возникают из-за ошибок или неправильных действий оператора (его психо-физиологического состояния, неверного отсчета, ошибок в записях или вычислениях, неправильного включения приборов и т.п.), а также при кратковременных резких изменений проведения измерений (вибрации, поступления холодного воздуха, толчка прибора оператором и т.п.). Если грубые погрешности и промахи обнаруживают в процессе измерений, то результаты, содержащие их, отбрасывают. Однако чаще всего их выявляют только при окончательной обработке результатов измерений с помощью специальных критериев оценки грубых погрешностей" [7, с.46-47].
Есть два подхода к обработке данных, которые могут быть искажены грубыми погрешностями и промахами:
1) отбраковка резко выделяющихся результатов наблюдений, т.е. обнаружение наблюдений, искаженных грубыми погрешностями и промахами, и исключение их из дальнейшей статистической обработки;
2) применение устойчивых (робастных) методов обработки данных, На результаты работы которых мало влияет наличие небольшого числа грубо искаженных наблюдений (см. ниже соответствующую главу).
В настоящем пункте обсуждаются методы отбраковки.
Наиболее изучена ситуация, когда результаты наблюдений - числа x1., x2.,..., xn., резко выделяется один результат наблюдения, для определенности, максимальный xmax .
Простейшая вероятностно-статистическая модель такова [8]. При нулевой гипотезе H0 результаты наблюдения x1., x2.,..., xn рассматриваются как реализация независимых одинаково распределенных случайных величин числа X1., X2.,..., Xn. с функцией распределения F(x). При альтернативной гипотезе H1 случайные величины X1., X2.,..., Xn. также независимы, X1., X2.,..., Xn-1 имеют распределение F(x), а Xn - распределение G(x), оно "существенно сдвинуто вправо" относительно F(x), например, G(x)=F(x - A), где A достаточно велико. Если альтернативная гипотеза справедлива, то при вероятность равенства
стремится к 1, поэтому естественно применять решающее правило следующего вида:
если xmax.> d, то принять H1.,
если xmax.< d, то принять H0 , (1)
где d - параметр решающего правила, который следует определять из вероятностно-статистических соображений.
При справедливости нулевой гипотезы
Статистический критерий проверки гипотезы H0 , основанный на решающем правиле вида (1), имеет уровень значимости , если
т.е.
(2)
Из соотношения (2) определяют граничное значение d=d(, n) в решающем правиле (1).
При больших n и малых
(3)
поэтому в качестве хорошего приближения к d(, n) рассматривают (1-/n) - квантиль распределения F(x).
Пусть правило отбраковки задано в соответствии с выражениями (1) и (2) с некоторой функцией распределения F, однако выборка берется из функции распределения G, мало отличающейся от F в смысле расстояния Колмогорова
(4)
С помощью соотношения (3) получаем, что величина = G(d) для d из уравнения (2) находится между и . Уровень значимости критерия, построенного для F, при применении к наблюдениям из G есть 1- и может принимать любые значения в отрезке [1-; 1-]. В частности, при = 0,01, =0,05, n = 5 возможные значения уровня значимости заполняют отрезок [0; 0,1], т.е. уровень значимости может быть в 2 раза выше номинального, а если n возрастает до 30, то максимальный уровень значимости есть 0,297, т.е. почти в 6 раз выше номинального. При дальнейшем росте n верхняя граница для уровня значимости, как нетрудно видеть, приближается к 1.
Рассмотрим и другой вопрос - насколько правило отбраковки с уровнем значимости для G может отличаться от такового для F при справедливости неравенства (4). С использованием соотношения (3) заключаем, что из
(5)
следует, что где и выписаны выше. Решение уравнения (5) может принимать любое значение в отрезке []. В частности, при =0,05 и n = 5 для стандартного нормального распределения F имеем d(, n) = 2,319, при =0,01 решение уравнения (5) может принимать любое значение в отрезке [2,054; + ], при =0,005 - любое значение в [2,170; 2,576].
При использовании любого другого расстояния между функциями распределения выводы о неустойчивости правил отбраковки также справедливы. Отметим, что проведенные рассмотрения выполнены в рамках "общей схемы устойчивости" (см. ниже главу об устойчивости статистических процедур).
Рассмотренные примеры показывают, что при конкретном значении = 0,01 в неравенстве (4) весьма неустойчивы как уровни значимости при фиксированном правиле отбраковки, так и параметр d правила отбраковки при фиксированном уровне значимости. Обсудим, насколько реалистично определение функции распределения с точностью
Есть два подхода к определению функции распределения результатов наблюдений: эвристический подбор с последующей проверкой с помощью критериев согласия и вывод из некоторой вероятностной модели.
Пусть с помощью критерия согласия Колмогорова проверяется гипотеза о том, что выборка взята из распределения F. Пусть функции распределения F и G удовлетворяют соотношению (4). Пусть на самом деле выборка взята из распределения G, а не F. При каких не удастся различить F и G? Для определенности, при каких гипотеза согласия с F будет приниматься не менее чем в 50% случаев?
Критерий согласия Колмогорова основан на статистике
(6)
где расстояние между функциями распределения определено выше в формуле (4); H - та функция распределения, согласие с которой проверяется, а Fn - эмпирическая функция распределения (т.е. Fn(х) равно доле наблюдений, меньших х, в выборке объема n). Как показал А.Н. Колмогоров в 1933 г., функция распределения случайной величины при росте объема выборки n сходится к некоторой функции распределения К(х), которую ныне называют функцией Колмогорова. При этом К(1,36)= 0,95 и К(0,83)=0,50.
Поскольку выборка взята из распределения G, то с вероятностью 0,50
(7)
(при больших n). Тогда для рассматриваемой выборки с учетом неравенства (4) и неравенства треугольника для расстояния Колмогорова и симметричности этого расстояния имеем
Если
т.е.
(8)
то, согласно формуле (6), гипотеза согласия принимается по крайней мере с той же вероятностью, с которой выполнено неравенств (7), т.е. с вероятностью не менее 0,50. Для = 0,01 это условие выполняется при n < 2809. Таким образом, для определения функции распределения с точностью с помощью критерия согласия Колмогорова необходимо несколько тысяч наблюдений, что для большинства эконометрических задач нереально.
При втором из названных выше подходов к определению функции распределения ее конкретный вид выводится из некоторой системы аксиом, в частности, из некоторой модели порождения соответствующей случайной величины. Например, из модели суммирования вытекает нормальное распределение, а из мультипликативной модели перемножения - логарифмически нормальное распределение. Как правило, при выводе используется предельный переход. Так, из Центральной Предельной Теоремы теории вероятностей вытекает, что сумма независимых случайных величин может быть приближена нормальным распределением. Однако более детальный анализ, в частности, с помощью неравенства Берри-Эссеена (см. предыдущий пункт) показывает, что для гарантированного достижения точности необходимо более полутора тысяч слагаемых. Такого количества слагаемых реально, конечно, указать почти никогда нельзя. Это означает, что при решении практических эконометрических задач теория дает возможность лишь сформулировать гипотезу о виде функции распределения, а проверять ее надо с помощью анализа реальной выборки объема, как показано выше, не менее нескольких тысяч.
Таким образом, в большинстве реальных ситуаций определить функцию распределения с точностью невозможно.
Итак, показано, что правила отбраковки, основанные на использовании конкретной функции распределения, являются крайне неустойчивыми к отклонениям от нее распределения элементов выборки, а гарантировать отсутствие подобных отклонений невозможно. Поэтому отбраковка по классическим правилам математической статистики не является научно обоснованной, особенно при больших объемах выборок. Указанные правила целесообразно применять лишь для выявления "подозрительных" наблюдений, вопрос об отброаковке которых должен решаться из соображений соответствующей предметной области, а не из формально-математических соображений.
Выше для простоты изложения рассмотрен лишь случай полностью известного распределения F, для которого изучено правило отбраковки, заданное формулами (1) и (2). Аналогичные выводы о крайней неустойчивости правил отбраковки справедливы, если "истинное распределение" принадлежит какому-либо параметрическому семейству, например, нормальному, Вейбулла-Гнеденко, гамма.
Параметрическим методам отбраковки, основанным на моделях тех или иных параметрических семейств распределений, посвящены тысячи книг и статей. Приходится признать, что они имеют в основном внутриматематический интерес. При обработке реальных данных следует применять устойчивые методы (см. соответствующую главу), в частности, непараметрические.
4.3. Непараметрическое доверительное оценивание
характеристик распределения
Пусть исходные данные -это выборка x1, x2, ... , xn , где n - объем выборки. Выборочные значения x1, x2, ... , xn рассматриваются как реализации независимых одинаково распределенных случайных величин X1, X2, ... , Xn с общей функцией распределения F(x) = P (Xi < x), i = 1,2, ..., n. Поскольку функция распределения произвольна (с точностью до условий регулярности типа существования моментов), то рассматриваемые задачи доверительного оценивания характеристик распределения являются непараметрическими. Существование моментов является скорее математическим ограничением, чем реальным, поскольку практически все реальные статистические данные финитны (ограничены сверху и снизу, например, шкалой прибора).
В расчетах будут использоваться выборочное среднее арифметическое
M = (X1 + X2 +... + X n ) / n,
выборочная дисперсия
S2 = { (X1 - M)2 + (X2 - M)2 +... + (X n - M)2 } / (n-1)
и некоторые другие выборочные характеристики, которые мы введем позже.
Точечное и интервальное оценивание математического ожидания. Точечной оценкой для математического ожидания в силу закона больших чисел является выборочное среднее арифметическое М.
Нижняя доверительная граница для математического ожидания имеет вид
M - U(p) S / n1/2 ,
где:
M - выборочное среднее арифметическое,
p - доверительная вероятность (истинное значение математического ожидания находится между нижней доверительной границей и верхней доверительной границей с вероятностью, равной доверительной);
U(p) - число, заданное равенством Ф(U(p)) = (1+ p)/2, где Ф(х) - функция стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1. Например, при p = 95% (т.е. при р = 0,95) имеем U(p) = 1,96. Функция U(p) имеется в большинстве литературных источников по теории вероятностей и математической статистике (см., например, [8]);
S - выборочное среднее квадратическое отклонение (квадратный корень из описанной выше выборочной дисперсии).
Верхняя доверительная граница для математического ожидания имеет вид
M + U(p) S / n1/2 .
Выражения для верхней и нижней доверительных границ получены с помощью Центральной Предельной Теоремы теории вероятностей. Они являются асимптотическими, т.е. становятся тем точнее, чем больше объем выборки. В частности, вероятность попадания истинного значения математического ожидания между нижней и верхней доверительными границами асимптотически приближается к доверительной вероятности, но, вообще говоря, может отличаться от нее. Это - недостатки непараметрического подхода. Достоинством же является то, что его можно применять всегда, когда случайная величина имеет математическое ожидание и дисперсию, что в силу финитности (ограниченности шкал) имеет быть практически всегда в реальных ситуациях.
Интересно сопоставить с параметрическим подходом. Обычно в таких случаях предполагают нормальность результатов наблюдений (которой, как уже было обосновано в первом пункте настоящей главы, практически никогда нет). Тогда формулы для нижней и верхней доверительных границ для математического ожидания имеют похожий вид, только вместо U(p) стоят квантили распределению Стьюдента (а не нормального распределения, как в приведенных выше формулах), соответствующие объему выборки. Как известно, при росте объема выборки квантили распределения Стьюдента сходятся к соответствующим квантилям стандартного нормального распределения, так что при больших объемах выборок оба подхода дают близкие результаты. Отметим, что классические доверительные интервалы несколько длиннее, поскольку квантили распределения Стьюдента больше квантилей стандартного нормального распределения, хотя это различие, на наш взгляд, и невелико.
Точечное и интервальное оценивание медианы. В случае медианы по доверительной вероятности р находят U(p), как разъяснено выше. Затем вычисляют натуральное число
С(р) = [n/2 - U(p)n1/2 /2] ,
где [.] - знак целой части числа. Нижняя доверительная граница для медианы имеет вид
Х (С(р)),
где Х(i) - член вариационного ряда с номером i, построенного по исходной выборке (т.е. i-я порядковая статистика). Верхняя доверительная граница для медианы имеет вид
Х (n + 1 - С(р)).
Теоретическое основание для приведенных доверительных границ содержится в литературе по порядковым статистикам (см., например, монографию [9, с.68]).
Поскольку в случае нормального распределения медиана совпадает с математическим ожиданием, то каких-либо специальных способов ее оценивания в классическом случае нет.
Точечное и интервальное оценивание дисперсии. Точечной оценкой дисперсии является выборочная дисперсия S2. Доверительные границы находятся с помощью величины
d2 = (m 4 - ((n - 1) /n ) 4 S 4 ) / n ,
где m 4 - выборочный четвертый центральный момент, т.е.
m 4 = { (X1 - M) 4 + (X2 - M) 4 +... + (X n - M) 4 } / n .
Нижняя доверительная граница для дисперсии случайной величины имеет вид
S2 - U(p)d ,
где S2 - выборочная дисперсия,
U(p) - квантиль нормального распределения порядка (1+р)/2 (как и раньше),
d - положительный квадратный корень из величины d2, введенной выше.
Верхняя доверительная граница для дисперсии случайной величины имеет вид
S2 + U(p)d ,
где все составляющие имеют тот же смысл, что и выше.
При выводе приведенных соотношений используется асимптотическая нормальность выборочной дисперсии, установленная, например, в [10, с.419]. Соответственно доверительный интервал является непараметрическим и асимптотическим. В классическом случае точечная оценка имеет тот же вид, а вот доверительные границы находят с помощью квантилей распределения хи-квадрат с числом степеней свободы, на 1 меньшим объема выборки. Отметим, что в случае нормального распределения четвертый момент в 3 раза больше квадрата дисперсии, а потому можно оценить d2 как (2 S 4 ) / n . Это дает быстрый способ для интервальной оценки дисперсии в нормальном случае.
Точечное и интервальное оценивание среднего квадратического отклонения. Дисперсия рассматриваемой случайной величины - выборочного среднего квадратического отклонения S - оценивается как дробь
d2 / (4 S2 ) .
Нижняя доверительная граница для среднего квадратического отклонения исходной случайной величины имеет вид
S - U(p)d / (2S) ,
где S2 - выборочная дисперсия,
U(p) - квантиль нормального распределения порядка (1+р)/2 (как и раньше),
d - положительный квадратный корень из величины d2, введенной выше.
Верхняя доверительная граница для среднего квадратического отклонения исходной случайной величины имеет вид
S + U(p)d / (2S) ,
где все составляющие имеют тот же смысл, что и выше.
Правила расчетов настоящего подпункта получены из правил предыдущего подпункта с помощью метода линеаризации (см., например, [11, п.2.4]). В рассматриваемом случае доверительный интервал также является непараметрическим и асимптотическим, а классический подход связан с использованием распределения хи-квадрат.
Точечное и интервальное оценивание коэффициента вариации. Коэффициент вариации широко используется при анализе конкретных экономических данных (поскольку они, как правило, положительны), но не очень популярен среди теоретиков. Дисперсия выборочного коэффициента вариации
Vn = S / M
оценивается с помощью вспомогательной величины
D2 = (Vn4 - Vn 2 / 4 + m 4 / (4 S 2 M 2) - m 3 /M 3 ) / n ,
где М - выборочное среднее арифметическое,
S 2 - выборочная дисперсия,
m 3 - выборочный третий центральный момент, т.е.
m 3 = { (X1 - M) 3 + (X2 - M) 3 +... + (X n - M) 3 } / n ,
m 4 - выборочный четвертый центральный момент (см. выше),
Vn - выборочный коэффициент вариации,
n - объем выборки.
Нижняя доверительная граница для (теоретического) коэффициента вариации исходной случайной величины имеет вид
Vn - U(p) D,
где Vn - выборочный коэффициент вариации,
U(p) - квантиль нормального распределения порядка (1+р)/2 (как и ранее),
D - положительный квадратный корень из величины D2, введенной выше.
Верхняя доверительная граница для (теоретического) коэффициента вариации исходной случайной величины имеет вид
Vn + U(p) D,
где все составляющие имеют тот же смысл, что и выше.
Как и в предыдущих случаях, доверительный интервал является непараметрическим и асимптотическим. Он получен в результате применения специальной технологии вывода асимптотических соотношений прикладной статистики. Эта технология в качестве первого шага использует многомерную центральную предельную теорему, примененную к сумме векторов, координаты которых - степени исходных случайных величин. Второй шаг - преобразование предельного многомерного нормального вектора с целью получения интересующего исследователя вектора. При этом используются соображения линеаризации и отбрасываются бесконечно малые величины. Третий шаг - строгое обоснование полученных результатов на стандартном для асимптотических математико-статистических рассуждений уровне. При этом обычно оказывается необходимым использовать необходимые и достаточные условия наследования сходимости, полученные в монографии [11, п.2.4]. Именно таким образом были получены приведенные выше результаты для выборочного коэффициента вариации. Формулы оказались существенно более сложными, чем в предыдущих случаях. Это объясняется тем, что выборочный коэффициент вариации - функция двух выборочных моментов, а ранее рассматривались либо выборочные моменты поодиночке, либо функция от одного выборочного момента - выборочной дисперсии.
4.4. О проверке однородности двух независимых выборок
В математико-статистических терминах постановка задачи такова: имеются две выборки x1, x2,...,xm и y1, y2,...,yn (т. е. наборы из m и п действительных чисел), требуется проверить их однородность. Термин "однородность" уточняется ниже.
Противоположным понятием является "различие". Можно переформулировать задачу: требуется проверить, есть ли различие между выборками. Если различия нет, то для дальнейшего изучения часто выборки объединяют.
Например, в маркетинге важно выделить сегменты потребительского рынка. Если установлена однородность двух выборок, то возможно объединение сегментов, из которых они взяты, в один. В дальнейшем это позволит осуществлять по отношению к ним одинаковую маркетинговую политику (проводить одни и те же рекламные мероприятия и т.п.). Если же установлено различие, то поведение потребителей в двух сегментах различно, объединять эти сегменты нельзя, и могут понадобиться различные маркетинговые стратегии, своя для каждого из этих сегментов.
Традиционный метод проверки однородности (критерий Стьюдента). Для дальнейшего критического разбора опишем традиционный статистический метод проверки однородности. Вычисляют средние арифметические в каждой выборке
,
затем выборочные дисперсии
,
и статистику Стьюдента t, на основе которой принимают решение,
. (1)
По заданному уровню значимости ? и числу степеней свободы (m+n _ 2) из таблиц распределения Стьюдента находят критическое значение tкр. Если |t|>tкр, то гипотезу однородности (отсутствия различия) отклоняют, если же |t|
Рассмотрим условия применимости традиционного метода проверки однородности, основанного на использовании статистики t Стьюдента, а также укажем более современные методы.
Вероятностная модель порождения данных. Для обоснованного применения эконометрических методов необходимо прежде всего построить и обосновать вероятностную модель порождения данных. При проверке однородности двух выборок общепринята модель, в которой x1, x2,...,xm рассматриваются как результаты m независимых наблюдений некоторой случайной величины Х с функцией распределения F(x), неизвестной статистику, а y1, y2,...,yn - как результаты п независимых наблюдений, вообще говоря, другой случайной величины Y с функцией распределения G(x), также неизвестной статистику. Предполагается также, что наблюдения в одной выборке не зависят от наблюдений в другой, поэтому выборки и называют независимыми.
Возможность применения модели в конкретной реальной ситуации требует обоснования. Независимость и одинаковая распределенность результатов наблюдений, входящих в выборку, могут быть установлены или исходя из методики проведения конкретных наблюдений, или путем проверки статистических гипотез независимости и одинаковой распределенности с помощью соответствующих критериев [8].
Если проведено (т+п) измерений объемов продаж в (т+п) торговых точках, то описанную выше модель, как правило, можно применять. Если же, например, xi и yi - объемы продаж одного и того же товара до и после определенного рекламного воздействия, то рассматриваемую модель применять нельзя. (В этом случае используют модель т.н. связанных выборок, в которой обычно строят новую выборку zi = xi - yi и используют статистические методы анализа одной выборки, а не двух. Проверка однородности для связанных выборок рассматривается ниже.)
При дальнейшем изложении принимаем описанную выше вероятностную модель двух выборок.
Уточнения понятия однородности. Понятие "однородность", т. е. "отсутствие различия", может быть формализовано в терминах вероятностной модели различными способами.
Наивысшая степень однородности достигается, если обе выборки взяты из одной и той же генеральной совокупности, т. е. справедлива нулевая гипотеза
H0 : F(x)=G(x) при всех х.
Отсутствие однородности означает, что верна альтернативная гипотеза, согласно которой
H1 : F(x0)?G(x0)
хотя бы при одном значении аргумента x0. Если гипотеза H0 принята, то выборки можно объединить в одну, если нет - то нельзя.
В некоторых случаях целесообразно проверять не совпадение функций распределения, а совпадение некоторых характеристик случайных величин Х и Y - математических ожиданий, медиан, дисперсий, коэффициентов вариации и др. Например, однородность математических ожиданий означает, что справедлива гипотеза
H'0 : M(X)=M(Y),
где M(Х) и M(Y) - математические ожидания случайных величин Х и Y, результаты наблюдений над которыми составляют первую и вторую выборки соответственно. Доказательство различия между выборками в рассматриваемом случае - это доказательство справедливости альтернативной гипотезы
H'1 : M(X) ? M(Y) .
Если гипотеза H0 верна, то и гипотеза H'0 верна, но из справедливости H'0 не следует справедливость H0 . В частности, если в результате обработки выборочных данных принята гипотеза H'0, то отсюда не следует, что две выборки можно объединить в одну. Однако в ряде ситуаций целесообразна проверка именно гипотезы H'0 . Например, пусть функция спроса на определенный товар или услугу оценивается путем опроса потребителей (первая выборка) или с помощью данных о продажах (вторая выборка). Тогда маркетологу важно проверить гипотезу об отсутствии систематических расхождений результатов этих двух методов, т.е. гипотезу о равенстве математических ожиданий. Другой пример - из производственного менеджмента. Пусть изучается эффективность управления бригадами рабочих на предприятии с помощью двух организационных схем, результаты наблюдения - объем производства на одного члена бригады, а показатель эффективности организационной схемы - средний (по предприятию) объем производства на одного рабочего. Тогда для сравнения эффективности препаратов достаточно проверить гипотезу H'0 .
Классические условия применимости критерия Стьюдента. Пусть выполнены два классических условия применимости критерия Стьюдента, основанного на использовании статистики t, заданной формулой (1):
а) результаты наблюдений имеют нормальные распределения:
F(x)=N(x; m1, ?12), G(x)=N(x; m2, ?22)
с математическими ожиданиями m1 и m2 и дисперсиями ?12 и ?22 в первой и во второй выборках соответственно;
б) дисперсии результатов наблюдений в первой и второй выборках совпадают:
D(X)=?12=D(Y)=?22.
Если условия а) и б) выполнены, то нормальные распределения F(x) и G(x) отличаются только математическими ожиданиями, а поэтому обе гипотезы H0 и H'0 сводятся к гипотезе
H"0 : m1=m2, ,
а обе альтернативные гипотезы H1 и H'1 сводятся к гипотезе
H"1 : m1?m2, .
Если условия а) и б) выполнены, то статистика t при справедливости H"0 имеет распределение Стьюдента с (т + п - 2) степенями свободы. Только в этом случае описанный выше традиционный метод обоснован безупречно. Если хотя бы одно из условий а) и б) не выполнено, то нет оснований считать, что статистика t имеет распределение Стьюдента, поэтому применение традиционного метода, строго говоря, не обосновано. Обсудим возможность проверки этих условий и последствия их нарушений.
О проверке условия нормальности. Априори нет оснований предполагать нормальность распределения результатов экономических, технико-экономических и иных наблюдений. Следовательно, нормальность надо проверять. Разработано много статистических критериев для проверки нормальности распределения результатов наблюдений [8]. Однако проверка нормальности - более сложная и трудоемкая статистическая процедура, чем проверка однородности (как с помощью статистики t Стьюдента, так и с использованием непараметрических критериев, рассматриваемых ниже).
Для достаточно надежного установления нормальности требуется весьма большое число наблюдений. Выше показано, что для того, чтобы гарантировать, что функция распределения результатов наблюдений отличается от некоторой нормальной не более чем на 0,01 (при любом значении аргумента), требуется порядка 2500 наблюдений. В большинстве экономических и технико-экономических исследований число наблюдений существенно меньше.
Как уже отмечалось, есть и одна общая причина отклонений от нормальности: любой результат наблюдения записывается конечным (обычно 2-5) количеством цифр, а с математической точки зрения вероятность такого события равна 0. Из сказанного выше следует, что в эконометрике распределение результатов экономических и технико-экономических наблюдений практически всегда более или менее отличается от нормального. Более подробно это утверждение выше.
Последствия нарушения условия нормальности. Если условие а) не выполнено, то распределение статистики t не является распределением Стьюдента. Однако при справедливости H'0 и условии б) распределение статистики t при росте объемов выборок приближается к стандартному нормальному распределению Ф(х)=N(x; 0, 1). К этому же распределению приближается распределение Стьюдента при возрастании числа степеней свободы. Другими словами, несмотря на нарушение условия нормальности традиционный метод (критерий Стьюдента) можно использовать для проверки гипотезы H'0 при больших объемах выборок. При этом вместо таблиц распределения Стьюдента достаточно пользоваться таблицами стандартного нормального распределения Ф(х).
Сформулированное в предыдущем абзаце утверждение справедливо для любых функций распределения F(x) и G(x) таких, что M(X)=M(Y), D(X)=D(Y) и выполнены некоторые внутриматематические условия, обычно считающиеся справедливыми в реальных задачах. Если же M(X)?M(Y), то нетрудно вычислить, что при больших объемах выборок
P(t
. (3)
Формулы (2) - (3) позволяют приближенно вычислять мощность t-критерия (точность возрастает при увеличении т и п).
О проверке условия равенства дисперсий. Иногда условие б) вытекает из методики получения результатов наблюдений, например, когда с помощью одного и того же прибора или методики m раз измеряют характеристику первого объекта и п раз-второго, а параметры распределения погрешностей измерения при этом не меняются. Однако ясно, что в постановках большинства исследовательских и практических задач нет основании априори предполагать равенство дисперсий.
Целесообразно ли проверять равенство дисперсий статистическими методами, например, как это иногда предлагают, с помощью F-критерия Фишера? Этот критерий основан на нормальности распределений результатов наблюдений, от которой неизбежны отклонения (см. выше), причем хорошо известно, что в отличие от t-критерия его распределение сильно меняется при малых отклонениях от нормальности [10]. Кроме того, F-критерий отвергает гипотезу D(X)=D(Y) лишь при большом различии выборочных дисперсий. Так, для данных [8] о двух группах результатов химических анализов отношение выборочных дисперсий равно 1,95, т.е. существенно отличается от 1. Тем не менее гипотеза о равенстве теоретических дисперсий принимается на 1% уровне значимости. Следовательно, при проверке однородности применение F-критерия для предварительной проверки равенства дисперсий нецелесообразно.
Итак, в большинстве экономических и технико-экономических задач условие б) нельзя считать выполненным, а проверять его нецелесообразно.