<< Пред.           стр. 10 (из 17)           След. >>

Список литературы по разделу

 22. Тюрин Ю.Н., Василевич А.П., Андрукович П.Ф. Статистические модели ранжирования. - В сб.: Статистические методы анализа экспертных оценок. - М.: Наука, 1977. - С.30-58.
 23. Раушенбах Г.В. Меры близости и сходства. - В сб.: Анализ нечисловой информации в социологических исследованиях. - М.: Наука, 1985. - С.169-203.
 24. Кемени Дж., Снелл Дж. Кибернетическое моделирование: Некоторые приложения. - М.: Советское радио, 1972. - 192 с.
 25. Прохоров Ю.В., Розанов Ю.А. Теория вероятностей (Основные понятия. Предельные теоремы. Случайные процессы). - М.: Наука, 1973.- 496 с.
 26. Кривцов В.С., Орлов А.И., Фомин В.Н. Современные статистические методы в стандартизации и управлении качеством продукции. - Журнал "Стандарты и качество". 1988. No.3. С.32-36.
 27. Орлов А.И. Асимптотика решений экстремальных статистических задач. - В сб.: Анализ нечисловых данных в системных исследованиях. Сборник трудов. Вып.10. - М.: Всесоюзный научно-исследовательский институт системных исследований, 1982. - С. 4-12.
 28. Орлов А.И. Асимптотическое поведение статистик интегрального типа. - В сб.: Вероятностные процессы и их приложения. Межвузовский сборник. - М.: МИЭМ, 1989. С.118-123.
 29. Келли Дж. Общая топология. - М.: Наука, 1968. - 384 с.
 30. Жихарев В.Н., Орлов А.И. Законы больших чисел и состоятельность статистических оценок в пространствах произвольной природы. - В сб.: Статистические методы оценивания и проверки гипотез. Межвузовский сборник научных трудов. - Пермь: Изд-во Пермского государственного университета, 1998. С.65-84.
 31. Орлов А.И. Непараметрические оценки плотности в топологических пространствах. - В сб.: Прикладная статистика. Ученые записки по статистике, т.45. - М.: Наука, 1983. - С. 12-40.
 32. Ибрагимов И.А., Хасьминский Р.З. Асимптотическая теория оценивания. - М.: Наука, 1979. - 528 с.
 
 
 
 
 
 
 Глава 9. Статистика интервальных данных
 
  В статистике интервальных данных, как части статистики нечисловых данных, элементы выборки - не числа, а интервалы. Это приводит к алгоритмам и выводам, принципиально отличающимся от классических. В главе 9 рассмотрены основные идеи и подходы асимптотической статистики интервальных данных, приведены результаты, связанные с основополагающими в рассматриваемой области эконометрики понятиями нотны и рационального объема выборки.
 
 9.1. Основные идеи статистики интервальных данных
 
  Перспективная и быстро развивающаяся область статистических исследований последних лет - статистика интервальных данных. Речь идет о развитии эконометрических методов в ситуации, когда статистические данные - не числа, а интервалы, в частности, порожденные наложением ошибок измерения на значения случайных величин.
  В настоящее время признается необходимым изучение устойчивости (робастности) оценок параметров к малым отклонениям исходных данных и предпосылок модели. Однако популярная среди теоретиков (см. ниже в главе 10) модель засорения (Тьюки-Хьюбера) представляется не вполне адекватной. Эта модель нацелена на изучение влияния больших "выбросов". Поскольку любые реальные измерения лежат в некотором фиксированном диапазоне, а именно, заданном в техническом паспорте средства измерения, то зачастую выбросы не могут быть слишком большими. Поэтому представляются полезными иные, более общие схемы устойчивости, в частности, рассмотренные в главе 10 ниже, в которых, например, учитываются отклонения распределений результатов наблюдений от предположений модели.
  В одной из таких схем изучается влияние интервальности исходных данных на статистические выводы. Необходимость такого изучения стала для нас очевидной следующим образом. В государственных стандартах СССР по прикладной статистике в обязательном порядке давалось справочное приложение "Примеры применения правил стандарта". При разработке ГОСТ 11.011-83 (см. издание [1]) нам были переданы для анализа реальные данные о наработке резцов до предельного состояния (в часах). Оказалось, что все эти данные представляли собой либо целые числа, либо полуцелые (т.е. после умножения на 2 становящиеся целыми). Ясно, что исходная длительность наработок резцов до отказа искажена. Необходимо учесть в статистических процедурах наличие такого искажения исходных данных. Как это сделать?
  Первое, что приходит в голову - модель группировки данных, согласно которой для истинного случайного значения Х (мысленно) проводится замена на ближайшее число из множества {0,5n, n=1,2,3,...}. Однако эту модель нельзя принимать без обсуждения, ее целесообразно подвергнуть сомнению, а также рассмотреть иные модели. Так, возможно, что Х надо приводить к ближайшему сверху элементу указанного множества - если проверка качества поставленных на испытание резцов проводилась раз в полчаса. Другой вариант модели: если расстояния от Х до двух ближайших элементов множества {0,5n, n=1,2,3,...} примерно равны, то естественно ввести рандомизацию при выборе заменяющего числа, и т.д.
  Наиболее адекватной представляется новая эконометрическая модель, согласно которой результаты наблюдений - не числа, а интервалы. Например, если в таблице приведено значение 53,5, то это значит, что реальное значение - какое-то число от 53,0 до 54,0, т.е. какое-то число в интервале [53,5-0,5; 53,5+0,5], где 0,5 - максимально возможная погрешность. Принимая эту модель, мы попадаем в научную область под названием "статистика интервальных данных". Она идейно связана с интервальной математикой, в которой в роли чисел выступают интервалы (см., например, монографию [2] академика РАН Ю.И. Шокина). Это направление математики является дальнейшим развитием всем известных правил приближенных вычислений, посвященных выражению погрешностей суммы, разности, произведения, частного через погрешности тех чисел, над которыми осуществляются перечисленные операции. Как видно из сборника трудов Международной конференции по интервальным и стохастическим методам в науке и технике (ИНТЕРВАЛ-92), к настоящему времени удалось решить, в частности, ряд задач теории интервальных дифференциальных уравнений, в которых коэффициенты, начальные условия и решения описываются с помощью интервалов. По мнению ряда специалистов, статистика интервальных данных является частью интервальной математики [7]. Впрочем, есть другая точка зрения, согласно которой такое включение нецелесообразно, поскольку статистика интервальных данных использует несколько иные подходы к алгоритмам анализа реальных данных, чем сложившиеся в интервальной математике (подробнее см. ниже).
  Общее описание направлений статистического анализа интервальных данных. Ниже развиваются асимптотические методы статистического анализа интервальных данных при больших объемах выборок и малых погрешностях измерений. В отличие от классической математической статистики, сначала устремляется к бесконечности объем выборки и только потом - уменьшаются до нуля погрешности. В частности, еще в начале 1980-х годов с помощью такой асимптотической теории были сформулированы правила выбора метода оценивания параметров гамма-распределения в ГОСТ 11.011-83 [1].
  Разработана общая схема исследования, включающая расчет нотны (максимально возможного отклонения статистики, вызванного интервальностью исходных данных) и рационального объема выборки (превышение которого не дает существенного повышения точности оценивания). Она применена к оцениванию математического ожидания и дисперсии, медианы и коэффициента вариации, параметров гамма-распределения и характеристик аддитивных статистик, при проверке гипотез о параметрах нормального распределения, в т.ч. с помощью критерия Стьюдента, а также гипотезы однородности с помощью критерия Смирнова. Изучено асимптотическое поведение оценок метода моментов и оценок максимального правдоподобия (а также более общих - оценок минимального контраста), проведено асимптотическое сравнение этих методов в случае интервальных данных, найдены общие условия, при которых, в отличие от классической математической статистики, метод моментов дает более точные оценки, чем метод максимального правдоподобия. Разработаны подходы к рассмотрению интервальных данных в основных постановках регрессионного, дискриминантного и кластерного анализов. В частности, изучено влияние погрешностей измерений и наблюдений на свойства алгоритмов регрессионного анализа, разработаны способы расчета нотн и рациональных объемов выборок, введены и исследованы новые понятия многомерных и асимптотических нотн, доказаны соответствующие предельные теоремы. Начата разработка интервального дискриминантного анализа, в частности, рассмотрено влияние интервальности данных на показатель качества классификации.
  Как показала, в частности, международная конференция ИНТЕРВАЛ-92, в области асимптотической математической статистики интервальных данных российская научная школа имеет мировой приоритет. По нашему мнению, со временем во все виды статистического программного обеспечения должны быть включены алгоритмы интервальной статистики, "параллельные" обычно используемым алгоритмам прикладной математической статистики. Это позволит в явном виде учесть наличие погрешностей у результатов наблюдений, сблизить позиции метрологов и статистиков.
  Многие из утверждений статистики интервальных данных весьма отличаются от аналогов из классической математической статистики. В частности, не существует состоятельных оценок; средний квадрат ошибки оценки, как правило, асимптотически равен сумме дисперсии оценки, рассчитанной согласно классической теории, и некоторого положительного числа (равного квадрату т.н. нотны - максимально возможного отклонения значения статистики из-за погрешностей исходных данных) - в результате метод моментов оказывается иногда точнее метода максимального правдоподобия; нецелесообразно увеличивать объем выборки сверх некоторого предела (называемого рациональным объемом выборки) - вопреки классической теории, согласно которой чем больше объем выборки, тем точнее выводы.
  История развития статистики интервальных данных противоречива. Так, в стандарт [1] был включен специальный раздел 5, посвященный выбору метода оценивания при неизвестных параметрах формы и масштаба и известном параметре сдвига, он был основан на концепциях статистики интервальных данных. Однако теоретическое обоснование этого раздела стандарта было опубликовано лишь через 5 лет. Следует отметить, что хотя в 1982 г. при разработке стандарта [1] уже были найдены основные идеи статистики интервальных данных, однако они не были полностью реализованы в нормативном документе (ГОСТ 11.011-83), и этот стандарт написан в основном в классической манере. Развитие идей статистики интервальных данных продолжается уже в течение 20 лет, и еще много чего надо сделать! Большое значение статистики интервальных данных для современной прикладной статистики обосновано в статье [3].
  Одна из ведущая научная школа в области статистики интервальных данных - это школа проф. А.П. Вощинина, активно работающая с конца 70-х годов. Полученные результаты отражены в ряде монографий (см., в частности, [4-6]), статей [7], научных докладов, в том числе в трудах Международной конференции ИНТЕРВАЛ-92, диссертаций. В частности, изучены проблемы регрессионного анализа, планирования эксперимента, сравнения альтернатив и принятия решений в условиях интервальной неопределенности. Рассмотренное ниже направление исследований отличается нацеленностью на асимптотические результаты, полученные при больших объемах выборок и малых погрешностях измерений, поэтому оно и названо асимптотической статистикой интервальных данных.
  Сформулируем сначала основные идеи асимптотической математической статистики интервальных данных, а затем рассмотрим реализацию этих идей на некоторых из перечисленных выше примеров. Следует сразу подчеркнуть, что основные идеи достаточно просты, в то время как их проработка в конкретных ситуациях зачастую оказывается достаточно трудоемкой.
  Основные понятия асимптотической математической статистики интервальных данных. Пусть существо реального явления описывается выборкой x1 , x2 , ..., xn . В вероятностной теории математической статистики, из которой мы исходим (см. приложение 1 в конце книги), выборка - это набор независимых в совокупности одинаково распределенных случайных величин. Однако беспристрастный и тщательный анализ подавляющего большинства реальных задач показывает, что статистику известна отнюдь не выборка x1 , x2 , ..., xn , а величины
 yj = xj + j , j = 1, 2, ... , n ,
 где некоторые погрешности измерений, наблюдений, анализов, опытов, исследований (например, инструментальные ошибки).
  Одна из причин появления погрешностей - запись результатов наблюдений с конечным числом значащих цифр. Дело в том, что для случайных величин с непрерывными функциями распределения событие, состоящее в попадании хотя бы одного элемента выборки в множество рациональных чисел, согласно правилам теории вероятностей имеет вероятность 0, а такими событиями в теории вероятностей принято пренебрегать. Поэтому при рассуждениях о выборках из нормального, логарифмически нормального, экспоненциального, равномерного, гамма - распределений, распределения Вейбулла-Гнеденко и др. приходится принимать, что эти распределения имеют элементы исходной выборки x1 , x2 , ..., xn , в то время как статистической обработке доступны лишь искаженные значения yj = xj + j.
  Введем обозначения
 x = (x1 , x2 , ..., xn ), y = (y1 , y2 , ..., yn ),
  Пусть статистические выводы основываются на статистике используемой для оценивания параметров и характеристик распределения, проверки гипотез и решения иных статистических задач. Принципиально важная для статистики интервальных данных идея такова: СТАТИСТИК ЗНАЕТ ТОЛЬКО f(y), НО НЕ f(x).
  Очевидно, в статистических выводах необходимо отразить различие между f(y) и f(x). Одним из двух основных понятий статистики интервальных данных является понятие нотны.
  Определение. Величину максимально возможного (по абсолютной величине) отклонения, вызванного погрешностями наблюдений , известного статистику значения f(y) от истинного значения f(x), т.е.
 Nf(x) = sup | f(y) - f(x) | ,
 где супремум берется по множеству возможных значений вектора погрешностей (см. ниже), будем называть НОТНОЙ. .
  Если функция f имеет частные производные второго порядка, а ограничения на погрешности имеют вид
  (1)
 причем мало, то можно показать, что нотна с точностью до бесконечно малых более высокого порядка имеет вид
  Условие (1) означает, что исходные данные представляются статистику в виде интервалов (отсюда и название этого научного направления). Ограничения на погрешности могут задаваться разными способами - кроме абсолютных ошибок используются относительные или иные показатели различия между x и y.
  Основные результаты в вероятностной модели. В классической вероятностной модели имеют элементы исходной выборки x1 , x2 , ..., xn рассматриваются как независимые одинаково распределенные случайные величины. Как правило, существует некоторая константа C > 0 такая, что в смысле сходимости по вероятности
  (2)
 Соотношение (2) доказывается отдельно для каждой конкретной задачи.
  При использовании классических эконометрических методов в большинстве случаев используемая статистика f (x) является асимптотически нормальной. Это означает, что существуют константы а и такие, что
 
 где функция стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1. При этом обычно оказывается, что
 
 и
 
 а потому в классической эконометрике средний квадрат ошибки статистической оценки равен
 
 с точностью до членов более высокого порядка.
  В статистике интервальных данных ситуация совсем иная - обычно можно доказать, что средний квадрат ошибки равен
  (3)
  Из соотношения (3) можно сделать ряд важных следствий. Прежде всего отметим, что правая часть этого равенства, в отличие от правой части соответствующего классического равенства, не стремится к 0 при безграничном возрастании объема выборки. Она остается больше некоторого положительного числа, а именно, квадрат нотны. Следовательно, статистика f(x) не является состоятельной оценкой параметра a. Более того, состоятельных оценок вообще не существует.
  Пусть доверительным интервалом для параметра a, соответствующим заданной доверительной вероятности , в классической математической статистике является интервал В статистике интервальных данных аналогичный доверительный интервал является более широким. Он имеет вид Таким образом, его длина увеличивается на две нотны. Следовательно, при увеличении объема выборки длина доверительного интервала не может стать меньше, чем (см. формулу (2)).
  В статистике интервальных данных методы оценивания параметров имеют другие свойства по сравнению с классической математической статистикой. Так, при больших объемах выборок метод моментов может быть заметно лучше, чем метод максимального правдоподобия (т.е. иметь меньший средний квадрат ошибки - см. формулу (3)), в то время как в классической математической статистике второй из названных методов всегда не хуже первого.
  Рациональный объем выборки. Анализ формулы (3) показывает, что в отличие от классической математической статистики нецелесообразно безгранично увеличивать объем выборки, поскольку средний квадрат ошибки остается всегда большим квадрата нотны. Поэтому представляется полезным ввести понятие "рационального объема выборки" nrat, при достижении которого продолжать наблюдения нецелесообразно.
  Как установить "рациональный объем выборки"? Можно воспользоваться идеей "принципа уравнивания погрешностей", выдвинутой в монографии [8]. Речь идет о том, что вклад погрешностей различной природы в общую погрешность должен быть примерно одинаков. Этот принцип дает возможность выбирать необходимую точность оценивания тех или иных характеристик в тех случаях, когда это зависит от исследователя. В статистике интервальных данных в соответствии с "принципом уравнивания погрешностей" предлагается определять рациональный объем выборки nrat из условия равенства двух величин - метрологической составляющей, связанной с нотной, и статистической составляющей - в среднем квадрате ошибки (3), т.е. из условия
 
  Для практического использования выражения для рационального объема выборки неизвестные теоретические характеристики необходимо заменить их оценками. Это делается в каждой конкретной задаче по-своему.
  Исследовательскую программу в области статистики интервальных данных можно "в двух словах" сформулировать так: для любого эконометрического алгоритма анализа данных (алгоритма прикладной статистики) необходимо вычислить нотну и рациональный объем выборки (или иные величины из того же понятийного ряда, возникающие в многомерном случае, при наличии нескольких выборок и при иных обобщениях описываемой здесь простейшей схемы). Затем проследить влияние погрешностей исходных данных на точность оценивания, доверительные интервалы, значения статистик критериев при проверке гипотез, уровни значимости и другие характеристики статистических выводов. Очевидно, классическая математическая статистика является частью статистики интервальных данных, выделяемой условием = 0.
 
 9.2. Примеры статистического анализа интервальных данных
 
  Поясним теоретические концепции статистики интервальных данных на простых примерах.
  Пример 1. Оценивание математического ожидания. Пусть необходимо оценить математическое ожидание случайной величины с помощью обычной оценки (см. главу 4) - среднего арифметического результатов наблюдений, т.е.
 
 Тогда Таким образом, нотна полностью известна и не зависит от многомерной точки, в которой берется. Вполне естественно: если каждый результат наблюдения известен с точностью до , то и среднее арифметическое известно с той же точностью. Ведь возможна систематическая ошибка - если к каждому результату наблюдению добавить , то и среднее арифметическое увеличится на .
  Поскольку
 
 то в обозначениях предыдущего пункта
 
 Следовательно, рациональный объем выборки равен
 
  Для практического использования полученной формулы надо оценить дисперсию результатов наблюдений. Можно доказать, что, поскольку мало, это можно сделать обычным способом, например, с помощью несмещенной выборочной оценки дисперсии
 
 Здесь и далее рассуждения часто идут на двух уровнях. Первый - это уровень "истинных" случайных величин, обозначаемых "х", описывающих реальность, но неизвестных эконометрику. Второй - уровень известных эконометрику величин "у", отличающихся погрешностями от истинных. Погрешности малы, поэтому функции от х отличаются от функций от у на некоторые бесконечно малые величины. Эти соображения и позволяют нам использовать s2(y) как оценку D(x1).
  Итак, выборочной оценкой рационального объема выборки является
 
  Уже на этом первом рассматриваемом примере видим, что рациональный объем выборки находится не где-то вдали, а непосредственно рядом с теми объемами, с которыми имеет дело любой практически работающий эконометрик. Например, если статистик знает, что то nrat = 36. А именно такова погрешность контрольных шаблонов во многих технологических процессах! Поэтому, занимаясь эконометрикой качества (см. главу 13), обратите внимание и на действующую на предприятии систему измерений.
  По сравнению с главой 4 доверительный интервал для математического ожидания (для заданной доверительной вероятности ) имеет другой вид:
  (4)
 где - квантиль порядка (1+ )/2 стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1..
  По поводу формулы (4) была довольно жаркая дискуссия среди специалистов. Отмечалось, что она получена на основе Центральной Предельной Теоремы теории вероятностей и может быть использована при любом распределении результатов наблюдений (с конечной дисперсией). Если же имеется дополнительная информация, то, по мнению отдельных специалистов, формула (4) может быть уточнена. Например, если известно, что распределение xi является нормальным, в качестве u() целесообразно использовать квантиль распределения Стьюдента. К этому надо добавить, что по небольшому числу наблюдений нельзя надежно установить нормальность, а при росте объема выборки квантили распределения Стьюдента приближаются к квантилям нормального распределения. Вопрос о том, часто ли результаты наблюдений имеют нормальное распределение, подробно обсуждался в начале главы 4.
  Пример 2. Оценивание дисперсии. Для статистики f(y) = s2(y), где s2(y) - выборочная дисперсия (несмещенная оценка теоретической дисперсии), имеем
 
 Можно показать, что нотна Nf(y) сходится к
 
 по вероятности с точностью до , когда n стремится к бесконечности. Это же предельное соотношение верно и для нотны Nf(х), вычисленной для исходных данных. Таким образом, в данном случае справедлива формула (2) с
 
  Известно что случайная величина
 
 является асимптотически нормальной с математическим ожиданием 0 и дисперсией Этот факт использовался в главе 4 для построения асимптотического доверительного интервала для дисперсии.
  Из сказанного вытекает, что в статистике интервальных данных асимптотический доверительный интервал для дисперсии (соответствующий доверительной вероятности ) имеет вид
 
 где
 
 где обозначает тот же самый квантиль стандартного нормального распределения, что и выше в случае оценивания математического ожидания.
  Рациональный объем выборки для дисперсии равен
 
 а выборочную оценку рационального объема выборки можно вычислить, заменяя теоретические моменты на соответствующие выборочные и используя доступные эконометрику результаты наблюдений, содержащие погрешности.
  Что можно сказать о численной величине рационального объема выборки? Как и в случае оценивания математического ожидания, она отнюдь не выходит за пределы обычно используемых объемов выборок. Так, если распределение результатов наблюдений является нормальным с математическим ожиданием 0 и дисперсией , то в результате вычисления моментов случайных величин в предыдущей формуле получаем, что
 
 Например, если то Это меньше, чем при оценивании математического ожидания в предыдущем примере.
 9.3. Статистика интервальных данных и оценки погрешностей
  характеристик финансовых потоков инвестиционных проектов
 
  Методы статистики интервальных данных оказываются полезными не только в традиционных эконометрических задачах, но и во многих других областях экономики и менеджмента, например, в инновационном менеджменте.
  Основная идея формулируется так. Все знают, что любое инженерное измерение проводится с некоторой погрешностью. Эту погрешность обычно приводят в документации и учитывают при принятии решений. Ясно, что и любое экономическое измерение также проводится с погрешностью. А вот какова она? Необходимо уметь ее оценивать, поскольку ошибки при принятии экономических решений обходятся дорого.
  Например, как принимать решение о выгодности или невыгодности инвестиционного проекта? Как сравнивать инвестиционныепроекты между сообой? Как известно, для решения этих задач используют такие экономические характеристики, как NPV (Net Present Value) - чистая текущая стоимость (этот термин переводится с английского также как чистый дисконтированный доход, чистое приведенное значение и др.), внутренняя норма доходности, срок окупаемости, показатели рентабельности и др.
  С экономической точки зрения инвестиционные проекты описываются финансовыми потоками, т.е. функциями от времени, значениями которых являются платежи (и тогда значения этих функций отрицательны) и поступления (значения функций положительны). Сравнение инвестиционных проектов - это сравнение функций от времени с учетом внешней среды, проявляющейся в виде дисконт-функции (как результата воздействия СТЭП-факторов), и представлений законодателя или инвестора - обычно ограничений на финансовые потоки платежей и на горизонт планирования. Основная проблема при сравнении инвестиционных проектов такова: что лучше - меньше, но сейчас, или больше, но потом? Как правило, чем больше вкладываем сейчас, тем больше получаем в более или менее отдаленном будущем. Вопрос в том, достаточны ли будущие поступления, чтобы покрыть нынешние платежи и дать приемлемую для инвестора прибыль?
  В настоящее время широко используются различные теоретические подходы к сравнению инвестиционных проектов и облегчающие расчеты компьютерные системы, в частности, Project Expert, COMFAR, PROPSIN, Альт-Инвест, ТЭО-ИНВЕСТ. Однако ряд важных моментов в них не учтен.
  Введем основные понятия. Дисконт-функция как функция от времени показывает, сколько стоит для фирмы 1 руб. в заданный момент времени, если его привести к начальному моменту. Если дисконт-функция - константа для разных отраслей, товаров и проектов, то эта константа называется дисконт-фактором, или просто дисконтом. Дисконт-функция определяется совместным действием различных факторов, в частности, реальной процентной ставки и индекса инфляции. Реальная процентная ставка описывает "нормальный" рост экономики (т.е. без инфляции). В стабильной ситуации доходность от вложения средств в различные отрасли, в частности, в банковские депозиты, примерно одинакова. Сейчас она, по оценке ряда экспертов, около 12%. Итак, нынешний 1 руб. превращается в 1,12 руб. через год, а потому 1 руб. через год соответствует 1/1,12 = 0,89 руб. сейчас - это и есть максимум дисконта.
  Обозначим дисконт буквой С. Если q - банковский процент (плата за депозит), т.е. вложив в начале года в банк 1 руб., в конце года получим (1+ q) руб., то дисконт определяется по формуле С=1/(1+q). При таком подходе полагают, что банковские проценты одинаковы во всех банках. Более правильно было бы считать q, а потому и С, нечисловыми величинами, а именно, интервалами [q1; q2] и [С1; С2]. Следовательно, экономические выводы должны быть исследованы на устойчивость (применяют и термин "чувствительность") по отношению к возможным отклонениям.
  Как функцию времени t дисконт-функцию обозначим C(t). При постоянстве дисконт-фактора имеем C(t) = Сt. Если q = 0,12, С = 0,89, то 1 руб. за 2 года превращается в 1,122 = 1,2544, через 3 - в 1,4049. Итак, 1 руб., получаемый через 2 года, соответствует 1/1,2544=0,7972 руб., т.е. 79,72 коп. сейчас, а 1 руб., обещанный через 3 года, соответствует 0,71 руб. сейчас. Другими словами, С(2) = 0,80, а С(3) = 0,71. Если дисконт-фактор зависит от времени, в первый год равен С1, во второй - С2, в третий - С3,..., в t-ый год - Сt, то C(t)=С1С2С3...Сt. .
  Рассмотрим характеристики потоков платежей. Срок окупаемости - тот срок, за который доходы покроют расходы. Обычно предполагается, что после этого проект приносит только прибыль. Это верно не всегда. Простейший вариант, для которого не возникает никаких парадоксов, состоит в том, что все инвестиции (капиталовложения) делаются сразу, в начале, а затем инвестор получает только доход. Сложности возникают, если проект состоит из нескольких очередей, вложения распределены во времени. Тогда, например, понятие "срок окупаемости" может быть денежных единиц со временем, т.е. не учитывает дисконтирование. Если неоднозначно - вслед за окупаемостью первой очереди может придти очередь затрат на вторую очередь проекта...
  Примитивный способ расчета срока окупаемости состоит в делении объема вложений А на ожидаемый ежегодный доход В. Тогда срок окупаемости равен А/В. Этот способ падение стоимости дисконт-фактор равен С, то максимально возможный суммарный доход равен
 ВС+ВС2+ВС3+ВС4+ВС5+...=ВС(1+С+С2+С3+С4+...) = ВС / (1-С).
  Если А/В меньше С/(1-С), то можно рассчитать срок окупаемости проекта, но он будет больше, чем А/В. Если же А/В больше или равно С/(1-С), то проект не окупится никогда. Поскольку максимум С равен 0,89, то проект не окупится никогда, если А/В не меньше 8,09.
  Пусть вложения равны 1 млн. руб., ежегодная прибыль составляет 500 тыс., т.е. А/В=2, дисконт-фактор С=0.8. При примитивном подходе (при С=1) срок окупаемости равен 2 годам. А на самом деле? За k лет будет возвращено
 ВС(1+С+С2+С3+С4+...+Сk)=ВС(1-Сk+1) / (1-С).
 Срок окупаемости k получаем из уравнения 1=0,5х0,8(1-0,8 k+1)/(1- 0,8), откуда k= 2,11. Он оказался равным 2,11 лет, т.е. увеличился примерно на 4 недели. Это немного. Однако если В = 0,2, то имеем уравнение 1=0,2х0,8(1-0,8k+1)/ (1- 0,8). У этого уравнения нет корней, поскольку А/В=5>С/(1-С)=0.8/(1-0,8)=4. Проект не окупится никогда. Прибыль можно ожидать лишь при А/В<4. Рассмотрим промежуточный случай, В=0,33, с "примитивным" сроком окупаемости 3 года. Тогда имеем уравнение 1=0,33х0,8 (1-0,8 k+1)/ (1-0,8), откуда k = 5,40.
  Рассмотрим финансовый поток a(0), a(1), a(2), a(3), ... , a(t), .... (для простоты примем, что платежи или поступления происходят раз в год). Выше рассмотрен поток с одним платежом a(0)=(-А) и дальнейшими поступлениями a(1) = a(2) = a(3) = ... = a(t) = .... = В. Чистая текущая стоимость (Net Present Value, сокращенно NPV), рассчитывается для финансового потока путем приведения затрат и поступлений к начальному моменту времени:
 NPV = a(0) +a(1)С(1)+a(2)С(2)+a(3)С(3)+...+ a(t)С(t) + ...,
 где С(t) - дисконт-функция. В простейшем случае, когда дисконт-фактор не меняется год от года и имеет вид С=1/(1+q), формула для NPV конкретизируется:
  NPV=NPV(q)=a(0)+a(1)/(1+q) + a(2)/(1+q)2 +a(3)/(1+q)3 +...+a(t)/(1+q)t + ...
 Пусть, например, a(0)= -10, a(1)=3, a(2)=4, a(3)=5. Пусть q=0,12, тогда
 NPV(0,12)=-10+3х0,89+4х0.80+5х0,71=-10+2,67 + 3,20+3,55= -0,58.
 Итак, проект невыгоден для вложения капитала, поскольку NPV(0,12) отрицательно. При отсутствии дисконтирования (при С = 1, q = 0) вывод иной:
 NPV(0) = - 10 + 3 + 4 + 5 = 2,
 проект выгоден.
  Срок окупаемости и сам вывод о прибыльности проекта зависят от неизвестного дисконт-фактора С или даже от неизвестной дисконт-функции - ибо какие у нас основания считать будущую дисконт-функцию постоянной? Экономическая история России последних лет показывает, что банки часто меняют проценты платы за депозит. Часто предлагают использовать норму дисконта, равную приемлемой для инвестора норме дохода на капитал. Это значит, что экономисты явным образом обращаются к инвестору как к эксперту, который должен назвать им некоторое число исходя из своего опыта и интуиции (т.е. экономисты перекладывают свою работу на инвестора). Кроме того, при этом игнорируется изменение указанной нормы во времени,
  Приведем пример исследования NPV на устойчивость (чувствительность) к малым отклонениям значений дисконт-функции. Для этого надо найти максимально возможное отклонение NPV при допустимых отклонениях значений дисконт-функции (или, если угодно, значений банковских процентов). В качестве примера рассмотрим
 NPV = NPV (a(0), a(1), С(1), a(2), С(2), a(3), С(3))=
 = a(0) + a(1)С(1) + a(2)С(2) + a(3)С(3).
 Предположим, что изучается устойчивость (чувствительность) для ранее рассмотренных значений
 a(0)=-10, a(1)=3, a(2)=4, a(3)=5, С(1)=0,89, С(2)=0,80, С(3)=0,71.
 Пусть максимально возможные отклонения С(1), С(2), С(3) равны +0,05. Тогда, максимум значений NPV равен
 NPVmax = -10+3х0,94+4х0.85+5х0,76 = -10+ 2,82 + 3,40 + 3,80 = 0,02,
 в то время как минимум значений NPV есть
 NPVmin = -10+3х0,84+4х0.75+5х0,66 = -10 +2,52 +3,00+3,30 = -1,18.
 Для NPV получаем интервал от (-1,18) до (+0,02). В нем есть и положительные, и отрицательные значения. Следовательно, нет однозначного заключения - проект убыточен или выгоден. Для принятия решения не обойтись без экспертов.
  Для иных характеристик, например, внутренней нормы доходности, выводы аналогичны. Дополнительные проблемы вносит неопределенность горизонта планирования, а также будущая инфляция (см. главу 7). Если считать, что финансовый поток должен учитывать инфляцию, то это означает, что до принятия решений об инвестициях необходимо на годы вперед спрогнозировать рост цен, а это до сих пор еще не удавалось ни одной государственной или частной исследовательской структуре. Если же рост цен не учитывать, то отдаленные во времени доходы могут "растаять" в огне инфляции. На практике риски учитывают, увеличивая q на десяток-другой процентов.
  Следующая глава 10 посвящена более подробному рассмотрению проблем исследования устойчивости эконометрических выводов по отношению к возможным отклонениям исходных данных и предпосылок моделей.
 Цитированная литература
 
 1. ГОСТ 11.011-83. Прикладная статистика. Правила определения оценок и доверительных границ для параметров гамма-распределения. - М.: Изд-во стандартов, 1984. - 53 с.
 2. Шокин Ю.И. Интервальный анализ. Новосибирск: Наука, 1981, 112 с.
 3. Орлов А.И. Современная прикладная статистика. - Заводская лаборатория. 1998. Т.64. № 3. - С.52-60.
 4. Вощинин А.П. Метод оптимизации объектов по интервальным моделям целевой функции. - М.: МЭИ, 1987. - 109 с.
 5. Вощинин А.П., Сотиров Г.Р. Оптимизация в условиях неопределенности. - М.: МЭИ - София: Техника, 1989. - 224 с.
 6. Вощинин А.П., Акматбеков Р.А. Оптимизация по регрессионным моделям и планирование эксперимента. - Бишкек: Илим, 1991. - 164 с.
 7. Вощинин А.П. Метод анализа данных с интервальными ошибками в задачах проверки гипотез и оценивания параметров неявных линейно параметризованных функций. - Заводская лаборатория. 2000. Т.66. № 3. - С.51-65.
 8. Орлов А.И. Устойчивость в социально-экономических моделях. - М.: Наука, 1979. - 296 с.
 9..Орлов А.И. Интервальный статистический анализ. - В сб.: Статистические методы оценивания и проверки гипотез. Межвузовский сборник научных трудов. - Пермь: Изд-во Пермского государственного университета, 1993. - С.149-158.
 
 
 Глава 10. Проблемы устойчивости эконометрических процедур
 
  В настоящей главе после обсуждения актуальности проблем изучения устойчивости в различных эконометрических задачах и разбора общей схемы такого изучения рассматриваются три конкретные направления - робастность статистических процедур, устойчивость отношению к объему выборки и устойчивость по отношению к горизонту планирования.
 
 10.1. Общая схема устойчивости
 
  Проблемам познания, в том числе в социально-экономической области, посвящено огромное количество работ. Однако это не значит, что обо всем в этой области уже все сказано. А о некоторых положениях целесообразно говорить еще и еще раз, пока они ни станут общеизвестными.
  В настоящей книге предлагаются, изучаются и обсуждаются эконометрические модели социально-экономических явлений и процессов, а также рассматриваются общие требования, которые естественно предъявлять к подобным моделям. В идеале каждую такую модель следовало бы рассматривать как аксиоматическую теорию. В этом идеальном случае создание и использование модели происходит в соответствии с известной триадой "практика - теория - практика". А именно, сначала вводятся некоторые математические объекты, соответствующие интересующим исследователя реальным объектам, и на основе представлений о свойствах реальных объектов формулируются необходимые для успешного моделирования свойства математических объектов, которые и принимаются в качестве аксиом. Затем аксиоматическая теория развивается как часть математики, вне связи с представлениями о реальных объектах. На заключительном этапе полученные в математической теории результаты интерпретируются содержательно. Получаются утверждения о реальных объектах, являющиеся следствиями тех и только тех их свойств, которые ранее были аксиоматизированы.
  Рассматриваемые в настоящей книге эконометрические модели также выражены на математическом языке, исследование их ведется средствами математики без привлечения содержательных социально-экономических соображений, а выводы интерпретируются на языке соответствующей предметной области, т.е. содержательно.
  После построения математической модели реального явления или процесса встает вопрос о ее адекватности. Иногда ответ на этот вопрос может дать эксперимент. Рассогласование модельных и экспериментальных данных следует интерпретировать как признак неадекватности некоторых из принятых аксиом. Однако для проверки адекватности социально-экономических моделей зачастую невозможно поставить решающий эксперимент в отличие, скажем, от физических моделей. С другой стороны, для одного и того же социально-экономического явления или процесса, как правило, можно составить много возможных моделей, если угодно, много разновидностей одной базовой модели. Поэтому необходимы какие-то дополнительные условия, которые позволяли бы их множества возможных моделей и эконометрических методов анализа данных выбрать наиболее подходящие. В настоящей главе в качестве одного из подобных условий выдвигается требование устойчивости модели и метода анализа данных относительно допустимых отклонений исходных данных и предпосылок модели или условий применимости метода.
  Отметим, что в большинстве случаев исследователей и практических работников интересуют не столько сами модели и методы, сколько решения, которые с их помощью принимаются. Ведь модели и методы для того и разрабатываются, чтобы подготавливать решения. Вместе с тем очевидно, что решения, как правило, принимаются в условиях неполноты информации. Так, любые числовые параметры известны лишь с некоторой точностью. Введение в рассмотрение возможных неопределенностей исходных данных требует каких-то заключений относительно устойчивости принимаемых решений по отношению к этим допустимым неопределенностям.
  Введем основные понятия согласно монографии [1].. Будем считать, что имеются исходные данные, на основе которых принимаются решения. Способ переработки (отображения) исходных данных в решение назовем моделью. Таким образом, с общей точки зрения модель - это функция, переводящая исходные данные в решение, т.е. способ перехода значения не имеет. Очевидно, любая рекомендуемая для практического использования модель должна быть исследована на устойчивость относительно допустимых отклонений исходных данных. Укажем некоторые возможные применения результатов подобного исследования:
  - заказчик научно-исследовательской работы получает представление о точности предлагаемого решения;
  - удается выбрать из многих моделей наиболее адекватную;
  - по известной точности определения отдельных параметров модели удается указать необходимую точность нахождения остальных параметров;
 - переход к случаю "общего положения" позволяет получать более сильные с математической точки зрения результаты.
  Примеры. По каждому из четырех перечисленных возможных применений в настоящей книге уже приведены различные примеры. В эконометрике точность предлагаемого решения связана с разбросом исходных данных и с объемом выборки, и способы оценки точности решения для различных задач расписаны выше. Выбору наиболее адекватной модели посвящены многие рассмотрения в главах 4 и 5, связанные с обсуждением моделей однородности и регрессии. Рациональный объем выборки в статистике интервальных данных (глава 9) исходит из принципа уравнивания погрешностей, основанного на том, что по известной точности определения отдельных параметров модели удается указать необходимую точность нахождения остальных параметров. Другим примером применения той же концепции является нахождение необходимой точности оценивания параметров в моделях логистики, рассмотренных в главе 5 монографии [1]. Наконец, переходом к случаю "общего положения" в эконометрике является, в частности, переход к непараметрической статистике, необходимый из-за невозможности обосновать принадлежность результатов наблюдений к тем или иным параметрическим семействам.
 Специалисты по моделированию и теории управления считают устойчивость одной из важных характеристик социально-экономических моделей. Достаточно глубокие исследования ведутся по ряду направлений.
  Первоначальное изучение влияния малого изменения одного параметра обычно называют анализом чувствительности. Оно обычно описывается значением частной производной. Если модель задается дифференцируемой функцией, то итог анализа чувствительности - вектор значений частных производных в анализируемой точке.
  Теория устойчивости решений дифференциальных уравнений развивается по крайней мере с XIX в. Выработаны соответствующие понятия - устойчивость по Ляпунову, корректность, доказаны глубокие теоремы. Для решения некорректных задач академиком АН СССР А.Н. Тихоновым в начале 1960-х годов был предложен метод регуляризации. Модели социально-экономических явлений и процессов, выражаемые с помощью дифференциальных уравнений, могут быть исследованы на устойчивость путем применения хорошо разработанного математического аппарата.
  Вопросы устойчивости изучались практически во всех направлениях экономико-математических методов - и в математическом программировании, и в теории массового обслуживания (теории очередей), и в эколого-экономических моделях, и в различных областях эконометрики.
  Прежде чем переходить к конкретным постановкам, обсудим "общую схему устойчивости", дающую понятийную базу для обсуждения проблем устойчивости в различных предметных областях.
  Определение 1. Общей схемой устойчивости называется объект
 
  Здесь - множество, называемое (и интерпретируемое) пространством исходных данных; - множество, называемое пространством решений. Однозначное отображение называется моделью. Об этих трех составляющих общей схемы устойчивости уже шла речь выше.
  Оставшиеся два понятия нужны для уточнения понятий близости в пространстве исходных данных и пространстве решений. Подобные уточнения могут быть сделаны разными способами. Самое "слабое" уточнение - на языке топологических пространств. Тогда возможны качественные выводы (сходится - не сходится), но не количественные расчеты. Самое "сильное" уточнение - на языке метрических пространств. Промежуточный вариант - используются показатели различия (отличаются от метрик тем, что не обязательно выполняются неравенства треугольника) или вводимые ниже понятия.
  Пусть d -показатель устойчивости, т.е. неотрицательная функция, определенная на подмножествах У множества и такая, что из вытекает Часто показатель устойчивости d(Y) определяется с помощью метрики, псевдометрики или показателя различия (меры близости) как диаметр множества У, т.е.
 
 Таким образом, говоря попросту, в пространстве решений с помощью показателя устойчивости вокруг образа исходных данных может быть сформирована система окрестностей. Но сначала надо такую систему сформировать в пространстве исходных данных.
  Пусть - совокупность допустимых отклонений, т.е. система подмножеств множества такая, что каждому элементу множества исходных данных и каждому значению параметра из некоторого множества параметров соответствует подмножество множества исходных данных, называемое множеством допустимых отклонений в точке х при значении параметра, равном . Наглядно можно представить себе, что вокруг точки х взята окрестность радиуса .
  Определение 2. Показателем устойчивости в точке х при значении параметра, равном , называется число
 
  Другими словами, это - диаметр образа множества допустимых колебаний при рассматриваемом в качестве модели отображении. Очевидно, что этот показатель устойчивости зависит как от исходных данных, так и от диаметра множества возможных отклонений в исходном пространстве. Для непрерывных функций показатель устойчивости обычно называется модулем непрерывности.
  Естественно посмотреть, насколько сузится образ окрестности возможных отклонений при максимально возможном сужении этой окрестности.
  Определение 3. Абсолютным показателем устойчивости в точке х называется число
 
  Если функция f непрерывна, а окрестности - именно те, о которых идет речь в математическом анализе, то максимальное сужение означает сужение к точке и абсолютный показатель устойчивости равен 0. Но в главах 3 и 9 мы сталкивались с совсем иными ситуациями. В главе 3 окрестностью исходных данных были все те вектора, что получались из исходного путем преобразования координат с помощью допустимого преобразования шкалы, а допустимое преобразование шкалы бралось из соответствующей группы допустимых преобразований. В главе 9 под окрестностью исходных данных естественно было понимать - при описании выборки - куб с ребрами и центром в исходном векторе. И в том, и в другом случае максимальное сужение не означает сужение к точке.
  Естественным является желание ввести характеристики устойчивости на всем пространстве. Не вдаваясь в математические тонкости (см. о них монографию [1]), рассмотрим меру на пространстве такую, что мера всего пространства равна 1 (т.е.
  Определение 4. Абсолютным показателем устойчивости на пространстве исходных данных по мере называется число
 
  Здесь имеется в виду так называемый интеграл Лебега. Интегрирование проводится по (абстрактному) пространству исходных данных по мере . Естественно, должны быть выполнены некоторые внутриматематические условия, думать о которых эконометрику ни к чему. Читателю, незнакомому с интегрированием по Лебегу, достаточно мысленно заменить в предыдущей формуле интеграл на сумму (а пространство считать конечным, хотя и состоящим из большого числа элементов).
  Определение 5. Максимальным абсолютным показателем устойчивости называется
 
  Легко видеть, что где супремум берется по всем описанным выше мерам.
  Итак, построена иерархия показателей устойчивости эконометрических и экономико-математических моделей. Она с успехом использовалась в исследованиях, подробно развивалась, в частности, в монографии [1]. В частности, полезным оказалось следующее определение.
  Определение 6. Модель f называется абсолютно -устойчивой, если где - максимальный абсолютный показатель устойчивости.
  Пример. Если показатель устойчивости формируется с помощью метрики, совокупность допустимых отклонений - это совокупность всех окрестностей всех точек пространства исходных данных, то 0-устойчивость модели f 'эквивалентна непрерывности модели f на множестве .
  Основная проблема в общей схеме устойчивости - проверка -устойчивости данной модели f относительно данной системы допустимых отклонений .
  Часто оказываются полезными следующие два обобщения основной проблемы.
  Проблема А (характеризации устойчивых моделей). Даны пространство исходных данных , пространство решений , показатель устойчивости d, совокупность допустимых отклонений и неотрицательное число . Описать достаточно широкий класс -устойчивых моделей f. Или: найти все -устойчивые модели среди моделей, обладающих данными свойствами, т.е. входящих в данное множество моделей.
  Проблема Б (характеризации систем допустимых отклонений). Даны пространство исходных данных , пространство решений , показатель устойчивости d, модель f и неотрицательное число . Описать достаточно широкий класс систем допустимых отклонений , относительно которых модель f является -устойчивой. Или: найти все такие системы допустимых отклонений среди совокупностей допустимых отклонений, обладающих данными свойствами, т.е. входящих в данное множество совокупностей допустимых отклонений.
  Ясно, что проблемы А и Б можно рассматривать не только для показателя устойчивости , но и для других только что введенных показателей устойчивости, а именно,
  Язык общей схемы устойчивости позволяет описывать конкретные задачи специализированных теорий устойчивости в различных областях исследований, выделять в основные элементы в них, ставить проблемы типа А и Б. На этом языке легко формулируются задачи теории устойчивости оеешений жифференциальных уравнений, теории робастности статистических процедур, проблемы адекватности теории измерений (см. главу 3), достигаемой точности расчетов в статистике интервальных данных (см. главу 11) и в логистике (см. монографию [1]), и т.д.
  Для примера рассмотрим определение устойчивости по Ляпунову решения нормальной автономной системы дифференциальных уравнений с начальными условиями Здесь пространство исходных данных - конечномерное евклидово пространство, множество допустимых отклонений окрестность радиуса точки , пространство решений - множество функций на луче с метрикой
 
 Модель f - отображение, переводящее начальные условия х в решение системы дифференциальных уравнений с этими начальными условиями
  В терминах общей схемы устойчивости положение равновесия а называется устойчивым по Ляпунову, если Для формулировки определения асимптотической устойчивости по Ляпунову надо ввести в пространстве решений псевдометрику
 
 Положение равновесия а называется асимптотически устойчивым, если для некоторого где показатель устойчивости рассчитан с использованием псевдометрики .
  Таким образом, общая схема устойчивости естественным образом включает в себя классические понятия теории устойчивости по Ляпунову. Вместе с тем стоит отметить, что эта схема дает общий подход к различным проблемам устойчивости, прежде всего в эконометрических и экономико-математических постановках, дает систему понятий, которые в каждом конкретном случае должны приспосабливаться к решаемой задаче.
  До настоящего момента для определенности речь шла о допустимых отклонениях в пространстве исходных данных. Часто оказывается необходимым говорить и об отклонениях от предпосылок модели. С чисто формальной точки зрения для этого достаточно расширить понятие "исходные данные" до пары (x, f), т.е. включив "прежнюю" модель в качестве второго элемента пары. Все остальные определения остаются без изменения. Теперь отклонения в пространстве решений вызываются не только отклонениями в исходных данных x, но и отклонениями от предпосылок модели, т.е. отклонениями f. Это соображение нам понадобится в следующем пункте настоящей главы, посвященном робастности статистических процедур.
  Различные асимптотические постановки в эконометрической теории (третий пункт настоящей главы) также естественно рассматривать как задачи устойчивости. Если при безграничном возрастании объема выборки некоторая величина стремится к пределу, то в терминах общей схемы устойчивости это означает, что она 0-устойчива в соответствующей псевдометрике (см. выше обсуждение асимптотической устойчивости по Ляпунову). С содержательной точки зрения употребление термина "устойчивость" в такой ситуации представляется вполне оправданным, поскольку рассматриваемая величина мало меняется при изменении объема выборки.
  Для стратегического менеджмента весьма важна проблема горизонта планирования (подробнее см. учебное пособие [2]). Очевидно, что вид оптимальных решений зависит от заранее заданной длины интервала, для которого строится оптимальных план (т.е. от горизонта планирования). Это означает, что необходимо обосновать выбор горизонта планирования. Принять его бесконечным нерационально, поскольку совершенно ясно, что через каких-нибудь 100 лет производительные силы и производственные отношения будут совсем иные, чем в настоящее время, и пытаться их учитывать для принятия решений в настоящее время нецелесообразно. Как же быть? Об этом - в четвертом пункте настоящей главы.
 
 10.2. Робастность статистических процедур
 
  Термин "робастность" (robustness - англ.) образован от robust - крепкий, грубый (англ.). Сравните с названием одного из сортов кофе - robusta. Имеется в виду, что робастные статистические процедуры должны "выдерживать" ошибки, которые теми или иными способами могут попадать в исходные данные или искажать предпосылки используемых вероятностно-статистических моделей.
  Термин "робастный" стал популярным в нашей стране в 1970-е годы. Сначала он использовался фактически как сужение термина "устойчивый" на алгоритмы статистического анализа данных классического типа (не включая теорию измерений, статистику нечисловых и интервальных данных). Затем реальная сфера его применения сузилась.
  Пусть исходные данные - это выборка, т.е. совокупность независимых одинаково распределенных случайных величин с одной и той же функцией распределения F(x). Наиболее простая модель изучения устойчивости - это модель засорения
  (1)
 Эта модель имеются также моделью Тьюки-Хубера. (Джон Тьюки - американский исследователь, П.Хубер, или Хьюбер - швейцарский ученый) Модель (1) показывает, что с близкой к 1 вероятностью, а именно, с вероятностью наблюдения берутся из совокупности с функцией распределения которая предполагается обладающей "хорошими" свойствами. Например, она имеет известный эконометрику вид (хотя бы с точностью до параметров), у нее существуют все моменты, и т.д. Но с малой вероятностью появляются наблюдения из совокупности с "плохим" распределением, например, взятые из распределения Коши, не имеющего математического ожидания, резко выделяющиеся аномальные наблюдения, выбросы.
  Актуальность модели (1) не вызывает сомнений. Наличие засорений (выбросов) может сильно исказить результаты эконометрического анализа данных. Ясно, что если функция распределения элементов выборки имеет вид (1), где первое слагаемое соответствует случайной величине с конечным математическим ожиданием, а второе - такой, для которого математического ожидания не существует (например, если H(x) - функция распределения Коши), то для итоговой функций распределения (1) также не существует математического ожидания. Исследователя обычно интересуют характеристики первого слагаемого, но найти их, т.е. освободиться от влияния засорения, не так-то просто. Например, среднее арифметическое результатов наблюдений не будет иметь никакого предела (это - строгое математическое утверждение, вытекающее из того, что математическое ожидание не существует [3]).
  Существуют различные способы борьбы с засорением. Эмпирическое правило "борьбы с засорениями" при подведении итогов работы команды судей найдено в фигурном катании: наибольшая и наименьшая оценки отбрасываются, а по остальным рассчитывается средняя арифметическая (см. главу 12). Ясно, что "засорение" окажется среди отброшенных оценок.
  Оценивать характеристики и параметры, проверять статистические гипотезы, вообще осуществлять эконометрический анализ данных все чаще рекомендуют на основе эмпирических квантилей (другими словами, порядковых статистик, членов вариационного ряда), отделенных от концов вариационного ряда. Речь идет об использовании статистик типа
 
 Ценой небольшой потери в эффективности избавляемся от засоренности типа описанной в модели (1).
  Вариантом этого подхода является переход к сгруппированным данным. Прямая разбивается на интервалы, и вместо количественных значений эконометрик подсчитывает лишь, сколько наблюдений попало в те или иные интервалы. Особое значение приобретают крайние интервалы - к ним относят все наблюдения, которые больше некоторого верхнего порога и меньше некоторого нижнего порога. Любым методам анализа сгруппированных данных резко выделяющиеся наблюдения не страшны.
  Можно поставить под сомнение и саму опасность засорения. Дело в том, что практически все реальные величины ограничены. Все лежат на каком-то интервале - от и до. Это совершенно ясно, если речь идет о физическом измерении - все укладывается в шкалу прибора. По-видимому, и для эконометрических измерений наибольшие сложности создают не сверхбольшие помехи, а не засорения, что находятся "на грани" между "интуитивно возможным" и "интуитивно невозможным".
  Что же это означает? Если элементы выборки по абсолютной величине не превосходят числа А, то все засорение может сдвинуть среднее арифметическое на величину Если засорение невелико, то и сдвиг мал.
  Построена достаточно обширная и развитая теория, посвященная разработке и изучению методов анализа данных в модели (1). С ней можно познакомиться по монографиям [4-6]. К сожалению, в теории обычно предполагается известной степень засорения , а на практике эта величина неизвестна. Кроме того, теория обычно направлена на защиту от воздействий, якобы угрожающих из бесконечности, а на самом деле реальные данные финитны (сосредоточены на конечных отрезках). Все это объясняет, почему теория робастности, исходящая из модели (1), популярна среди теоретиков, но мало интересна тем, кто анализирует реальные экономические данные.
  Рассмотрим несколько более сложную модель. Пусть наблюдаются реализации независимых случайных величин с функциями распределения соответственно. Эта модель соответствует гипотезе о том, что в процессе наблюдения (измерения) условия несколько менялись. Естественной представляется модель малых отклонений функций распределений наблюдаемых случайных величин от некоторой "базовой" функции распределения . Множество возможных значений функций распределений наблюдаемых случайных величин описывается следующим образом:
 
  Следующий тип моделей - это введение малой (т.е. слабой) зависимости между рассматриваемыми случайными величинами (см., например, монографию [7]). Ограничения на взаимную зависимость можно задать разными способами. Пусть - совместная функция распределения, коэффициент корреляции между i-ой и j-ой случайными величинами. Множество возможных совместных функций распределения описывается следующим образом:
 
  Есть еще целый ряд постановок задач робастности. Если накладывать погрешности непосредственно на результаты наблюдений (измерений), то получаем постановки задач статистики интервальных данных (см. главу 11), поскольку каждый результат наблюдения превращается в интервал - исходное значение плюс-минус погрешность.
  Разработано много вариантов робастных методов анализа статистических данных (см. монографии [1,4-6]). Иногда говорят, что робастные методы позволяют использовать информацию о том, что реальные наблюдения лежат "около" тех или иных параметрических семейств, например, нормальных. В этом, дескать, их преимущество по сравнению с непараметрическими методами, которые предназначены для анализа данных из всех возможных распределений. Однако количественных подтверждений этих уверений любителей робастных методов обычно не удается найти.
 
 10.3. Устойчивость по отношению к объему выборки
 
  В настоящем пункте рассматривается проблема и методы оценки близости предельных распределений статистик и распределений, соответствующих конечным объемам выборок. При каких объемах выборок уже можно пользоваться предельными распределениями? Каков точный смысл термина "можно" в предыдущей фразе? Основное внимание уделяется переходу от точных формул допредельных распределений к пределу и применению метода статистических испытаний (Монте-Карло).
  Асимптотическая математическая статистика и практика анализа статистических данных. Как обычно подходят к обработке реальных данных в конкретной эконометрической задаче? Первым делом строят статистическую модель. Если хотят перенести выводы с совокупности результатов наблюдений на более широкую совокупность, например, предсказать что-либо (см. главу 14), то рассматривают, как правило, вероятностно-статистическую модель. Например, традиционную модель выборки, в которой результаты наблюдений - реализации независимых (в совокупности) одинаково распределенных случайных величин. Очевидно, любая модель лишь приближенно соответствует реальности. В частности, естественно ожидать, что распределения результатов наблюдений несколько отличаются друг от друга, а сами результаты связаны между собой, хотя и слабо (см. предыдущий пункт).
  Итак, первый этап - переход от реальной ситуации к математической модели. Далее - неожиданность: на настоящем этапе своего развития математическая теория эконометрики и статистики зачастую не позволяет провести необходимые исследования для имеющихся объемов выборок. Более того, отдельные математики пытаются оправдать свой отрыв от практики соображениями о структуре этой теории, на первый взгляд убедительными. Неосторожная давняя фраза Б.В. Гнеденко и А.Н.Колмогорова: "Познавательная ценность теории вероятностей раскрывается только предельными теоремами" (см. классическую монографию [8], одну из наиболее ценных математических книг ХХ в.) взята на вооружение и более близкими к нам по времени авторами. Так, И.А. Ибрагимов и Р.З. Хасьминский пишут: "Решение неасимптотических задач оценивания, хотя и весьма важное само по себе, как правило, не может являться объектом достаточно общей математической теории. Более того, соответствующее решение часто зависит от конкретного типа распределения, объема выборки и т.д. Так, теория малых выборок из нормального закона будет отличаться от теории малых выборок из закона Пуассона" (см. напичканную формулами монографию [9, с.7]).
  Согласно цитированным и подобным им авторам, основное содержание математической теории статистики - предельные теоремы, полученные в предположении, что объемы рассматриваемых выборок стремятся к бесконечности. Эти теоремы опираются на предельные соотношения теории вероятностей, типа Закона Больших Чисел и Центральной Предельной Теоремы. Ясно, что сами по себе подобные утверждения относятся к математике, т.е. к сфере чистой абстракции, и не могут быть непосредственно применены для анализа реальных данных. Их практическое использование, о котором "чистые" математики предпочитают не думать, опирается на важное предположение: "При данном объеме выборки достаточно точными являются асимптотические формулы."
  Конечно, в качестве первого приближения представляется естественным воспользоваться асимптотическими формулами, не тратя сил на анализ их точности. Но это - лишь начало долгой цепи исследований. Как же обычно преодолевают разрыв между результатами асимптотической математической статистики и потребностями практики эконометрического и статистического анализа данных? Какие "подводные камни" подстерегают на этом пути? Обсуждению этих вопросов и посвящен настоящий пункт.
  Точные формулы и асимптотика. Начнем с наиболее продвинутой в математическом плане ситуации, когда для статистики известны как предельное распределение, так и распределения при конечных объемах выборки.
  Примером является двухвыборочная односторонняя статистика Н.В.Смирнова. Рассмотрим две независимые выборки объемов m и n из непрерывных функций распределения F(x) и G(x) соответственно. Для проверки гипотезы однородности двух выборок (ср. главу 4)
 H0: F(x) = G(x) для всех действительных чисел x
 в 1939 г. Н.В. Смирнов в статье [10] предложил использовать статистику
 D+(m,n) = sup (Fm(x) - Gn(x)) ,
 где Fm(x) - эмпирическая функция распределения, построенная по первой выборке, Gn(x) - эмпирическая функция распределения, построенная по второй выборке, супремум берется по всем действительным числам x. Для обсуждения проблемы соотношения точных и предельных результатов ограничимся случаем равных объемов выборок, т.е. m = n. Положим
 
 В цитированной статье [10] Н.В. Смирнов показал, что при безграничном возрастании объема выборки n вероятность H(n, t) стремится к exp(- t 2).
 В работе [11] 1951 г. Б.В. Гнеденко и В.С. Королюк показали, что при целом (именно при таких t вероятность H(n, t) как функция t имеет скачки, поскольку статистика Смирнова D+(n,n) кратна 1/n ) рассматриваемая вероятность H(n, t) выражается через биномиальные коэффициенты, а именно,
  (1)
  К сожалению, непосредственные расчеты по формуле (1) возможны лишь при сравнительно небольших объемах выборок, поскольку величина n!. (n-факториал) уже при n=100 имеет более 200 цифр и не может быть без преобразований использована в вычислениях. Следовательно, наличие точной формулы для интересующей нас вероятности не снимает необходимости использования предельного распределения и изучения точности приближения с его помощью.
  Широко известная формула Стирлинга для гамма-функции и, в частности, для факториалов позволяет преобразовать последнее выражение в асимптотическое разложение, т.е. построить бесконечный степенной ряд (по степеням n ) такой что каждая следующая частичная сумма дает все более точное приближение для интересующей нас вероятности H(x, t) . Это и было сделано в работе А.А. Боровкова 1962 г. Большое количество подобных разложений для различных статистических задач приведено в работах В.М. Калинина и О.В. Шалаевского конца 1960-х - начала 1970-х годов. (Интересно отметить, что асимптотические разложения в ряде случаев расходятся, т.е. остаточные члены имеют нетривиальную природу.)
  Затем в работах конца семидесятых годов была сделана попытка теоретически оценить остаточный член второго порядка. Итоги подведены в монографии [1, § 2.2, с.37-45]. Справедливо равенство
 H(n, t) = exp ( - t 2 ).(1 + f(t)/n + g(n,t)/ n2 ),
 где
 f(t) = t2 (1/2 - t2/ / 6 ).
 Целью последних из названных работ было получение равномерных по n, t оценок остаточного члена второго порядка g(n,t) сверху и снизу в области, задаваемой условиями
  (2)
 где - некоторые параметры. С помощью длинных цепочек оценок остаточных членов в формулах, получаемых при преобразовании формулы (1) к предельному виду, сформулированная выше цель была достигнута, и для различных наборов параметров получены равномерные по n, t оценки (сверху и снизу) остаточного члена второго порядка g(n,t) в области (2). Так, например, при А = 0,5, t max = 1,73, n0 = 8 нижняя граница равна (- 0,71), а верхняя есть 2,65.
 Основными недостатками такого подхода являются, во первых, зависимость оценок от параметров , задающих границы областей, во-вторых, завышение оценок, иногда в сотни раз, обусловленное желанием получить равномерные оценки по области (оценкой реальной погрешности в конкретной точке является значение следующего члена асимптотического разложения).
  Поэтому при составлении рассчитанной на практическое использование методики [12] проверки однородности двух выборок с помощью статистики Смирнова было решено перейти на несколько другую методологию (назовем ее "методологией заданной точности"), которую кратко можно описать следующим образом.
  1) выбирается достаточно малое положительное число р, например р = 0,05 или р = 0,20;
  2) приводятся точные значения H(n, t) для всех значений n таких, что
 | H(n, t) - exp ( - t 2 ) | > p exp ( - t 2 ) ;
  3) если же последнее неравенство не выполнено, то предлагается пользоваться вместо H(n, t) предельным значением exp ( - t 2 ).
  Таким образом, принятая в методике [12] методология предполагает интенсивное использование вычислительной техники. Результатами расчетов являются граничные значения объемов выборок n(p,t) такие, что при меньших значениях объемов выборок рекомендуется пользоваться точными значениями функции распределения статистики Смирнова, а при больших - предельными. Описывается этот результат таблицей, а не формулой. Отметим, что при построении реальных таблиц не обойтись без выбора того или иного конкретного значения р, задающего объемы таблиц.
  Оценки скорости сходимости. Теоретические оценки скорости сходимости в различных задачах эконометрики и прикладной математической статистики иногда формулируются в весьма абстрактном виде. Так, в 1960-1970-х годах была популярна задача оценки скорости сходимости распределения классической статистики омега-квадрат (Крамера-Мизеса-Смирнова). Для максимума модуля разности допредельной и предельной функций распределения этой статистики различные авторы доказывали, что для любого e>0 существует константа С(e) такая, что упомянутый максимум не превосходит С(e) n - w + e. Прогресс состоял в увеличении константы w. Сформулированный выше результат был доказан последовательно для w = 1/10, 1/6, 1/5, 1/4, 1/3, 1/2 и 1 (подробнее история этих исследований рассказана в §2.3 монографии [1]).
  Конечно, все эти исследования не могли дать конкретных практических рекомендаций. Однако необходимой исходной точкой является само существование предельного распределения. Представим себе, что некто, не зная, что у распределения Коши нет математического ожидания, моделирует выборочные средние арифметические результатов наблюдений из этого распределения. Ясно, что его попытки оценить скорость сходимости выборочных средних к пределу обречены на провал.
  Последовательное улучшение теоретических оценок скорости сходимости дает надежду на быструю реальную сходимость. Действительно, численные расчеты показали, что предельным распределением для статистики омега-квадрат (Крамера-Мизеса-Смирнова) можно пользоваться уже при объеме выборки, равном 4.
  Использование датчиков псевдослучайных чисел. Если же предельное распределение известно, то возникает возможность изучить скорость сходимости численно методом статистических испытаний (Монте-Карло). Однако при этом обычно возникают две проблемы.
  Во-первых, откуда известно, что скорость сходимости монотонна? Если при данном объеме выборки различие мало, то будет ли оно мало и при дальнейших объемах? Иногда отклонения допредельного распределения от предельного объясняются довольно сложными причинами. Так, для распределения хи-квадрат они связаны с рядом до сих пор не решенных теоретико-числовых проблем о числе целых точек в эллипсоиде растущего диаметра.
  Во-вторых, с помощью датчиков псевдослучайных чисел получаем допредельные распределения с погрешностью, которая может преуменьшать различие. Поясним мысль аналогией. Растущий сигнал измеряется с погрешностями. Когда можно гарантировать, что его величина наверняка превзошла заданную границу?
  Напомним, что проблема качества датчиков псевдослучайных чисел продолжает оставаться открытой (см. главу 11). Для моделирования в пространствах фиксированной размерности датчики псевдослучайных чисел решают поставленные задачи. Но для рассматриваемых нами задач размерность не фиксирована - мы не знаем, при каком конкретно объеме выборки можно переходить к предельному распределению согласно "методологии заданной точности".
  Нужны дальнейшие работы по изучению качества датчиков псевдослучайных чисел в задачах неопределенной размерности. Поскольку критиков датчиков обычно обвиняют в том, что они сами их не используют, отмечу, что мы применяли этот инструментарий при изучении помех, создаваемых электровозами (см. монографию [1]), при изучении статистических критериев проверки однородности двух выборок (см. работу [13]).
  А нужна ли вообще асимптотика? В настоящее время развивается актуальное направление прикладной статистики, связанное с интенсивным использованием вычислительной техники для изучения свойств статистических процедур. Как уже отмечалось, математические методы в статистике обычно позволяют получать лишь асимптотические результаты, и для переноса выводов на конечные объемы выборок приходится применять вычислительные методы. В Новосибирском государственном техническом университете разработан и успешно применяется оригинальный подход, основанный на интенсивном использовании современной вычислительной техники. Основная идея такова: в качестве альтернативы асимптотическим методам математической статистики используется анализ результатов статистического моделирования (порядка 2000 испытаний) выборок конкретных объемов (200, 500, 1000). При этом анализ предельных распределений заменяется на анализ распределений соответствующих статистик при указанных объемах выборок.
  К достоинствам подхода относится возможность замены теоретических исследований расчетами. Разработанная программная система дает в принципе возможность численно изучить свойства любого статистического алгоритма для любого конкретного распределения результатов наблюдений и любого конкретного объема выборки. К недостаткам рассматриваемого подхода относится зависимость от свойств датчиков псевдослучайных чисел, а также - что более важно - неизвестность предельного распределения (и даже самого факта его существования), а потому невозможность обоснованного переноса полученных выводов на объемы выборок, отличные от исследованных. Поэтому с точки зрения теории математической статистики полученные рассматриваемым способом результаты следует рассматривать как правдоподобные (а не доказательные, как в классической математической статистике).
  Кроме того, они принципиально неточные. Даже в наиболее благоприятных условиях отклонение смоделированного распределения, построенного по 2000 испытаниям, от теоретического предельного распределения, по нашей оценке, может иметь порядок (1/2000 + 1/1000)1/2 = 0,038 (ср. главу 4). Это означает, в частности, что процентные точки, соответствующие уровням значимости 0,05 и особенно 0,01, могут сильно отличаться от соответствующих процентных точек предельных распределений. Очевидно, следующий этап работ - изучение точности полученных в рассматриваемом подходе выводов, прежде всего приближений и процентных точек.
  Однако сразу все не сделаешь. Поэтому новосибирцы совершенно правы, развивая новые компьютерные подходы к давним задачам эконометрики и прикладной математической статистики. В частности, весьма полезными и интересными являются результаты, касающиеся непараметрических критериев согласия. Весьма интересным и полезным представляется также метод построения оптимального группирования, в частности, при использовании критериев типа хи-квадрат. Важен результат о неробастности (неустойчивости) оценок максимального правдоподобия по негруппированным данным. Надо поддержать идею использования одновременно двух оценок по группированным данным с использованием как оптимального, так и равновероятного группирования. Этот подход сибиряков соответствует современным идеям в области устойчивости (робастности) статистических выводов.

<< Пред.           стр. 10 (из 17)           След. >>

Список литературы по разделу