<< Пред. стр. 15 (из 17) След. >>
В области асимптотической математической статистики интервальных данных российская наука имеет мировой приоритет. Развертывание работ по рассматриваемой тематике позволит закрепить этот приоритет, получить теоретические результаты, основополагающие в новой области математической статистики и необходимые для обоснованного статистического анализа почти всех типов данных. Со временем во все виды статистического программного обеспечения должны быть включены алгоритмы интервальной статистики, "параллельные" обычно используемым алгоритмам прикладной математической статистики. Это позволит в явном виде учесть наличие погрешностей у результатов наблюдений, сблизить позиции метрологов и статистиков.Статистика объектов нечисловой природы как часть прикладной статистики. Согласно общепринятой в настоящее время классификации статистических методов прикладная статистика делится на следующие четыре области:
статистика (числовых) случайных величин (см. главу 4),
многомерный статистический анализ (см. главу 5),
статистика временных рядов и случайных процессов (см. главу 6),
статистика объектов нечисловой природы (см. главу 8),.
Первые три из этих областей являются классическими. Они были хорошо известны еще в первой половине ХХ в. Остановимся на четвертой, сравнительно недавно вошедшей в массовое сознание специалистов. Ее именуют также статистикой нечисловых данных или попросту нечисловой статистикой. Анализ динамики развития эконометрики и прикладной статистики приводит к выводу, что в XXI в. она станет центральной областью прикладной статистики, поскольку содержит наиболее общие подходы и результаты.
Исходный объект в прикладной математической статистике - это выборка. В вероятностной теории статистики выборка - это совокупность независимых одинаково распределенных случайных элементов. Какова природа этих элементов? В классической математической статистике элементы выборки - это числа. В многомерном статистическом анализе - вектора. А в нечисловой статистике элементы выборки - это объекты нечисловой природы, которые нельзя складывать и умножать на числа. Другими словами, объекты нечисловой природы лежат в пространствах, не имеющих векторной структуры.
Примерами объектов нечисловой природы являются (подробнее см. главу 8):
значения качественных признаков, т.е. результаты кодировки объектов с помощью заданного перечня категорий (градаций);
упорядочения (ранжировки) экспертами образцов продукции (при оценке её технического уровня и конкурентоспособности)) или заявок на проведение научных работ (при проведении конкурсов на выделение грантов);
классификации, т.е. разбиения объектов на группы сходных между собой (кластеры);
толерантности, т.е. бинарные отношения, описывающие сходство объектов между собой, например, сходства тематики научных работ, оцениваемого экспертами с целью рационального формирования экспертных советов внутри определенной области науки;
результаты парных сравнений или контроля качества продукции по альтернативному признаку ("годен" - "брак"), т.е. последовательности из 0 и 1;
множества (обычные или нечеткие), например, зоны, пораженные коррозией, или перечни возможных причин аварии, составленные экспертами независимо друг от друга;
слова, предложения, тексты;
вектора, координаты которых - совокупность значений разнотипных признаков, например, результат составления статистического отчета о научно-технической деятельности (т.н. форма № 1-наука) или заполненная компьютеризированная история болезни, в которой часть признаков носит качественный характер, а часть - количественный;
ответы на вопросы экспертной, маркетинговой или социологической анкеты, часть из которых носит количественный характер (возможно, интервальный), часть сводится к выбору одной из нескольких подсказок, а часть представляет собой тексты; и т.д.
Интервальные данные (см. выше) тоже можно рассматривать как пример объектов нечисловой природы, а именно, как частный случай нечетких множеств.
С начала 70-х годов под влиянием запросов прикладных исследований в социально-экономических, технических, медицинских науках в России активно развивается статистика объектов нечисловой природы, известная также как статистика нечисловых данных или нечисловая статистика. В создании этой сравнительно новой области эконометрики и прикладной математической статистики приоритет принадлежит российским ученым.
Большую роль сыграл основанный в 1973 г. научный семинар "Экспертные оценки и анализ данных". В 60-е годы советское научное сообщество стало интересоваться методами экспертных оценок (об их истории и современном состоянии см. главу 12). Как следствие, началось знакомство с конкретными математизированными теориями, связанными с этими методами. Речь идет о репрезентативной теории измерений, ставшей известной в нашей стране по статье П.Суппеса и Дж.Зинеса в сборнике [17] и книге И.Пфанцагля [18], о теории нечеткости, современный этап которой начался с работ Л.А.Заде [19], теории парных сравнений, описанной в монографии Г.Дэвида [20]. К этому кругу идей примыкают теория случайных множеств (см., например, книгу Ж.Матерона [21]) и методы многомерного шкалирования (описаны, в частности, в монографиях А.Ю.Терехиной [22] и В.Т.Перекреста [23]). Но наибольшее влияние оказали идеи Дж.Кемени, который аксиоматически ввел расстояние между ранжировками (теперь оно именуется в литературе расстоянием Кемени) и предложил использовать в качестве средней величины решение оптимизационной задачи (теперь - медиана Кемени). Его скромная книжка [24], написанная в соавторстве с Дж.Снеллом, породила большой поток исследований.
В течение 70-х годов на основе запросов теории экспертных оценок (а также социологии, экономики, техники и медицины) развивались конкретные направления статистики объектов нечисловой природы. Были установлены связи между конкретными видами таких объектов, разработаны для них вероятностные модели (см. главу 8). Научные итоги этого периода подведены в монографиях [14,25,26]).
Следующий этап - выделение статистики объектов нечисловой природы в качестве самостоятельного направления в эконометрике и прикладной статистике, ядром которого являются методы статистического анализа данных произвольной природы. Программа развития этого нового научного направления впервые была сформулирована в статье [27]. Реализация этой программы была осуществлена в 80-е годы. Для работ этого периода характерна сосредоточенность на внутренних проблемах нечисловой статистики. Ссылки на конкретные монографии, сборники, статьи и иные публикации нескольких десятков авторов приведены в главе 8. Отметим лишь сборник научных статей [28], полностью посвященный нечисловой статистике.
К 90-м годам статистика объектов нечисловой природы с теоретической точки зрения была достаточно хорошо развита, основные идеи, подходы и методы были разработаны и изучены математически, в частности, доказано достаточно много теорем. Однако она оставалась недостаточно апробированной на практике. Это было связано как с ее сравнительной молодостью, так и с общеизвестными особенностями организации науки в 80-е годы, когда отсутствовали достаточные стимулы к тому, чтобы теоретики занялись широким внедрением своих результатов. И в 90-е годы наступило время от математико-статистических исследований перейти к применению полученных результатов на практике.
Следует отметить, что в статистике объектов нечисловой природы, как и в других областях эконометрики, прикладной математической статистики и прикладной математики вообще, одна и та же математическая схема может с успехом применяться и в технических исследованиях, и в менеджменте, и в экономике, и в геологии, и в медицине, и в социологии, и для анализа экспертных оценок, и во многих иных областях, а потому ее лучше всего формулировать и изучать в наиболее общем виде, для объектов произвольной природы.
Основные идеи статистики объектов нечисловой природы. В чем принципиальная новизна нечисловой статистики? Для классической математической статистики характерна операция сложения. При расчете выборочных характеристик распределения (выборочное среднее арифметическое, выборочная дисперсия и др.), в регрессионном анализе и других областях этой научной дисциплины постоянно используются суммы. Математический аппарат - законы больших чисел, Центральная предельная теорема и другие теоремы - нацелены на изучение сумм. В нечисловой же статистике нельзя использовать операцию сложения, поскольку элементы выборки лежат в пространствах, где нет операции сложения. Методы обработки нечисловых данных основаны на принципиально ином математическом аппарате - на применении различных расстояний в пространствах объектов нечисловой природы.
Кратко рассмотрим несколько идей, развиваемых в статистике объектов нечисловой природы для данных, лежащих в пространствах произвольного вида. Решаются классические задачи описания данных, оценивания, проверки гипотез - но для неклассических данных, а потому неклассическими методами.
Первой обсудим проблему определения средних величин. В рамках репрезентативной теории измерений удается указать вид средних величин, соответствующих тем или иным шкалам измерения (см. главу 3). В классической математической статистике средние величины вводят с помощью операций сложения (выборочное среднее арифметическое, математическое ожидание) или упорядочения (выборочная и теоретическая медианы). В пространствах произвольной природы средние значения нельзя определить с помощью операций сложения или упорядочения. Теоретические и эмпирические средние приходится вводить как решения экстремальных задач. Для теоретического среднего это - задача минимизации математического ожидания (в классическом смысле) расстояния от случайного элемента со значениями в рассматриваемом пространстве до фиксированной точки этого пространства (минимизируется указанная функция от этой точки). Для эмпирического среднего математическое ожидание берется по эмпирическому распределению, т.е. берется сумма расстояний от некоторой точки до элементов выборки и затем минимизируется по этой точке. При этом как эмпирическое, так и теоретическое средние как решения экстремальных задач могут быть не единственным элементом пространства, а состоять из множества таких элементов, которое может оказаться и пустым. Тем не менее удалось сформулировать и доказать законы больших чисел для средних величин, определенных указанным образом, т.е. установить сходимость эмпирических средних к теоретическим .
Оказалось, что методы доказательства законов больших чисел допускают существенно более широкую область применения, чем та, для которой они были разработаны. А именно, удалось изучить асимптотику решений экстремальных статистических задач, к которым, как известно, сводится большинство постановок прикладной статистики. В частности, кроме законов больших чисел установлена и состоятельность оценок минимального контраста, в том числе оценок максимального правдоподобия и робастных оценок. К настоящему времени подобные оценки изучены также и в интервальной статистике.
В статистике в пространствах произвольной природы большую роль играют непараметрические оценки плотности, используемые, в частности, в различных алгоритмах регрессионного, дискриминантного, кластерного анализов. В нечисловой статистике предложен и изучен ряд типов непараметрических оценок плотности в пространствах произвольной природы, в частности, доказана их состоятельность, изучена скорость сходимости и установлен примечательный факт совпадения наилучшей скорости сходимости в произвольном случае с той, которая имеет быть в классической теории для числовых случайных величин.
Дискриминантный, кластерный, регрессионный анализы в пространствах произвольной природы основаны либо на параметрической теории - и тогда применяется подход, связанный с асимптотикой решения экстремальных статистических задач - либо на непараметрической теории - и тогда используются алгоритмы на основе непараметрических оценок плотности.
Для проверки гипотез могут быть использованы статистики интегрального типа, в частности, типа омега-квадрат. Любопытно, что предельная теория таких статистик, построенная первоначально в классической постановке [29], приобрела естественный (завершенный, изящный) вид именно для пространств произвольного вида [30], поскольку при этом удалось провести рассуждения, опираясь на базовые математические соотношения, а не на те частные (с общей точки зрения), что были связаны с конечномерным пространством.
Представляют практический интерес результаты, связанные с конкретными областями статистики объектов нечисловой природы, в частности, со статистикой нечетких множеств, развитой в книге [31], и со статистикой случайных множеств [14] (следует отметить, что теория нечетких множеств в определенном смысле сводится к теории случайных множеств [14,31]), с непараметрической теорией парных сравнений, с аксиоматическим введением метрик в конкретных пространствах объектов нечисловой природы [28], и с рядом других конкретных постановок (см. главу 8).
Для анализа нечисловых, в частности, экспертных данных весьма важны методы классификации. С другой стороны, наиболее естественно ставить и решать задачи классификации, основанные на использовании расстояний или показателей различия, в рамках статистики объектов нечисловой природы. Это касается как распознавания образов с учителем (другими словами, дискриминантного анализа), так и распознавания образов без учителя (т.е. кластерного анализа). Современное состояние дискриминантного и кластерного анализа с точки зрения статистики объектов нечисловой природы отражено в главе 5.
Статистические методы анализа нечисловых данных особенно хорошо приспособлены для применения в экономике, социологии и экспертных оценках, поскольку в этих областях от 50% до 90% данных являются нечисловыми.
Другие точки роста. Выше рассмотрены пять "точек роста" эконометрики и прикладной статистики. Разумеется, они не исчерпывают все многообразие фронта научных исследований в рассматриваемых областях. Кроме того, в настоящей главе почти не затронуты разнообразные применения эконометрических и статистических методов в конкретных прикладных исследованиях и разработках. Много интересных проблем есть в планировании экспериментов, особенно кинетических (см., например, статью [31]), при анализе проблем надежности, в новых статистических методах управления качеством продукции (см. главу 13), в том числе в связи с идеями Г. Тагути, при анализе рисков (см. главу 14), в вопросах экологии и безопасности и др.
В течение последних более чем 60 лет в России наблюдается огромный разрыв между государственной статистикой и научным сообществом специалистов по статистическим методам (подробнее об этом см. статью [7]). В учебнике по истории статистики [32] даже не упоминаются имена членов-корреспондентов АН СССР Н.В.Смирнова и Л.Н. Большева! А ведь они - единственные представители именно математической статистики как таковой в Академии наук в ХХ в. (еще ряд членов Академии наук имели математическую статистику среди своих интересов, но Н.В. Смирнов и Л.Н. Большев занимались практически только ею). Поэтому нет ничего удивительного в том, что тенденции развития современной эконометрики и прикладной математической статистики столь же мало обсуждаются отечественными авторами, как и ее история.
15.3. О некоторых нерешенных вопросах эконометрики и прикладной статистики
За последние 30 лет выявился целый ряд нерешенных вопросов эконометрики и прикладной статистики , как чисто научных, так и научно-организационных. Обсудим пять из них:
влияние отклонений от традиционных предпосылок (вероятностно-статистических моделей) на свойства эконометрических и статистических процедур;
оправданность использования асимптотических теоретических результатов эконометрики и прикладной математической статистики при конечных объемах выборок;
формулировки и обоснования правил выбора одного из многих критериев для проверки конкретной гипотезы;
конкретные способы организации теоретических работ в области эконометрики и прикладной математической статистики;
организация и проведение прикладных работ с использованием методов эконометрики и прикладной математической статистики.
Настоящий раздел отнюдь не претендует на решение перечисленных вопросов. Его цель гораздо скромнее - обратить внимание на существование ряда нерешенных вопросов в надежде, что коллективными усилиями удастся продвинуться в их решении.
Влияние отклонений от традиционных предпосылок. В вероятностной теории статистических методов выборка обычно моделируется как конечная последовательность независимых одинаково распределенных случайных величин или векторов. Часто предполагается, что эти величины (вектора) имеют нормальное распределение.
На основе сформулированных классических предпосылок построено огромное здание классической математической статистики с большим числом теорем. Оно за последние 100 лет обросло горой учебников и программных продуктов.
Однако при внимательном взгляде совершенно ясна нереалистичность классических предпосылок. Независимость результатов измерений обычно принимается "из общих предположений", между тем во многих случаях очевидна их коррелированность [33]. Одинаковая распределенность также вызывает сомнения из-за изменения во времени свойств измеряемых образцов, средств измерения и психофизического состояния специалистов, проводящих измерения (наблюдения, испытания, анализы, опыты). Даже обоснованность самой возможности применения вероятностных моделей также часто вызывает сомнения, например, при моделировании уникальных измерений (теорию вероятностей обычно привлекают при изучении массовых явлений). И уж совсем редко распределения результатов измерений можно считать нормальными (см. главу 4).
Итак, методы классической математической статистики обычно используют вне сферы их обоснованной применимости. Каково влияние отклонений от традиционных предпосылок на статистические выводы? В настоящее время об этом имеются лишь отрывочные сведения. Приведем три примера.
Пример 1. Построение доверительного интервала для математического ожидания обычно проводят с использованием распределения Стьюдента (при справедливости гипотезы нормальности). Как следует из Центральной Предельной Теоремы (ЦПТ) теории вероятностей, в асимптотике (при большом объеме выборки) такие расчетные методы дают правильные результаты. А именно, из ЦПТ вытекает использование квантилей нормального распределения, а из классической теории - квантилей распределения Стьюдента, но при росте объема выборки квантили распределения Стьюдента стремятся к соответствующим квантилям нормального распределения.
Пример 2. Для проверки однородности двух независимых выборок (на самом деле - для проверки равенства математических ожиданий) обычно рекомендуют использовать двухвыборочный критерий Стьюдента. Что будет при отклонении от нормальности распределений, из которых взяты выборки? Если объемы выборок равны или если дисперсии результатов наблюдений в выборках совпадают, то в асимптотике (когда объемы выборок безгранично возрастают) классический метод является корректным. Если же объемы выборок существенно отличаются и их дисперсии различны, то двухвыборочную статистику Стьюдента применять нельзя. Поскольку проверка равенства дисперсий - более сложная задача, чем проверка равенства математических ожиданий, то для выборок разного объема использовать двухвыборочную статистику Стьюдента не следует, лучше применять критерий Крамера- Уэлча, как это подробно обосновано в главе 4.
Пример 3. В задаче отбраковки (исключения) резко выделяющихся наблюдений (выбросов) расчетные методы, основанные на нормальности, являются крайне неустойчивыми по отношению к отклонениям от нормальности, что полностью лишает эти методы научной обоснованности (подробнее см. главу 4).
Примеры 1-3 показывают весь спектр возможных свойств классических расчетных методов в случае отклонения от нормальности. Методы примера 1 оказываются вполне пригодными при таких отклонениях, примера 2 - пригодными в некоторых случаях, примера 3 - полностью непригодными.
Итак, имеется необходимость изучения свойств расчетных методов классической математической статистики, опирающихся на предположение нормальности, в ситуациях, когда это предположение не выполнено. Аппаратом для такого изучения наряду с методом Монте-Карло (статистических испытаний) могут послужить предельные теоремы теории вероятностей (и опирающиеся на них асимптотические методы математической статистики), прежде всего ЦПТ, поскольку интересующие нас расчетные методы обычно используют разнообразные суммы.
Пока подобное изучение не проведено, остается неясной научная ценность, например, применения факторного анализа к векторам из переменных, принимающих небольшое число градаций и к тому же измеренных в порядковой шкале. Этот пример показывает важность еще одного направления исследований - изучения свойств алгоритмов, предназначенных для анализа числовых данных, в случаях, когда данные измерены в шкалах, отличных от абсолютной, в частности, в порядковой шкале. Подробнее это направление рассмотрено в главе 3.
Из большого числа возможных постановок, относящихся к изучению влияния отклонений от традиционных предпосылок, укажем лишь на то, что реальные данные имеют небольшое число значащих цифр (обычно от 2 до 5), в то время как в классической математической статистике используются непрерывные случайные величины, для которых вероятность получения подобного результата наблюдения равна 0. Действительно, вероятность того, что хотя бы один элемент выборки из распределения с непрерывной функцией распределение попадет в заданное счетное множество, в частности, в множество рациональных чисел, равна 0 (согласно классическим свойствам вероятностной меры). Событиями, имеющими вероятность 0, принято пренебрегать. Следовательно, с точки зрения классической математической статистики любыми реальными данными нужно пренебречь! Выходов из этого парадокса несколько. Один из них - бурно развивающаяся в настоящее время статистика интервальных данных (см. главу 9), другой - использование классических поправок Шеппарда для сгруппированных данных [34,35]. Здесь еще много работы. Так, даже для такого широко используемого статистического показателя, как коэффициент корреляции, поправки на группировку (поправки Шеппарда) были получены сравнительно недавно - лишь в 1980 г. [35].
Почему на первый план выдвинуто изучение классических алгоритмов, а не построение новых, специально предназначенных для работы в условиях отклонения от классических предпосылок? Во-первых, потому, что классические алгоритмы в настоящее время наиболее распространены (благодаря сложившейся системе образования как прикладников, так и математиков). Во-вторых, более новые подходы зачастую методологически уязвимы. Так, известная робастная модель засорения Тьюки-Хубера (см. главу 10) нацелена на борьбу с большими выбросами, которые зачастую физически невозможны из-за ограниченности интервала возможных значений измеряемой характеристики, в котором работает конкретное средство измерения. Следовательно, модель Тьюки-Хубера имеет скорее теоретическое значение, чем практическое. Сказанное, конечно, не означает, что следует прекратить разработку, изучение и внедрение непараметрических и устойчивых методов, выделенных выше как "точки роста" современных эконометрики и прикладной статистики.
Использование асимптотических результатов при конечных объемах выборок. Как отмечено выше, изучение классических алгоритмов во многих случаях может быть проведено с помощью асимптотических методов математической статистики, в частности, с помощью ЦПТ и методов наследования сходимости [14, п.2.4]. Отрыв классической математической статистики от нужд прикладных исследований проявился, в частности, в том, что в распространенных монографиях недостает математического аппарата, необходимого, в частности, для изучения двухвыборочных статистик. Суть в том, что переходить к пределу приходится не по одному параметру, а по двум - объемам двух выборок. Пришлось разработать соответствующую теорию - теорию наследования сходимости, изложенную в монографии [14, п.2.4].
Однако применять результаты подобного изучения придется при конечных объемах выборок. Возникает целый букет проблем, связанных с таким переходом. Часть из них обсуждалась в статье [37] в связи с изучением свойств статистик, построенных по выборкам из конкретных распределений.
Однако при обсуждении влияния отклонений от исходных предположений на свойства статистических процедур возникают дополнительные проблемы. Какие отклонения считать типичными? Ориентироваться ли на наиболее "вредные" отклонения, в наибольшей степени искажающие свойства алгоритмов, или же сосредоточить внимание на "типичных" отклонениях?
При первом подходе получаем гарантированный результат, но "цена" этого результата может быть излишне высокой. В качестве примера укажем на универсальное неравенство Берри-Эссеена для погрешности в ЦПТ [38,39]. Совершенно справедливо подчеркивает академик РАН А.А. Боровков [39, с,172], что "скорость сходимости в реальных задачах, как правило, оказывается лучше."
При втором подходе возникает вопрос, какие отклонения считать "типичными". Попытаться ответить на этот вопрос можно, анализируя большие массивы реальных данных. Вполне естественно, что ответы различных исследовательских групп будут различаться.
Одна из ложных идей - использование при анализе возможных отклонений только какого-либо конкретного параметрического семейства - распределений Вейбулла-Гнеденко, трехпараметрического семейства гамма - распределений и др. Как уже отмечалось выше, еще в 1927 г. акад. АН СССР С.Н. Бернштейн обсуждал методологическую ошибку, состоящую в сведении всех эмпирических распределений к четырехпараметрическому семейству Пирсона [5]. Однако и до сих пор параметрические методы статистики весьма популярны, особенно среди прикладников, и вина за это заблуждение лежит прежде всего на преподавателях статистических методов.
Выбор одного из многих критериев для проверки конкретной гипотезы. Во многих случаях для решения конкретной практической задачи разработано много методов, и специалист по математическим методам исследования стоит перед проблемой: какой из них предложить прикладнику для анализа конкретных данных?
В качестве примера рассмотрим задачу проверки однородности двух независимых выборок. Как известно [13], для ее решения можно предложить массу критериев: Стьюдента, Крамера-Уэлча, Лорда, хи - квадрат, Вилкоксона (Манна-Уитни), Ван - дер - Вардена, Сэвиджа, Н.В.Смирнова, типа омега-квадрат (Лемана-Розенблатта), Г.В. Мартынова и др. Какой выбрать?
Естественным образом приходит в голову идея "голосования": провести проверку по многим критериям, а затем принять решение "по большинству голосов". С точки зрения статистической теории такая процедура приводит попросту к построению еще одного критерия, который априори ничем не лучше прежних (но и не хуже), но более труден для изучения. С другой стороны, если совпадают решения по всем рассмотренным статистическим критериям, исходящим из различных принципов, то в соответствии с концепцией устойчивости, развитой в монографии [14], это повышает доверие к полученному общему решению.
Распространено, особенно среди математиков, ложное и вредное мнение о необходимости поиска оптимальных методов, решений и т.д. Дело в том, что оптимальность обычно исчезает при отклонении от исходных предпосылок. Так, среднее арифметическое в качестве оценки математического ожидания является оптимальной оценкой только тогда, когда исходное распределение - нормальное (см., например, монографию [40]), в то время как состоятельной оценкой - всегда, лишь бы математическое ожидание существовало. С другой стороны, для любого произвольно взятого метода оценивания или проверки гипотез обычно можно так сформулировать понятие оптимальности, чтобы рассматриваемый метод стал оптимальным - с этой специально выбранной точки зрения. Возьмем, например, выборочную медиану как оценку математического ожидания. Она, разумеется, оптимальна, хотя и в другом смысле, чем среднее арифметическое (оптимальное для нормального распределения). А именно, для распределения Лапласа выборочная медиана является оценкой максимального правдоподобия, а потому оптимальной - в том смысле, в каком оптимальной является любая оценка максимального правдоподобия. Соответствующее понятие оптимальности требует аккуратных формулировок, оно строго изложено в монографии [41]. Как известно, оценки максимального правдоподобия удобны при теоретических рассмотрениях, а при анализе конкретных экономических, технических и иных данных следует применять одношаговые оценки (см. об этом статью [42]).
Критерии однородности были проанализированы в монографии проф. Я.Ю. Никитина [43]. Естественных подходов к сравнению критериев несколько - на основе асимптотической относительной эффективности по Бахадуру, Ходжесу - Леману, Питмену. И выяснилось, что каждый критерий является оптимальным при соответствующей альтернативе или подходящем распределении на множестве альтернатив. При этом математические выкладки обычно используют альтернативу сдвига, сравнительно редко встречающуюся в практике анализа реальных статистических данных (в связи с критерием Вилкоксона эта альтернатива обсуждалась в главе 4). Итог печален - блестящая математическая техника, продемонстрированная в монографии [43], не позволяет дать рекомендации для выбора критерия проверки однородности при анализе реальных данных. Другими словами, с точки зрения работы прикладника, т.е. анализа конкретных данных, монография [43] бесполезна. Блестящее владение математикой и огромное трудолюбие, продемонстрированные автором этой монографии, увы, ничего не принесли практике.
Конечно, каждый практически работающий статистик так или иначе решает для себя проблему выбора статистического критерия. На основе ряда методологических соображений в главе 4 мы остановили свой выбор на состоятельном против любой альтернативы критерии типа омега-квадрат (Лемана-Розенблатта). Однако остается чувство неудовлетворенности в связи с недостаточной теоретической обоснованностью этого выбора.
Организация теоретических работ в области эконометрики и прикладной статистики. Выше продемонстрирована необходимость большой теоретической работы по развитию нацеленных на практическое использование математических методов исследования. В статье [6] 1992 г. обоснован вывод о необходимости создания сети научно-исследовательских организаций, которая выполняла бы такую работу. Как известно, количество научных работников к настоящему времени сократилось по крайней мере в 3 раза по сравнению с началом 1990-х годов, так что на осуществление в ближайшие годы сформулированной в [6] научно-организационной программы надеяться не приходится.
Приходится с сожалением констатировать, что в рамках научной специальности "теория вероятностей и математическая статистика" наблюдается четко выраженное игнорирование проблем статистического анализа реальных данных и уход в глубь узкоматематических исследований, которые ничего не могут дать практике. Причины этого явления, типичного для математических дисциплин, обсуждались выше. Поэтому нет оснований ожидать, что при "естественном ходе событий" будут получены существенные продвижения в рассмотренных выше нерешенных проблемах эконометрики и прикладной математической статистики.
Помочь может выделение государственными структурами системы грантов, направленных на поддержку работ в области нерешенных эконометрики и прикладной математической статистики. Принципиальным шагом явилось бы выделение эконометрики и прикладной математической статистики как самостоятельных научных направлений, отличных как от чисто математических дисциплин типа "теории вероятностей и математической статистики", так и от, например, ветви экономической теории, известной в официальных кругах под названием "статистика".
О прикладных работах с использованием методов прикладной статистики. Проблемы организации теоретических работ в области эконометрики и прикладной математической статистики лишь в перспективе важны для практической работы. Как правило, те, кто обрабатывает реальные данные, недостаточно знакомы с теоретическими основами алгоритмов и тем более не следят за событиями "на переднем крае" обсуждаемой научно-методической дисциплины. Это вполне естественно, поскольку основная специальность у таких специалистов - иная.
Несколько огрубляя, можно сказать, что реально используется только то, что имеется в учебниках и справочниках, в широко распространенных программных продуктах, а научные публикации с точки зрения прикладника представляют собой "информационный шум". Ситуация усугубляется традиционным ненормальным положением в отечественной статистике [7], наличием ошибок во многих изданиях.
К сожалению, учебная и научная литература на русском языке (как, впрочем, и на иных языках) по эконометрике и прикладной статистике в целом далека от совершенства, переполнена устаревшими методологическими подходами и прямыми ошибками. До сих пор наилучшим изданием остаются "Таблицы математической статистики" Л.Н. Большева и Н.В.Смирнова [13], созданные в 60-х годах.
Хотя студенты почти всех специальностей изучают в конце курса высшей математики раздел "теория вероятностей и математическая статистика", реально они знакомятся лишь с некоторыми основными понятиями и результатами, которых явно не достаточно для практической работы. С некоторыми математическими методами исследования студенты встречаются в специальных курсах (например, таких, как "Прогнозирование и технико-экономическое планирование", "Технико-экономический анализ", "Контроль качества продукции", "Маркетинг", "Контроллинг", "Математические методы прогнозирования" и др.), однако изложение в большинстве случаев носит весьма сокращенный и рецептурный характер. В результате подавляющую часть специалистов по эконометрике, прикладной математической статистике и их применению следует считать самоучками.
Поэтому большое значение имеет введение в технических вузах курса "Прикладная математическая статистика", а на экономических факультетах таких вузов - курса "Эконометрика", поскольку эконометрика - это, как известно, статистический анализ конкретных экономических данных (см. главу 1). Это естественно делать, например, в рамках подпрограммы "Технологии подготовки кадров для национальной технологической базы" федеральной целевой программы "Национальная технологическая база". Естественно, что курсы "Прикладная математическая статистика" и "Эконометрика" должны быть обеспечены соответствующими учебниками и учебными пособиями, методическими материалами и обучающими компьютерными системами.
Только через систему образования можно поднять уровень массового применения эконометрики и прикладной статистики и сократить отставание от "переднего края" теории. А это отставание в настоящее время составляет не менее 20 (но и не более 100) лет.
15.4. Высокие статистические технологии и эконометрика
В настоящем пункте подробно обсуждается ранее введенное понятие "высокие статистические технологии". Рассматриваются причины широкого распространения устаревших и частично ошибочных "низких" статистических технологий. Показано, что из всех путей повышения качества прикладных статистических исследований наиболее эффективным является расширение обучения "высоким статистическим технологиям", в том числе под именем эконометрики. Описан опыт работы Института высоких статистических технологий и эконометрики МГТУ им. Н.Э. Баумана.
Термин "высокие технологии" популярен в современной научно-технической литературе. Он используется для обозначения наиболее передовых технологий, опирающихся на последние достижения научно-технического прогресса. Есть такие технологии и среди технологий статистического анализа данных - как в любой интенсивно развивающейся научно-практической области.
Примеры высоких статистических технологий и входящих в них алгоритмов анализа данных, подробный анализ современного состояния и перспектив развития даны выше при обсуждении "точек роста" эконометрики как научно-практической дисциплины. В качестве "высоких статистических технологий" были выделены технологии непараметрического анализа данных; устойчивые (робастные) технологии; технологии, основанные на размножении выборок, на использовании достижений статистики нечисловых данных и статистики интервальных данных.
Термин "высокие статистические технологии". Обсудим пока не вполне привычный термин "высокие статистические технологии". Каждое из трех слов несет свою смысловую нагрузку.
"Высокие", как и в других областях, означает, что статистическая технология опирается на современные достижения статистической теории и практики, в частности, теории вероятностей и прикладной математической статистики. При этом "опирается на современные научные достижения" означает, во-первых, что математическая основа технологии получена сравнительно недавно в рамках соответствующей научной дисциплины, во-вторых, что алгоритмы расчетов разработаны и обоснованы в соответствии в нею (а не являются т.н. "эвристическими"). Со временем, если новые подходы и результаты не заставляют пересмотреть оценку применимости и возможностей технологии, заменить ее на более современную, "высокие статистические технологии" переходят в "классические статистические технологии", такие, как метод наименьших квадратов. Итак, высокие статистические технологии - плоды недавних серьезных научных исследований. Здесь два ключевых понятия - "молодость" технологии (во всяком случае, не старше 50 лет, а лучше - не старше 10 или 30 лет) и опора на "высокую науку".
Термин "статистические" привычен, но разъяснить его нелегко. Во всяком случае, к деятельности Государственного комитета РФ по статистике высокие статистические технологии отношения не имеют. Как известно, сотрудники проф. В.В. Налимова собрали более 200 определений термина "статистика" [44]. Полемика вокруг терминологии иногда принимает весьма острые формы (см., например, редакционные замечания к статье [1], написанные в стиле известных высказываний о генетике и кибернетике конца 1940-х годов). Современное представление о терминологии в области теории вероятностей и математической статистики отражено в Приложении 1 к настоящей книге, подготовленном в противовес распространенным ошибкам и неточностям в этой области. В частности, с точки зрения эконометрики статистические данные - это результаты измерений, наблюдений, испытаний, анализов, опытов, а "статистические технологии" - это технологии анализа статистических данных.
Наконец, редко используемый применительно к статистике термин "технологии". Статистический анализ данных, как правило, включает в себя целый ряд процедур и алгоритмов, выполняемых последовательно, параллельно или по более сложной схеме. В частности, можно выделить следующие этапы:
- планирование статистического исследования;
- организация сбора необходимых статистических данных по оптимальной или хотя бы рациональной программе (планирование выборки, создание организационной структуры и подбор команды эконометриков или статистиков, подготовка кадров, которые будут заниматься сбором данных, а также контролеров данных и т.п.);
- непосредственный сбор данных и их фиксация на тех или иных носителях (с контролем качества сбора и отбраковкой ошибочных данных по соображениям предметной области);
- первичное описание данных (расчет различных выборочных характеристик, функций распределения, непараметрических оценок плотности, построение гистограмм, корреляционных полей, различных таблиц и диаграмм и т.д.),
- оценивание тех или иных числовых или нечисловых характеристик и параметров распределений (например, непараметрическое интервальное оценивание коэффициента вариации или восстановление зависимости между откликом и факторами, т.е. оценивание функции),
- проверка статистических гипотез (иногда их цепочек - после проверки предыдущей гипотезы принимается решение о проверке той или иной последующей гипотезы),
- более углубленное изучение, т.е. применение различных алгоритмов многомерного статистического анализа, алгоритмов диагностики и построения классификации, статистики нечисловых и интервальных данных, анализа временных рядов и др.;
- проверка устойчивости полученных оценок и выводов относительно допустимых отклонений исходных данных и предпосылок используемых вероятностно-статистических моделей, допустимых преобразований шкал измерения, в частности, изучение свойств оценок методом размножения выборок;
- применение полученных статистических результатов в прикладных целях (например, для диагностики конкретных материалов, построения прогнозов, выбора инвестиционного проекта из предложенных вариантов, нахождения оптимальных режима осуществления технологического процесса, подведения итогов испытаний образцов технических устройств и др.),
- составление итоговых отчетов, в частности, предназначенных для тех, кто не является специалистами в эконометрических и статистических методах анализа данных, в том числе для руководства - "лиц, принимающих решения".
Возможны и иные структуризации статистических технологий. Важно подчеркнуть, что квалифицированное и результативное применение статистических методов - это отнюдь не проверка одной отдельно взятой статистической гипотезы или оценка параметров одного заданного распределения из фиксированного семейства. Подобного рода операции - только отдельные кирпичики, из которых складывается здание статистической технологии. Между тем учебники и монографии по статистике обычно рассказывают об отдельных кирпичиках, но не обсуждают проблемы их организации в технологию, предназначенную для прикладного использования.
Итак, процедура эконометрического или статистического анализа данных - это информационный технологический процесс, другими словами, та или иная информационная технология. Статистическая информация подвергается разнообразным операциям (последовательно, параллельно или по более сложным схемам). В настоящее время об автоматизации всего процесса статистического анализа данных говорить было бы несерьезно, поскольку имеется слишком много нерешенных проблем, вызывающих дискуссии среди статистиков. "Экспертные системы" в области статистического анализа данных пока не стали рабочим инструментом статистиков. Ясно, что и не могли стать. Можно сказать и жестче - это пока научная фантастика или даже вредная утопия.
В литературе статистические технологии рассматриваются явно недостаточно. В частности, обычно все внимание сосредотачивается на том или ином элементе технологической цепочки, а переход от одного элемента к другому остается в тени. Между тем проблема "стыковки" статистических алгоритмов, как известно, требует специального рассмотрения, поскольку в результате использования предыдущего алгоритма зачастую нарушаются условия применимости последующего. В частности, результаты наблюдений могут перестать быть независимыми, может измениться их распределение и т.п. (см. обсуждение этой проблемы в статье [45]).
Например, при проверке статистических гипотез большое значение имеют такие хорошо известные характеристики статистических критериев, как уровень значимости и мощность. Методы их расчета и использования при проверке одной гипотезы обычно хорошо известны. Если же сначала проверяется одна гипотеза, а потом с учетом результатов ее проверки - вторая, то итоговая процедура, которую также можно рассматривать как проверку некоторой (более сложной) статистической гипотезы, имеет характеристики (уровень значимости и мощность), которые, как правило, нельзя просто выразить через характеристики двух составляющих гипотез, а потому они обычно неизвестны. В результате итоговую процедуру нельзя рассматривать как научно обоснованную, она относится к эвристическим алгоритмам. Конечно, после соответствующего изучения, например, методом Монте-Карло, она может войти в число научно обоснованных процедур прикладной статистики.
Почему живучи "низкие статистические технологии"? "Высоким статистическим технологиям" противостоят, естественно, "низкие статистические технологии". Это те технологии, которые не соответствуют современному уровню науки и техники. Обычно они одновременно и устарели, и не адекватны сути решаемых эконометрических и статистических задач.
Примеры таких технологий неоднократно критически рассматривались на страницах различных изданий. В главе 4 рассматривались примеры неправильного использования критерия Вилкоксона для проверки совпадения теоретических медиан или функций распределения двух выборок. Можно также вспомнить критику использования классических процентных точек критериев Колмогорова и омега-квадрат в ситуациях, когда параметры оцениваются по выборке и эти оценки подставляются в "теоретическую" функцию распределения [46]. Приходилось констатировать широкое распространение таких порочных технологий и конкретных алгоритмов, в том числе в государственных и международных стандартах (перечень ошибочных стандартов дан в статье [47]), учебниках и распространенных пособиях. Тиражирование ошибок происходит обычно в процессе обучения в вузах или путем самообразования при использовании недоброкачественной литературы.
На первый взгляд вызывает удивление устойчивость "низких статистических технологий", их постоянное возрождение во все новых статьях, монографиях, учебниках. Поэтому, как ни странно, наиболее "долгоживущими" оказываются не работы, посвященные новым научным результатам, а публикации, разоблачающие ошибки, типа статьи [46]. Прошло больше 15 лет с момента ее публикации, но она по-прежнему актуальна, поскольку ошибочное применение критериев Колмогорова и омега-квадрат по-прежнему распространено.
Целесообразно рассмотреть здесь по крайней мере три обстоятельства, которые определяют эту устойчивость ошибок.
Во-первых, прочно закрепившаяся традиция. Учебники по т.н. "Общей теории статистики", написанные экономистами (поскольку учебная дисциплина "статистика" официально относится к экономике), если беспристрастно проанализировать их содержание, состоят в основном из введения в прикладную статистику, изложенного в стиле "низких статистических технологий", на уровне 1950-х годов. К "низкой" прикладной статистике добавлена некоторая информация о деятельности органов Госкомстата РФ. Примерно таково же положение со статистическими методами в медицине - одни и те же "низкие статистические технологии" переписываются из книги в книгу. Кратко говоря, "профессора-невежды порождают новых невежд" [7]. Так мы писали в 1990 г., но никто из указанных невежд даже не поинтересовался, какие ошибки имеются в виду. Новое поколение, обучившись ошибочным алгоритмам, их использует, а с течением времени и достижением должностей, ученых званий и степеней- пишет новые учебники со старыми ошибками.
Руководство Госкомстата РФ, воспользовавшись катаклизмами начала 1990-х годов, сделало вид, что ему неизвестно о создании в 1990 г. Всесоюзной статистической ассоциации и секции статистических методов в ее составе. Госкомстат РФ по-прежнему закрыт от "высоких статистических технологий" и работает на уровне позапрошлого века. Защита стала надежнее, поскольку в соответствии с современным стилем аппаратной работы на письма и обращения можно не отвечать.
Второе обстоятельство связано с большими трудностями при оценке экономической эффективности применения статистических методов вообще и при оценке вреда от применения ошибочных методов в частности. (А без такой оценки как докажешь, что "высокие статистические технологии" лучше "низких"?) Некоторые соображения по первому из этих вопросов приведены в статье [1], содержащей оценки экономической эффективности ряда работ по применению статистических методов. При оценке вреда от применения ошибочных методов приходится учитывать, что общий успех в конкретной инженерной или научной работе вполне мог быть достигнут вопреки их применению, за счет "запаса прочности" других составляющих общей работы. Например, преимущество одного технологического приема над другим можно продемонстрировать как с помощью критерия Крамера-Уэлча проверки равенства математических ожиданий (что правильно), так и с помощью двухвыборочного критерия Стьюдента (что, вообще говоря, неверно, т.к. обычно не выполняются условия применимости этого критерия - нет ни нормальности распределения, ни равенства дисперсий). Кроме того, приходится выдерживать натиск невежд, защищающих свои ошибочные работы, например, государственные стандарты. Вместо исправления ошибок применяются самые разные приемы бюрократической борьбы с теми, кто разоблачает ошибки (подробнее см. статью [47]).
Третье существенное обстоятельство - трудности со знакомством с высокими статистическими технологиями. В течение последних 10 лет только журнал "Заводская лаборатория" систематически предоставлял такие возможности. К сожалению, поток современных отечественных и переводных статистических книг, выпускавшихся ранее, в частности, издательством "Финансы и статистика", практически превратился в узкий ручеек... Возможно, более существенным является влияние естественной задержки во времени между созданием "новых статистических технологий" и написанием полноценной и объемной учебной и методической литературы. Она должна позволять знакомиться с новой методологией, новыми методами, теоремами, алгоритмами, технологиями не по кратким оригинальным статьям, а при обычном обучении в высшей школе.
Как ускорить внедрение "высоких статистических технологий"? Таким образом, весь арсенал используемых эконометрических и статистических методов можно распределить по трем потокам:
- высокие статистические технологии;
- классические статистические технологии,
- низкие статистические технологии.
Основная современная проблема статистических технологий состоит в обеспечении того, чтобы в конкретных эконометрических и статистических исследованиях использовались только технологии первых двух типов. При этом под классическими статистическими технологиями понимаем технологии почтенного возраста, сохранившие свое значение для современной статистической практики. Таковы метод наименьших квадратов, статистики Колмогорова, Смирнова, омега-квадрат, непараметрические коэффициенты корреляции Спирмена и Кендалла и многие другие статистические процедуры.
Каковы возможные пути решения основной современной проблемы в области статистических технологий?
Бороться с конкретными невеждами - дело почти безнадежное. Отстаивая свое положение и должности, они либо нагло игнорируют информацию о своих ошибках, как это делают авторы ряда учебников по "Общей теории статистики", либо с помощью различных бюрократических приемов уходят и от ответственности, и от исправления ошибок по существу (как это было со стандартами по статистическим методам - см. статью [6]). Третий вариант - признание и исправление ошибок - встречается, увы, редко. Но встречается.
Конечно, необходима демонстрация квалифицированного применения высоких статистических технологий. В 1960-70-х годах этим занималась лаборатория акад. А.Н. Колмогорова в МГУ им. М.В. Ломоносова. Секция "Математические методы исследования" журнала 2Заводская лаборатория" опубликовала за последние 40 лет более 1000 статей в стиле "высоких статистических технологий". В настоящее время действует Институт высоких статистических технологий и эконометрики МГТУ им. Н.Э.Баумана. Есть, конечно, целый ряд других научных коллективов, работающих на уровне "высоких статистических технологий".
Но самое основное - обучение. Какие бы новые научные результаты ни были получены, если они остаются неизвестными студентам, то новое поколение исследователей и инженеров вынуждено осваивать их по одиночке, а то и переоткрывать. Т.е. практически новые научные результаты почти исчезают, едва появившись. Как уже от меячалось, избыток публикаций превратился в тормоз развития. По нашим данным, к настоящему времени по статистическим технологиям опубликовано не менее миллиона статей и книг, из них не менее 100 тысяч являются актуальными для современного специалиста. Реальное число публикаций, которые способен освоить исследователь, по нашей оценке, не превышает 2-3 тысяч. Во всяком случае, в наиболее "толстом" (на русском языке) трехтомнике по статистике М. Дж. Кендалла и А. Стьюарта [8-10] приведено около 2 тысяч литературных ссылок. Итак, каждый исследователь знаком не более чем с 2-3% актуальных литературных источников. Поскольку существенная часть публикаций заражена "низкими статистическими технологиями", то исследователь самоучка имеет мало шансов выйти на уровень "высоких статистических технологий". Одновременно приходится констатировать, что масса полезных результатов погребена в изданиях прошлых десятилетий и имеет мало шансов встать в ряды "высоких статистических технологий" без специально организованных усилий современных специалистов.
Итак, еще и еще раз: основное - обучение. Несколько огрубляя, можно сказать: что то, что попало в учебные курсы и соответствующие учебные пособия - то сохраняется, что не попало - то пропадает. Подробнее об обучении - несколько позже. Сейчас - об упомянутом выше Институте высоких статистических технологий и эконометрики МГТУ им. Н.Э.Баумана.
Институт высоких статистических технологий и эконометрики. Организованный нами в 1989 г. Институт высоких статистических технологий и эконометрики (ИВСТЭ) действует на базе кафедры ИБМ-2 "Экономика и организация производства" Московского государственного технического университета им. Н.Э.Баумана. Институт на хоздоговорных и госбюджетных началах занимается развитием, изучением и внедрением эконометрики и "высоких статистических технологий", т.е. наиболее современных технологий анализа экономических, технических, социологических, медицинских данных, ориентированных на использование в условиях современного производства и экономики. Основной интерес представляют применения "высоких статистических технологий" для анализа конкретных экономических данных, т.е. в эконометрике. Наиболее перспективным представляется применение "высоких статистических технологий" для поддержки принятия управленческих решений, прежде всего в таком новом (для России) современном направлении экономической науки и практики, как контроллинг (см., например, монографию [48]).
Вначале Институт действовал как Всесоюзный центр статистических методов и информатики Центрального правления Всесоюзного экономического общества. В 1990-1992 гг. было выполнено более 100 хоздоговорных работ, в том числе для НИЦентра по безопасности атомной энергетики, ВНИИ нефтепереработки, ПО "Пластик", ЦНИИ черной металлургии им. Бардина, НИИ стали, ВНИИ эластомерных материалов и изделий, НИИ прикладной химии, ЦНИИ химии и механики, НПО "Орион", ВНИИ экономических проблем развития науки и техники, ПО "Уралмаш", "АвтоВАЗ", МИИТ, Казахского политехнического института, Донецкого государственного университета и многих других.
Затем Институт в качестве Лаборатории эконометрических исследований разрабатывал эконометрические методы анализа нечисловых данных, а также процедуры расчета и прогнозирования индекса инфляции и валового внутреннего продукта. Институт высоких статистических технологий и эконометрики развивал методологию построения и использования математических моделей процессов налогообложения (для Министерства налогов и сборов РФ), методологию оценки рисков реализации инновационных проектов высшей школы (для Министерства промышленности, науки и технологий РФ). Институт оценивал влияние различных факторов на формирование налогооблагаемой базы ряда налогов (для Минфина РФ), прорабатывал перспективы применения современных статистических и экспертных методов для анализа данных о научном потенциале (для Министерства промышленности, науки и технологий РФ). Важное направление связано с эколого-экономической тематикой - разработка методологического, программного и информационного обеспечения анализа рисков химико-технологических объектов (для Международного научно-технического центра), методов использования экспертных оценок в задачах экологического страхования (совместно с Институтом проблем рынка РАН). Институт проводил маркетинговые исследования (в частности, для Institute for Market Research GfK MR, Промрадтехбанка, фирм, торгующих растворимым кофе, программным обеспечением, оказывающих образовательные услуги). Интерес вызывали работы Института по прогнозированию социально-экономического развития России методом сценариев, по экономико-математическому моделированию развития малых предприятий и созданию современных систем информационной поддержки принятия решений для таких организаций.
Институт ведет фундаментальные исследования в области высоких статистических технологий и эконометрики, в частности, в рамках НИЧ МГТУ им. Н.Э. Баумана и Российского фонда фундаментальных исследований. Информация об Институте представлена на сайте в ИНТЕРНЕТе (http://antorlov.nm.ru, зеркала http://antorlov.euro.ru, http://www.newtech.ru/~orlov), который в 2000 г. посетили более 10000 пользователей. Институтом издается еженедельная компьютерная газета "Эконометрика" (около 1000 подписчиков). Архив выпусков газеты "Эконометрика" можно рассматривать как хрестоматию по различным разделам эконометрики, а также по высоким статистическим технологиям.
Зачем нужны высокие статистические технологии, разве недостаточно обычных статистических методов? Это вполне естественный вопрос. Мы считаем и доказываем своими теоретическими и прикладными работами, что совершенно недостаточно. Так, многие данные в информационных системах имеют нечисловой характер, например, являются словами или принимают значения из конечных множеств. Нечисловой характер имеют и упорядочения, которые дают эксперты или менеджеры, например, выбирая главную цель, следующую по важности и т.д. Значит, нужна статистика нечисловых данных. Она построена (см. главу 8). Далее, многие величины известны не абсолютно точно, а с некоторой погрешностью - от и до. Другими словами, исходные данные - не числа, а интервалы. Нужна статистика интервальных данных. Она развита (см. главу 9). В монографии [48] по контроллингу на с.138 хорошо сказано: "Нечеткая логика - мощный элегантный инструмент современной науки, который на Западе (и на Востоке - в Японии, Китае - А.О.) можно встретить в десятках изделий - от бытовых видеокамер до систем управления сооружениями, - у нас до самого последнего времени был практически неизвестен". Напомним, первая монография российского автора по теории нечеткости была выпущена в 1980 г. [49]. Ни статистики нечисловых данных, ни статистики интервальных данных, ни статистики нечетких данных нет и не могло быть в классической статистике. Все это - высокие статистические технологии. Они разработаны за последние 10-30-50 лет. А обычные вузовские курсы по общей теории статистики и по математической статистике разбирают научные результаты, полученные в первой половине ХХ века.
Важная часть эконометрики - применение высоких статистических технологий к анализу конкретных экономических данных, что зачастую требует дополнительной теоретической работы по доработке статистических технологий применительно к конкретной ситуации. Большое значение имеют конкретные эконометрические модели, например, модели экспертных оценок (глава 12) или экономики качества (глава 13). И конечно, такие конкретные применения, как расчет и прогнозирование индекса инфляции (глава 7).. Сейчас уже многим ясно, что годовой бухгалтерский баланс предприятия может быть использован для оценки его финансово-хозяйственной деятельности только с привлечением данных об инфляции.
Термин "эконометрика" пока мало известен в России. А между тем в мировой науке эконометрика занимает достойное место. Напомним, что Нобелевские премии по экономике получили эконометрики Ян Тильберген, Рагнар Фриш, Лоуренс Клейн, Трюгве Хаавельмо. В 2000 г. к ним добавились еще двое Джеймс Хекман и Дэниель Мак-Фадден. Выпускается ряд научных журналов, полностью посвященных эконометрике, в том числе: Journal of Econometrics (Швеция), Econometric Reviews (США), Econometrica (США), Sankhya (Indian Journal of Statistics. Ser.D. Quantitative Economics. Индия), Publications Econometriques (Франция).
Применение эконометрики дает заметный экономический эффект. Например, в США - не менее 20 миллиардов долларов ежегодно только в области статистического контроля качества. А что у нас? Повторим, что в секции "Математические методы исследования" журнала "Заводская лаборатория" за последние 40 лет напечатано более 1000 статей по высоким статистическим технологиям и их применениям. Однако в нашей стране по ряду причин эконометрика не была сформирована как самостоятельное направление научной и практической деятельности, в отличие, например, от Польши, не говоря уже об англосаксонских странах. В результате специалистов - эконометриков у нас на порядок меньше, чем в США и Великобритании (Американская статистическая ассоциация включает более 20000 членов).
Преподавание высоких статистических технологий и эконометрики. Приходится с сожалением констатировать, что в России практически отсутствует подготовка специалистов по высоким статистическим технологиям. В курсах по теории вероятностей и математической статистике обычно даются лишь классические основы этих дисциплин, разработанные в первой половине ХХ в., а преподаватели свою научную деятельность предпочитают посвящать доказательству теорем, имеющих лишь внутриматематический интерес, а не высоким статистическим технологиям.
В настоящее время появилась надежда на эконометрику. В России начинают развертываться эконометрические исследования и преподавание эконометрики, в том числе не только Институтом высоких статистических технологий и эконометрики. Преподавание этой дисциплины ведется в Московском государственном университете экономики, статистики и информатики (МЭСИ), на экономическом факультете МГУ им. М.В. Ломоносова, в Высшей школе экономики и еще в нескольких экономических учебных заведениях. Среди технических вузов факультет "Инженерный бизнес и менеджмент" МГТУ им. Н.Э.Баумана имеет в настоящее время приоритет в преподавания эконометрики.
Мы полагаем, что экономисты, менеджеры и инженеры, прежде всего специалисты по контроллингу [48], должны быть вооружены современными средствами информационной поддержки, в том числе высокими статистическими технологиями и эконометрикой. Очевидно, преподавание должно идти впереди практического применения. Ведь как применять то, чего не знаешь?
Один раз - в 1990-1992 гг. мы уже обожглись на недооценке необходимости предварительной подготовки тех, для кого предназначены современные компьютерные средства. Наш коллектив (Всесоюзный центр статистических методов и информатики Центрального правления Всесоюзного экономического общества) разработал систему диалоговых программных систем обеспечения качества продукции. Их созданием руководили ведущие специалисты страны. Но распространение программных продуктов шло на 1-2 порядка медленнее, чем ожидалось. Причина стала ясна не сразу. Как оказалось, работники предприятий просто не понимали возможностей разработанных систем, не знали, какие задачи можно решать с их помощью, какой экономический эффект они дадут. А не понимали и не знали потому, что в вузах никто их не учил статистическим методам управления качеством. Без такого систематического обучения нельзя обойтись - сложные концепции "на пальцах" за пять минут не объяснишь.
Есть и противоположный пример - положительный. В середине 1980-х годов в советской средней школе ввели новый предмет "Информатика". И сейчас молодое поколение превосходно владеет компьютерами, мгновенно осваивая быстро появляющиеся новинки, и этим заметно отличается от тех, кому за 30-40 лет. Если бы удалось ввести в средней школе курс вероятности и статистики - а такой курс есть в Японии и США, Швейцарии, Кении и Ботсване, почти во всех странах (см. подготовленный ЮНЕСКО сборник докладов [50]) - то ситуация могла бы быть резко улучшена. Надо, конечно, добиться, чтобы такой курс был построен на высоких статистических технологиях, а не на низких. Другими словами, он должен отражать современные достижения, а не концепции пятидесятилетней или столетней давности.
Необходимо активизировать деятельность Российской ассоциации статистических методов. Но не стоит ограничиваться только внутренними проблемами сообщества специалистов по статистическим методам. Например, в созданном в России профессиональном экономическом обществе - Ассоциации контроллеров России - необходимо, на наш взгляд, выделить направление, посвященное применению высоких статистических технологий и эконометрики в контроллинге, а также учесть необходимость обучения основам этого направления при формировании мощной образовательной базы контроллинга.
Цитированная литература
1. Орлов А.И. Что дает прикладная статистика народному хозяйству? / Вестник статистики. 1986. № 8. С.52 - 56
2. Комаров Д;М., Орлов А.И. Роль методологических исследований в разработке методоориентированных экспертных систем (на примере оптимизационных и статистических методов) - В сб.: Вопросы применения экспертных систем. - Минск: Центросистем, 1988. С.151-160.
3. Ленин В.И. Развитие капитализма в России. Процесс образования внутреннего рынка для крупной промышленности. - М.: Политиздат, 1986. - XII+610 с.
4. Гнеденко Б.В. Курс теории вероятностей: Учебник. - Изд. 6-е, переработанное и дополненное. - М.: Наука, Гл. ред. физ. - мат. лит., 1988. - 448 с.
5. Бернштейн С.Н. Современное состояние теории вероятностей и ее приложений. - В сб.: Труды Всероссийского съезда математиков в Москве 27 апреля - 4 мая 1927 г. - М.-Л.: ГИЗ, 1928. С.50-63.
6. Орлов А.И. О современных проблемах внедрения прикладной статистики и других статистических методов. / Заводская лаборатория. 1992. Т.58. № 1. С.67-74.
7. Орлов А.И. О перестройке статистической науки и её применений. / Вестник статистики. 1990. № 1. С.65 - 71.
8. Кендалл М., Стьюарт А. Теория распределений. - М.: Наука, 1966. - 566 с.
9. Кендалл М., Стьюарт А. Статистические выводы и связи. - М.: Наука, 1973. - 899 с.
10. Кендалл М., Стьюарт А. Многомерный статистический анализ и временные ряды. - М.: Наука, 1976. - 736 с.
11. Налимов В.В., Мульченко З.М. Наукометрия. Изучение развития науки как информационного процесса. - М.: Наука, 1969. - 192 с.
12. ГОСТ 11.011-83. Прикладная статистика. Правила определения оценок и доверительных границ для параметров гамма-распределения. - М.: Изд-во стандартов. 1984. - 53 с.
13. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. - М.: Наука, 1965 (1-е изд.), 1968 (2-е изд.), 1983 (3-е изд.).
14. Орлов А.И. Устойчивость в социально-экономических моделях. - М.: Наука,1979. - 296 с.
15. Смоляк С.А., Титаренко Б.П. Устойчивые методы оценивания: Статистическая обработка неоднородных совокупностей. - М;: Статистика, 1980. - 208 с.
16. Эфрон Б. Нетрадиционные методы многомерного статистического анализа. - М.: Финансы и статистика, 1988. - 263 с.
17. Суппес П., Зинес Дж. Основы теории измерений. - В сб.: Психологические измерения. -М: Мир,1967. С. 9-110.
18. Пфанцагль И. Теория измерений. - М.: Мир, 1976. - 166 с.
19. Заде Л. Понятие лингвистической переменной и его применение к принятию приближенных решений. - М.: Мир, 1976. - 168 с.
20. Дэвид Г. Метод парных сравнений. - М.: Статистика, 1978. - 144 с.
21. Матерон Ж. Случайные множества и интегральная геометрия. - М.: Мир, 1978. - 318 с.
22. Терехина А.Ю. Анализ данных методами многомерного шкалирования. - М.: Наука, 1986. - 168 с.
23. Перекрест В.Т. Нелинейный типологический анализ социально-экономической информации: Математические и вычислительные методы. - Л.: Наука, 1983. - 176 с.
24. Кемени Дж., Снелл Дж. Кибернетическое моделирование: Некоторые приложения. - М.: Советское радио, 1972. - 192 с.
25. Тюрин Ю.Н., Литвак Б.Г., Орлов А.И., Сатаров Г.А., Шмерлинг Д.С. Анализ нечисловой информации. - М.: Научный Совет АН СССР по комплексной проблеме "Кибернетика", 1981. - 80 с.
26. Литвак Б.Г. Экспертная информация: Методы получения и анализа. - М.: Радио и связь, 1982. - 184 с.
27. Орлов А.И. Статистика объектов нечисловой природы и экспертные оценки. - В сб.: Экспертные оценки. Вопросы кибернетики. Вып.58. - М.: Научный Совет АН СССР по комплексной проблеме "Кибернетика", 1979. С.17-33.
28. Анализ нечисловой информации в социологических исследованиях. / Под ред. В.Г. Андреенкова, А.И.Орлова, Ю.Н. Толстовой. - М.: Наука, 1985. - 220 с.
29. Орлов А.И. Асимптотическое поведение статистик интегрального типа. / Доклады АН СССР. 1974. Т.219. № 4. С.808-811.
30. Орлов А.И. Асимптотическое поведение статистик интегрального типа. - В сб.: Вероятностные процессы и их приложения. Межвузовский сборник. - М.: МИЭМ, 1989. С.118-123.
31. Горский В.Г. Современные статистические методы обработки и планирования экспериментов в химической технологии. - В сб.: Инженерно-химическая наука для передовых технологий. Международная школа повышения квалификации Труды третьей сессии. 26-30 мая 1997, Казань, Россия / Под ред. В.А. Махлина. - М.: Научно-исследовательский физико-химический институт им. Карпова, 1997. С.261-293.
32. Плошко Б.Г., Елисеева И.И. История статистики: Учебное пособие. - М.: Финансы и статистика. 1990. - 295 с.
33. Эльясберг П.Е. Измерительная информация. Сколько ее нужно, как ее обрабатывать? - М.: Наука, 1983. - 208 с.
34. Крамер Г. Математические методы статистики. - М.: Мир, 1975. - 648 с.
35. Орлов А.И., Орловский И.В. О поправках на группировку. - В сб.: Прикладной многомерный статистический анализ. - М.: Наука, 1978. - С.339-342.
36. Орлов А.И. Поправка на группировку для коэффициента корреляции. / Экономика и математические методы. - 1980. - Т.XVI. - №4. - С.800-801.
37. Орлов А.И. Методы оценки близости допредельных и предельных распределений статистик. / Заводская лаборатория. - 1998. - Т.64. - № 5. - С.64-67.
38. Феллер В. Введение в теорию вероятностей и ее приложения. Т.2. - М.: Мир, 1984. - 751 с.
39. Боровков А.А. Теория вероятностей. - М.: Наука, 1976. - 352 с.
40. Каган А.М., Линник Ю.В., Рао С.Р. Характеризационные задачи математической статистики. - М.: Наука, 1972. - 656 с.
41. Ибрагимов И.А., Хасьминский Р.З. Асимптотическая теория оценивания. - М.: Наука, 1979. - 528 с.
42. Орлов А.И. О нецелесообразности использования итеративных процедур нахождения оценок максимального правдоподобия. / "Заводская лаборатория", 1986. Т.52. No.5. С.67-69.
43. Никитин Я.Ю. Асимптотическая эффективность непараметрических критериев. - М.: Наука, 1995. - 240 с.
44. Никитина Е.П., Фрейдлина В.Д., Ярхо А.В. Коллекция определений термина "статистика" / Межфакультетская лаборатория статистических методов. Вып.37. - М.: Изд-во Московского государственного университета им. М.В. Ломоносова, 1972. - 46 с.
45. Орлов А.И. Проблема множественных проверок статистических гипотез. / Заводская лаборатория. 1996. Т.62. No.5. С.51-54.
46. Орлов А.И. Распространенная ошибка при использовании критериев Колмогорова и омега-квадрат. / Заводская лаборатория. - 1985. - Т.51. - No.1. - С.60-62.
47. Орлов А.И. Сертификация и статистические методы. / Заводская лаборатория. 1997. Т.63. No.З. С.55-62.
48. Контроллинг в бизнесе. Методологические и практические основы построения контроллинга в организациях / А.М. Карминский, Н.И. Оленев, А.Г. Примак, С.Г.Фалько. - М.: Финансы и статистика, 1998. - 256 с.
49. Орлов А. И. Задачи оптимизации и нечеткие переменные. - М.: Знание, 1980.- 64 с.
50. The teaching of statistics / Studies in mathematics education. Vol.7. - Paris, UNESCO, 1989. - 258 pp.
Приложение 1
Вероятностно-статистические основы эконометрики
Эконометрика опирается на твердый научный фундамент - теорию вероятностей и статистику. В области теории вероятностей наша страна является признанным мировым лидером. Практически все специалисты в этой области исходят в своей работе из аксиоматики теории вероятностей, предложенной академиком А.Н. Колмогоровым в 1933 г. [1].
Однако в отечественной и зарубежной литературе присутствуют различные интерпретации терминов и разделов эконометрики, теории вероятностей, статистики. Одна из причин состоит в том, что используют в своей работе эти научные области специалисты разных профессий - экономисты, инженеры, математики... Поэтому мы приводим основную терминологию и краткое описание математической статистики и ее новых разделов.
П1-1. Определения терминов теории вероятностей и прикладной статистики
Определения практически всех используемых в литературе понятий теории вероятностей и математической статистики и основные сведения о соответствующих математических объектах собраны в Энциклопедии [2]. Ниже приведены определения и обозначения (в стиле [2]) лишь для основных понятий теории вероятностей и прикладной статистики, используемых в настоящем учебном пособии. Как показали предыдущие публикации (см., например, [3]), эта сводка позволяет осознанно изучать и применять эконометрические методы для анализа конкретных экономических данных. Однако она, очевидно, не заменяет систематических курсов теории вероятностей и прикладной математической статистики, знакомство с которыми - необходимая предпосылка для изучения эконометрики.
Споры по поводу терминов весьма распространены. Весьма популярно желание добиться единства терминологии. Однако практика терминологических дискуссий показывает, что придти к единому мнению обычно не удается. Не помогают достижению единства и административные меры, например, принятие государственных стандартов, "несоблюдение которых карается по закону". Зачастую такие стандарты содержат в себе много спорного, а то и ошибочного (подробнее об этом см. [3]).
Почти в каждой области знания параллельно существуют различные терминологические системы. Большого вреда это обычно не приносит. Так, операция умножения двух чисел a и b может быть обозначена четырьмя способами - крестиком (т.е. a х b), точкой (a. b), отсутствием знака между сомножителями (ab) или звездочкой, как при программировании (a* b). Случайные величины обозначают либо латинскими буквами, либо греческими. Для математического ожидания используют либо символ М, либо символ Е, и т.п.. Обычно можно без труда понять, о чем идет речь.
Однако при изучении настоящего курса эконометрики необходимо пользоваться вполне определенной терминологической системой. Она и приводится ниже. При этом мы отнюдь не отрицаем пригодности других систем терминов и определений в тех или иных случаях.
№№ пп. Термины Определения Примечания 1. Теория вероятностей
1.1. Общие понятия 1.1.1. Пространство элементарных событий Множество, элементы которого, называемые элементарными событиями, соответствуют возможным результатам наблюдения, измерения, анализа, проверки, исходам опыта, эксперимента, испытания. Пространство элементарных событий ? = {?} лежит в основе вероятностных моделей явлений (процессов). Вместо явного описания пространства элементарных событий часто используют косвенное или частичное
описание, например, с помощью распределений случайных величин. 1.1.2. Случайное событие Измеримое подмножество пространства элементарных событий. Термин "измеримое" понимают в смысле теории измеримых множеств. Случайные события образуют ?-алгебру G. 1.1.3. Вероятностная мера Сигма-аддитивная мера P, определенная на всех случайных событиях и такая, что P(?) = 1, где ? - пространство элементарных событий
Вероятностная мера P - функция, ставящая в соответствие каждому случайному событию A его вероятность P(A). Термин "мера" понимают в смысле математической теории меры. Синонимы: вероятностное распределение, распределение вероятностей, распределение, вероятность на пространстве элементарных событий. 1.1.4. Вероятностное пространство Совокупность {?, G, P} пространства элементарных событий ?, класса случайных событий G и вероятностной меры P. Вероятностное пространство (синоним: поле вероятностей) - основной исходный объект теории вероятностей и вероятностных моделей реальных явлений (процессов). 1.1.5. Вероятность события A Значение P(A) вероятностной меры P на случайном событии A. В силу закона больших чисел частота реализации события A при неограниченном увеличении числа независимых повторений одного и того же комплекса условий, описываемого вероятностным пространством {?, G, P}, стремится к вероятности этого события P(A), т.е. для любого ? > 0
limn?? P { | m/n - p | ? ? } = 1,
где m/n - частота, p - вероятность события A, n - число повторений. Это свойство нельзя принимать за определение вероятности события в математической теории вероятностей. Оно указывает способ оценивания вероятности по опытным данным. 1.1.6. Независимость случайных событий Случайные события А и В являются независимыми, если Р(АВ) = Р(А)Р(В), где АВ - пересечение множеств А и В (произведение событий А и В). Случайные события А1, А2,..., Аn называются независимыми (в совокупности), если Р(А1А2...Аn) = Р(А1)Р(А2)...Р(Аn) и аналогичные равенства справедливы для всех поднаборов этих событий А(1), А(2),..., А(k), 2?k?n -1. Общематематическое понятие пересечения множеств А?В в теории вероятностей по традиции эквивалентно понятию произведения событий АВ. 1.1.7. Случайный элемент Измеримая функция, определенная на вероятностном пространстве. Случайный элемент Х принимает значения в измеримом пространстве (Z,J), где Z - пространство значений Х, а J - класс измеримых подмножеств Z; при этом для любого QЄJ множество Х-1(Q) является случайным событием.
Если Z - множество действительных чисел R1, то случайный элемент Х называют случайной величиной. Если Z = Rk - конечномерное векторное пространство размерности k=2,3,...., то случайный элемент Х называют случайным вектором. 1.1.8. Распределение случайного элемента Функция множества, задающая вероятность принадлежности случайного элемента измеримому подмножеству его области значений. Для случайного элемента Х, определенного на вероятностном пространстве {?, G, P} со значениями в измеримом пространстве (Z,J), его распределение P1:J -? [0,1] задается формулой P1 (Q) = P (Х-1(Q)), QЄJ. 1.1.9. Дискретный случайный элемент Случайный элемент, область значений которого состоит из конечного или счетного множества точек. Распределение случайного элемента Х, принимающего только значения х1, х2,..., полностью описывается числами рi = P(X=хi), i = 1,2,..., причем р1 + р2 +... = 1. 1.1.10. Параметрическое семейство распределений Функция, определенная на параметрическом пространстве (подмножестве конечномерного векторного пространства), которая каждому значению параметра (числу или вектору, входящему в параметрическое пространство) ставит в соответствие распределение случайного элемента. Параметр может быть одномерным или конечномерным. Вместо "зависимость от k-мерного параметра" часто говорят "зависимость от k параметров". 1.1.11. Независимость случайных элементов Определенные на одном и том же вероятностном пространстве случайные элементы X1, X2,...,Xk со значениями в измеримых пространствах (Z1, J1), (Z2, J2),..., (Zk, Jk) соответственно называются независимыми, если для любых Q1ЄJ1, Q2ЄJ2,..., QkЄJk имеем Р(X1ЄQ1, X2ЄQ2,..., XkЄQk) = Р(X1ЄQ1)P(X2ЄQ2)... P(XkЄQk). Для случайных величин и векторов, имеющих плотности вероятности, независимость эквивалентна тому, что плотность вероятности вектора (Х1, Х2,..., Хk) равна произведению плотностей вероятностей случайных величин Хi, т.е.
f (x1, x2,..., xk) = f(x1)f(x2)...f(xk).
Результаты экспериментов, которые проведены независимо друг от друга, как правило, моделируются с помощью независимых случайных величин. 1.1.12 Вероятностная модель явления (процесса) Математическая модель явления (процесса), в которой использованы понятия теории вероятностей и математической статистики. Установление (формулировка) исходной вероятностной модели - необходимый первый этап для применения методов прикладной статистики.
1.2. Случайная величина 1.2.1. Случайная величина Однозначная действительная измеримая функция на вероятностном пространстве. Однозначная действительная функция X:??R1 является случайной величиной, если для любого хЄR1 множество {?:X(?) ? x} является случайным событием. Случайная величина - это случайный элемент со значениями в R1. (Здесь R1 - множество действительных чисел.) 1.2.2. Функция распределения Функция, определяющая для всех действительных чисел х вероятность того, что случайная величина Х принимает значения, меньшие х. Функция распределения F(x) = P(X < x) = P{?:X(?) < x}. Функция распределения непрерывна слева.
Примечание. Иногда функцию распределения определяют как F(x) = P(X < x) = P{?:X(?) < x}. Тогда она непрерывна справа. 1.2.3. Плотность вероятности Функция p(t) такая, что
при всех х, где F(x) - функция распределения рассматриваемой случайной величины. Сокращенная форма: плотность. 1.2.4. Непрерывная случайная величина Случайная величина, функция распределения которой при всех действительных x непрерывна. 1.2.5. Квантиль порядка p Значение случайной величины, для которого функция распределения принимает значение p или имеет место "скачок" со значения меньше p до значения больше p. Число хр - квантиль порядка р для случайной величины с функцией распределения F(x) тогда и только тогда, когда
lim x?хр+0 F(x)?p, F(хр)?p.
Может случиться, что вышеуказанное условие выполняется для всех значений х, принадлежащих некоторому интервалу. Тогда каждое такое значение называется квантилью порядка р.
Примечание. Одни авторы употребляют термин "квантиль" в мужском роде, другие - в женском. 1.2.6. Медиана Квантиль порядка p = 1/2. 1.2.7. Мода непрерывной случайной величины Значение случайной величины, соответствующее локальному максимуму ее плотности вероятности. Мод у непрерывной случайной величины может быть несколько (конечное число или бесконечно много).
Краткая форма термина: мода. 1.2.8. Математическое ожидание Среднее взвешенное по вероятностям значение случайной величины X(?), т.е.
Математическое ожидание обозначают М(Х), Е(Х), МХ, ЕХ и др. Рекомендуемое обозначение: М(Х). При этом
=
где F(x) - функция распределения, а p(t) - плотность вероятности случайной величины Х = X(?).
Математическое ожидание существует не для всех случайных величин Х. Для существования математического ожидания необходимо и достаточно абсолютной сходимости соответствующего интеграла. 1.2.9. Дисперсия (случайной величины X) Математическое ожидание квадрата разности между случайной величиной и ее математическим ожиданием. Для случайной величины Х дисперсия D(X) = ?2=?2(X)=М(X-М(X))2. Дисперсия равна 0 тогда и только тогда когда Р(Х=а)=1 для некоторого а. 1.2.10. Среднее квадратическое отклонение Неотрицательный квадратный корень из дисперсии. 1.2.11. Коэффициент вариации Отношение среднего квадратического отклонения к математическому ожиданию. Применяется для положительных случайных величин как показатель разброса. 1.2.12. Момент порядка q (случайной величины X) Математическое ожидание случайной величины Xq. 1.2.13. Центральный момент порядка q (случайной величины X) Математическое ожидание случайной величины (X-М(X))q, где М(Х) - математическое ожидание Х. Дисперсия - центральный момент порядка 2. 1.2.14. Характеристи-ческая функция (случайной величины X) Функция от tЄR1 , при каждом t равная математическому ожиданию случайной величины eitX, где i - мнимая единица, e - основание натуральных логарифмов.
М(eitX) = М(cos(tX) + isin(tX)) = М(cos(tX)) + iМ(sin(tX)). 1.3. Случайный вектор 1.3.1. Случайный вектор Однозначная измеримая функция на вероятностном пространстве со значениями в конечномерном евклидовом пространстве Rk. Случайный вектор Х - это случайный элемент со значениями в Rk, т.е. X = X(?) = (X1(?), X2(?),...., Xk(?)), где Xi(?), i = 1,2,...,k, - случайные величины, заданные на одном и том же вероятностном пространстве. 1.3.2. Функция распределения (случайного вектора) Функция распределения F(x1, x2,...., xk) случайного вектора X(?) = (X1(?), X2(?),...., Xk(?)) удовлетворяет равенству
F(x1, x2,...., xk) =
P (X1
для случайного вектора X = X(?) и любого борелевского подмножества А конечномерного евклидова пространства Rk. 1.3.4. Математическое ожидание случайного вектора Вектор, компоненты которого - математические ожидания компонент случайного вектора. Математическое ожидание случайного вектора X = (X1, X2,...., Xk) есть (М(X1), М(X2),...., М(Xk)), где М(Xi) - математическое ожидание случайной величины Xi, являющейся i - ой компонентой случайного вектора X, i = 1,2,...,k. 1.3.5. Ковариация (для двумерного вектора) Ковариацией вектора (X,Y) называется математическое ожидание случайной величины
(X - МX))(Y - М(Y)), где М(X) и М(Y) - математические ожидания случайных величин X и Y. cov(X,Y) = М (X - М(X))(Y - М(Y)) ;
если X = Y, то cov(X,Y) = D(X) - дисперсия X. 1.3.6. Ковариационная матрица случайного вектора Квадратная матрица ||cij|| порядка k, в которой cij - ковариация двумерного вектора (Xi, Xj), где Xi и Xj - компоненты случайного вектора X = (X1, X2,...., Xk), i,j = 1,2,...,k.
Ковариационная матрица симметрична, на главной диагонали стоят дисперсии Xi - компонент X, i = 1,2,...,k. 1.3.7. Коэффициент корреляции (для двумерного вектора) Отношение ковариации вектора (X,Y) к произведению средних квадратических отклонений ?(X) и ?(У) случайных величин Х и У.
Если Y = aX+b, то |r(X,Y)| = 1. Верно и обратное: если |r(X,Y)| = 1, то Y = aX+b.. 1.3.8. Корреляционная матрица случайного вектора Квадратная матрица ||rij|| порядка k, в которой rij - коэффициент корреляции двумерного вектора (Xi, Xj), где Xi и Xj - компоненты случайного вектора X = (X1, X2,...., Xk), i,j = 1,2,...,k.
Корреляционная матрица симметрична, на главной диагонали стоят единицы. 2. Прикладная статистика 2.1. Общие понятия 2.1.1. Признак Свойство (характеристика) объекта наблюдения. Частными видами наблюдения являются измерение, испытание, анализ, опыт, проверка и т.д. 2.1.2. Результат наблюдения Значение признака объекта наблюдения.
Результат наблюдения может быть числом, вектором, элементом конечного множества или математическим объектом иной природы. 2.1.3. Выборка Совокупность значений одного и того же признака у подвергнутых наблюдению объектов. Выборка - совокупность чисел или векторов, или математических объектов иной природы, соответствующих изучаемым реальным объектам наблюдения. 2.1.4. Объем выборки Число результатов наблюдений, включенных в выборку. Объем выборки обычно обозначают n. 2.1.5. Вероятностная модель выборки Вероятностная модель получения результатов наблюдений, включаемых в выборку. Примерами вероятностных моделей выборок являются простая случайная выборка и случайная выборка из конечной совокупности. 2.1.6. Простая случайная выборка Выборка, в которой результаты наблюдений моделируются как совокупность независимых одинаково распределенных случайных элементов. Если результаты наблюдений имеют распределение F, то говорят, что "выборка извлечена из распределения F". 2.1.7. Случайная выборка из конечной совокупности Выборка объема n, в которую включены результаты наблюдений над объектами, отбираемыми из конечной совокупности так, что любой набор n объектов имеет одинаковую вероятность быть отобранным. Если N - число объектов конечной совокупности, то для получения случайной выборки объема n из этой совокупности, n < N, отбор объектов для проведения наблюдений должен проводиться так, чтобы любой набор из n объектов имел одну и ту же вероятность быть отобранным, равную n!(N-n)!/ N!, т.е. обратной величине к числу сочетаний из N элементов по n. 2.1.8. Статистика Измеримая функция результатов наблюдений, включенных в выборку, используемая для получения статистических выводов. Статистики используются для описания данных, оценивания, проверки гипотез. Статистика, как функция случайного элемента, является случайным элементом. Статистика принимает значения в некотором измеримом пространстве (Z,J), своем для каждой статистики. 2.2. Описание данных 2.2.1. Частота события Отношение числа наблюдений, в которых осуществилось событие, к объему выборки. 2.2.2. Эмпирическое распределение Распределение случайного элемента, в котором каждому результату наблюдения, включенному в выборку, соответствует одна и та же вероятность, равная обратной величине объема выборки. Если в выборку включены результаты наблюдений x1, x2,...., xn, то эмпирическое распределение - это распределение случайной величины Х такой, что Р(Х= xi) = 1/n, i = 1,2,..., n. Если несколько результатов наблюдений совпадают: x1 = x2 =.... = xk = a, то полагают Р(Х=а) = k/n. 2.2.3. Эмпирическая функция распределения Функция эмпирического распределения. Определена, когда результаты наблюдений - числа или вектора (функции распределения по пп.1.2.2 и 1.3.2 соответственно). 2.2.4. Выборочное среднее арифметическое Сумма результатов наблюдений, включенных в выборку, деленная на ее объем. Выборочное среднее арифметическое равно математическому ожиданию случайной величины, имеющей эмпирическое распределение. 2.2.5. Выборочная дисперсия Сумма квадратов отклонений результатов наблюдений, включенных в выборку, от их выборочного среднего арифметического, деленная на объем выборки. Выборочная дисперсия
s2 = 1/n(хi - xср)2-,
где x1, x2,...., xn - результаты наблюдений, включенные в выборку; xср - выборочное среднее арифметическое,
xср = 1/nхi.
Выборочная дисперсия равна дисперсии случайной величины, имеющей эмпирическое распределение. 2.2.6. Выборочное среднее квадратическое отклонение Неотрицательный квадратный корень из выборочной дисперсии. 2.2.7. Выборочный момент порядка q Момент порядка q случайной величины, имеющей эмпирическое распределение. mq = 1/n хiq, где хi по п.2.2.5. 2.2.8. Выборочный центральный момент порядка q Центральный момент порядка q случайной величины, имеющей эмпирическое распределение.
mq = 1/n(хi - xср)q , где хi и xср по п.2.2.5. 2.2.9. k-я порядковая статистика k-й элемент x(k) в вариационном ряду, полученном из выборки объема n, элементы которой x1, x2,...., xn расположены в порядке неубывания: x(1)?x(2) ?... ? x(k) ?... ?x(n).
2.2.10. Размах выборки Разность между наибольшим и наименьшим значениями результатов наблюдений в выборке. Если x(1) и x(n) - первая и n-ая порядковые статистики в выборке объема n, то размах R = x(n) - x(1).
2.2.11. Выборочная ковариация Ковариация двумерного случайного вектора, имеющего эмпирическое распределение. Если (xi, yi), i=1,2,....,n, - результаты наблюдений, включенные в выборку, то выборочная ковариация равна 1/n(хi - xср)(yi - yср), где хi и xср по п.2.2.5, yср = 1/nyi. 2.2.12. Выборочная ковариационная матрица Ковариационная матрица случайного вектора, имеющего эмпирическое распределение. На главной диагонали выборочной ковариационной матрицы стоят выборочные дисперсии по п.2.2.5, а вне главной диагонали - выборочные ковариации по п.2.2.11. 2.2.13. Выборочный коэффициент корреляции Коэффициент корреляции двумерного случайного вектора, имеющего эмпирическое распределение. Выборочный коэффициент корреляции равен
где хi и xср по п.2.2.5, yi и yср по п.2.2.11.
2.2.14. Выборочная корреляционная матрица Корреляционная матрица случайного вектора, имеющего эмпирическое распределение. На главной диагонали выборочной корреляционной матрицы стоят 1, а вне главной диагонали - выборочные коэффициенты корреляции по п.2.2.13. 2.2.15 Выборочный коэффициент вариации Отношение выборочного среднего квадратического отклонения к выборочному среднему арифметическому. Выборочный коэффициент вариации используют, когда результаты наблюдений положительны.
2.3. Оценивание 2.3.1. Оценивание Приближенное определение интересующей специалиста составляющей вероятностной модели явления (процесса) по выборке. Составляющими вероятностных моделей могут быть: значение параметра распределения; характеристика распределения (математическое ожидание, коэффициент вариации и др.); функция распределения; плотность вероятности; регрессионная зависимость, и т.д. 2.3.2. Оценка Результат оценивания по конкретной выборке. Оценка является статистикой, а потому случайным элементом, в частных случаях - случайной величиной или случайным вектором. 2.3.3. Точечное оценивание Вид оценивания, при котором для оценивания используется одно определенное значение. 2.3.4. Доверительное оценивание Вид оценивания, при котором для оценивания используется множество.
Рассматриваемое множество лежит в пространстве возможных состояний оцениваемой составляющей вероятностной модели явления (процесса). 2.3.5. Доверительное множество Определяемое по выборке множество в пространстве возможных состояний оцениваемой составляющей, используемое при доверительном оценивании. Доверительное множество является случайным множеством. 2.3.6. Доверительная вероятность Вероятность того, что доверительное множество содержит действительное значение оцениваемой составляющей. В конкретных задачах оценивания для фиксированных доверительных вероятностей строят соответствующие доверительные множества. 2.3.7. Доверительный интервал Доверительное множество, являющееся интервалом. Интервалы могут быть как ограниченными, так и неограниченными (лучами). 2.3.8. Доверительные границы Концы (границы) доверительного интервала.
2.3.9. Верхняя доверительная граница Граница доверительного интервала, являющегося лучом, не ограниченным снизу. Для доверительного интервала (-?; a) верхней доверительной границей является число a.
2.3.10. Нижняя доверительная граница Граница доверительного интервала, являющегося лучом, не ограниченным сверху. Различие верхних, нижних и двусторонних доверительных границ необходимо учитывать при проведении конкретных расчетов, т.к. часто все виды границ определяются с помощью одних и тех же таблиц. 2.3.11. Двусторонние доверительные границы Границы ограниченного (и сверху, и снизу) доверительного интервала Для двусторонних границ (T1;T2) с вероятностью 1 справедливо неравенство T1?T2. 2.4. Проверка статистических гипотез 2.4.1. Статистическая гипотеза Определенное предположение о свойствах распределений случайных элементов, лежащих в основе наблюдаемых случайных явлений (процессов). 2.4.2. Нулевая гипотеза Статистическая гипотеза, подлежащая проверке по статистическим данным (результатам наблюдений, вошедшим в выборку). Из возможных статистических гипотез в качестве нулевой выбирают ту, прннятие справедливости которой наиболее важно для дальнейших выводов. 2.4.3. Альтернативная гипотеза Статистическая гипотеза, которая считается справедливой, если нулевая гипотеза неверна. Сокращенная форма - альтернатива. 2.4.4. Статистический критерий Правило, по которому на основе результатов наблюдений принимается решение о принятии или отклонении нулевой гипотезы. Принимаемое решение может однозначно определяться по результатам наблюдений (нерандомизированный критерий) или в некоторой степени зависеть от случая (рандомизированный критерий). 2.4.5. Статистика критерия Статистика, на основе которой сформулировано решающее правило. Как правило, нерандомизированный статистический критерий основан на статистике критерия, принимающей числовые значения. 2.4.6. Критическая область статистического критерия Область в пространстве возможных выборок со следующими свойствами: если наблюдаемая выборка принадлежит данной области, то отвергают нулевую гипотезу (и принимают альтернативную), в противном случае ее принимают (и отвергают альтернативную). Если статистический критерий основан на статистике критерия, то критическая область статистического критерия однозначно определяется по критической области статистики критерия.
Краткая форма: критическая область. 2.4.7. Критическая область статистики критерия Множество чисел такое, что при попадании в него статистики критерия нулевую гипотезу отвергают, в противном случае принимают. Краткая форма: критическая область. 2.4.8. Критические значения Границы (концы) одного или двух интервалов, составляющих критическую область статистики критерия. Критическими значениями являются одно или два из чисел t1, t2 в случае, если критическая область имеет вид {Tn
.
2.4.11. Ошибка второго рода Ошибка, заключающаяся в том, что нулевую гипотезу принимают, в то время как в действительности эта гипотеза неверна (а верна альтернативная гипотеза). 2.4.12. Мощность критерия Вероятность того, что нулевая гипотеза будет отвергнута, если альтернативная гипотеза верна. Мощность критерия является однозначной действительной функцией, определенной на составляющем альтернативу множестве гипотез, заданном в конкретной задаче статистической проверки гипотез, в частности, на параметрическом множестве, соответствующем альтернативным гипотезам. 2.4.13. Функция мощности статистического критерия Функция, определяющая вероятность того, что нулевая гипотеза будет отклонена. Функция мощности критерия задана на множестве всех гипотез, используемых в конкретной задаче статистической проверки гипотез. Сужением ее на нулевую гипотезу является функция, задающая вероятность ошибки первого рода. Сужением ее на альтернативу является мощность критерия. 2.4.14. Оперативная характеристика статистического критерия
Функция, определяющая вероятность того, что нулевая гипотеза будет принята. Оперативная характеристика - дополнение до единицы функции мощности статистического критерия. 2.4.15. Критерий согласия Критерий проверки гипотезы согласия, т.е. того, что функция распределения результатов наблюдения, включенных в простую случайную выборку, совпадает с заданной или входит в заданное параметрическое семейство. 2.4.16. Критерий однородности Критерий для проверки гипотезы о том, что функции распределений результатов наблюдений из двух или нескольких независимых простых случайных выборок совпадают (абсолютная однородность) или отдельные их характеристики совпадают (однородность в смысле математических ожиданий, коэффициентов вариации и т.д.). Рассматривают также критерии независимости, симметрии, случайности, отбраковки и др. 2.4.17. Номинальный (заданный) уровень значимости Число, используемое в статистических таблицах, с помощью которого выбирают критическое значение статистики критерия при проверке статистической гипотезы. Номинальный (заданный) уровень значимости обычно берут равным 0,1; 0,05; 0,01. 2.4.18. Реальный (истинный) уровень значимости Уровень значимости статистического критерия, выбранного по номинальному уровню значимости. Из-за дискретности распределения статистики критерия реальный уровень значимости может быть в несколько раз меньше номинального.
2.4.19. Достигаемый уровень значимости Случайная величина, равная вероятности попадания статистики критерия в критическую область, заданную рассчитанным по выборке значением статистики критерия. Для критической области вида {x:x>a} достигаемый уровень значимости есть F(Xn), где Xn - рассчитанное по выборке значение статистики критерия X, а F(a) = P(X>a) - дополнение до 1 функции распределения статистики критерия X. Достигаемый уровень значимости - это вероятность того, что статистика критерия Х в новом независимом эксперименте примет значение большее, чем при расчете по конкретной выборке, т.е. большее, чем Xn. 2.4.20. Независимые выборки Выборки, объединение элементов которых моделируется набором независимых (в совокупности) случайных элементов.
См. п.1.1.11.
П1-2. Математическая статистика и ее новые разделы
Приведем краткие описания (типа статей в энциклопедических изданиях) математической статистики и ее наиболее важных для эконометрики сравнительно новых разделов, разработанных в основном после 1970 г., а именно, статистики объектов нечисловой природы и статистики интервальных данных.
Статистика математическая - наука о математических методах анализа данных, полученных при проведении массовых наблюдений (измерений, опытов). В зависимости от математической природы конкретных результатов наблюдений статистика математическая делится на статистику чисел, многомерный статистический анализ, анализ функций (процессов) и временных рядов, статистику объектов нечисловой природы. Существенная часть статистики математической основана на вероятностных моделях.
Выделяют общие задачи описания данных, оценивания и проверки гипотез. Рассматривают и более частные задачи, связанные с проведением выборочных обследований, восстановлением зависимостей, построением и использованием классификаций (типологий) и др.
Для описания данных строят таблицы, диаграммы, иные наглядные представления, например, корреляционные поля. Вероятностные модели обычно не применяются. Некоторые методы описания данных опираются на продвинутую теорию и возможности современных компьютеров. К ним относятся, в частности, кластер-анализ, нацеленный на выделение групп объектов, похожих друг на друга, и многомерное шкалирование, позволяющее наглядно представить объекты на плоскости, в наименьшей степени исказив расстояния между ними.
Методы оценивания и проверки гипотез опираются на вероятностные модели порождения данных. Эти модели делятся на параметрические и непараметрические. В параметрических моделях предполагается, что изучаемые объекты описываются функциями распределения, зависящими от небольшого числа (1-4) числовых параметров. В непараметрических моделях функции распределения предполагаются произвольными непрерывными. В статистике математической оценивают параметры и характеристики распределения (математическое ожидание, медиану, дисперсию, квантили и др.), плотности и функции распределения, зависимости между переменными (на основе линейных и непараметрических коэффициентов корреляции, а также параметрических или непараметрических оценок функций, выражающих зависимости) и др. Используют точечные и интервальные (дающие границы для истинных значений) оценки.
В статистике математической есть общая теория проверки гипотез и большое число методов, посвященных проверке конкретных гипотез. Рассматривают гипотезы о значениях параметров и характеристик, о проверке однородности (т.е. о совпадении характеристик или функций распределения в двух выборках), о согласии эмпирической функции распределения с заданной функцией распределения или с параметрическим семейством таких функций, о симметрии распределения и др.
Большое значение для эконометрики имеет раздел статистики математической, связанный с проведением выборочных обследований, со свойствами различных схем организации выборок и построением адекватных методов оценивания и проверки гипотез.
Задачи восстановления зависимостей активно изучаются более 200 лет, с момента разработки К. Гауссом в 1794 г. метода наименьших квадратов. В настоящее время наиболее актуальны методы поиска информативного подмножества переменных и непараметрические методы.
Различные методы построения (кластер-анализ), анализа и использования (дискриминантный анализ) классификаций (типологий) именуют также методами распознавания образов (с учителем и без), автоматической классификации и др.
Математические методы в статистике основаны либо на использовании сумм (на основе Центральной Предельной Теоремы теории вероятностей) или показателей различия (расстояний, метрик), как в статистике объектов нечисловой природы. Строго обоснованы обычно лишь асимптотические результаты. В настоящее время компьютеры играют большую роль в статистике математической. Они используются как для расчетов, так и для имитационного моделирования (в частности, в методах размножения выборок и при изучении пригодности асимптотических результатов).
Классическая статистика математическая лучше всего представлена в [2,4]. По историческим причинам основные российские работы публикуются в [3]. Обзор современного состояния статистики математической дан в [6].
Статистика объектов нечисловой природы - раздел математической статистики, в котором статистическими данными являются объекты нечисловой природы, т.е. элементы множеств, не являющихся линейными пространствами. Объекты нечисловой природы нельзя складывать и умножать на число. Примерами являются результаты измерений в шкалах наименований, порядка, интервалов; ранжировки, разбиения, толерантности и другие бинарные отношения; результаты парных и множественных сравнений; люсианы, т.е. конечные последовательности из 0 и1; множества; нечеткие множества. Необходимость применения объектов нечисловой природы возникает во многих областях научной и практической деятельности, в том числе и в социологии. Примерами являются ответы на "закрытые" вопросы в эконометрических, маркетинговых, социологических анкетах, в которых респондент должен выбрать одну или несколько из фиксированного числа подсказок, мили измерение мнений о привлекательности (товаров, услуг, профессий, политиков и др.), проводимое по порядковой шкале. Наряду со специальными теориями для каждого отдельного вида объектов нечисловой природы в статистике объектов нечисловой природы имеется и теория обработки данных, лежащих в пространстве общей природы, результаты которой применимы во всех специальных теориях.
В статистике объектов нечисловой природы классические задачи математической статистики - описание данных, оценивание, проверку гипотез - рассматривают для данных неклассического типа, что приводит к своеобразию постановок задач и методов их решения. Например, из-за отсутствия линейной структуры в пространстве, в котором лежат статистические данные, в статистике объектов нечисловой природы математическое ожидание определяют не через сумму или интеграл, как в классическом случае, а как решение задачи минимизации некоторой функции. Эта функция представляет собой математическое ожидание (в классическом смысле) показателя различия между значением случайного объекта нечисловой природы и фиксированным элементом пространства. Эмпирическое среднее определяют как результат минимизации суммы расстояний от нечисловых результатов наблюдений до фиксированного элемента пространства. Справедлив закон больших чисел: эмпирическое среднее сходится при увеличении объема выборки к математическому ожиданию, если результаты наблюдений являются независимыми одинаково распределенными случайными объектами нечисловой природы и выполнены некоторые математические "условия регулярности".
Аналогичным образом определяют условное математическое ожидание и регрессионную зависимость. Из доказанной в статистике объектов нечисловой природы сходимости решений экстремальных статистических задач к решениям соответствующих предельных задач вытекает состоятельность оценок в параметрических задачах оценивания параметров и аппроксимации, а также ряд результатов в многомерном статистическом анализе. Большую роль в статистике объектов нечисловой природы играют непараметрические методы, в частности, методы непараметрической оценки плотности и регрессионной зависимости в пространствах общей природы, в том числе и в дискретных пространствах.
Для решения многих задач статистики объектов нечисловой природы - нахождения эмпирического среднего, оценки регрессионной зависимости, классификации наблюдений и др. - используют показатели различия (меры близости, расстояния, метрики) между элементами рассматриваемых пространств, вводимые аксиоматически. Так, в монографии [7] аксиоматически введено расстояние между множествами. Принятое в теории измерений как части статистики объектов нечисловой природы условие адекватности (инвариантности) алгоритмов анализа данных позволяет указать вид средних величин, расстояний, показателей связи и т.д., соответствующих измерениям в тех или иных шкалах. Методы построения, анализа и использования классификаций и многомерного шкалирования дают возможность сжать информацию и дать ей наглядное представление. К статистике объектов нечисловой природы относятся методы ранговой корреляции, статистического анализа бинарных отношений (ранжировок, разбиений, толерантностей), параметрические и непараметрические методы обработки результатов парных и множественных сравнений. Теория люсианов (последовательностей независимых испытаний Бернулли) развита в асимптотике растущей размерности.
Статистика объектов нечисловой природы как самостоятельный раздел прикладной математической статистики выделена в монографии [7]. Обзору ее основных направлений посвящен, например, сборник [8]. Ей посвящен раздел в энциклопедии [2].
Статистика интервальных данных (СИД) - раздел статистики объектов нечисловой природы, в котором элементами выборки являются интервалы в R, в частности, порожденные наложением ошибок измерения на значения случайных величин. СИД входит в теорию устойчивости (робастности) статистических процедур (см. [7]) и примыкает к интервальной математике (см. [9]). В СИД изучены проблемы регрессионного анализа, планирования эксперимента, сравнения альтернатив и принятия решений в условиях интервальной неопределенности и др. (см.[10-13]).
Развиты асимптотические методы статистического анализа интервальных данных при больших объемах выборок и малых погрешностях измерений. В отличие от классической математической статистики, сначала устремляется к бесконечности объем выборки и только потом - уменьшаются до нуля погрешности. Разработана общая схема исследования (см. [14]), включающая расчет двух основных характеристик СИД - н о т н ы (максимально возможного отклонения статистики, вызванного интервальностью исходных данных) и р а ц и о н а л ь н о г о о б ъ е м а в ы б о р к и (превышение которого не дает существенного повышения точности оценивания и статистических выводов, связанных с проверкой гипотез). Она применена к оцениванию математического ожидания и дисперсии, медианы и коэффициента вариации, параметров гамма-распределения в ГОСТ 11.011-83 [15] и характеристик аддитивных статистик, для проверки гипотез о параметрах нормального распределения, в т.ч. с помощью критерия Стьюдента, а также гипотезы однородности двух выборок по критерию Смирнова, и т.д.. Разработаны подходы СИД в основных постановках регрессионного, дискриминантного и кластерного анализов (см. [16]).
Многие утверждения СИД отличаются от аналогов из классической математической статистики. В частности, не существует состоятельных оценок: средний квадрат ошибки оценки, как правило, асимптотически равен сумме дисперсии этой оценки, рассчитанной согласно классической теории, и квадрата нотны. Метод моментов иногда оказывается точнее метода максимального правдоподобия (см. [15, 17]). Нецелесообразно с целью повышения точности выводов увеличивать объем выборки сверх некоторого предела. В СИД классические доверительные интервалы должны быть расширены вправо и влево на величину нотны, и длина их не стремится к 0 при росте объема выборки.
Многим задачам классической математической статистики могут быть поставлены в соответствие задачи СИД, в которых элементы выборок - действительные числа заменены на интервалы. В статистическое программное обеспечение включают алгоритмы СИД, "параллельные" их аналогам из классической математической статистики. Это позволяет учесть наличие погрешностей у результатов наблюдений.
Цитированная литература
1. Колмогоров А.Н. Основные понятия теории вероятностей. 2-е изд. - М.: Наука, 1974. - 120 с.
2. Вероятность и математическая статистика. Энциклопедия / Гл. ред. Ю. В. Прохоров. - М.: Изд-во "Большая Российская Энциклопедия", 1999. - 910 с.
3. Орлов А.И. Термины и определения в области вероятностно-статистических методов. - Журнал "Заводская лаборатория". 1999. Т.65. No.7. С.46-54.
4. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. - М.: Наука, 1983.
5. Секция "Математические методы исследования" журнала "Заводская лаборатория. Диагностика материалов".
6. Орлов А.И. Современная прикладная статистика. - Журнал "Заводская лаборатория". 1998. Т.64. No.3. С. 52-60.
7. Орлов А.И. Устойчивость в социально-экономических моделях. - М.: Наука, 1979. - 296 с.
8. Анализ нечисловой информации в социологических исследованиях. - М.: Наука, 1985. - 220 с.
9. Шокин Ю.И. Интервальный анализ. - Новосибирск: Наука, 1981. - 112 с.
10. Вощинин А.П. Метод оптимизации объектов по интервальным моделям целевой функции. - М.: МЭИ, 1987. - 109 с.
11. Вощинин А.П., Сотиров Г.Р. Оптимизация в условиях неопределенности. - М.: МЭИ - София: Техника, 1989. - 224 с.
12. Кузнецов В.П. Интервальные статистические модели. - М.: Радио и связь, 1991. - 352 с.
13. Сборник трудов Международной конференции по интервальным и стохастическим методам в науке и технике (ИНТЕРВАЛ-92). Тт. 1,2. - М.: МЭИ, 1992. - 216 с., 152 с.
14. Орлов А.И. О развитии реалистической статистики. - В сб.: Статистические методы оценивания и проверки гипотез. Межвузовский сборник научных трудов. Пермь: Изд-во Пермского государственного университета, 1990, с..89-99.
15. ГОСТ 11.011-83. Прикладная статистика. Правила определения оценок и доверительных границ для параметров гамма-распределения. - М.: Изд-во стандартов, 1984. - 53 с.
16. Орлов А.И. Интервальный статистический анализ. - В сб.: Статистические методы оценивания и проверки гипотез. Межвузовский сборник научных трудов. Пермь: Пермский государственный университет, 1993, с.149-158.