<< Пред. стр. 8 (из 17) След. >>
Нами изучены вклады отдельных продовольственных товаров в стоимости потребительских корзин. Обращает на себя внимание различие между нормативными (т.е. заданными априори) корзинами ИВСТЭ, ГКС-1, ГКС-2 и полученными в результате анализа реального потребления корзинами Бюдж-1 и Бюдж-2. В реальном потреблении гораздо меньше муки, пшена, геркулеса, ржаного хлеба, картофеля, трески, минтая, молока, маргарина, но гораздо больше лука, яблок, конфет, колбасы, сельди, сливочного масла, сыра. Объяснение достаточно очевидное: корзины ИВСТЭ, ГКС-1, ГКС-2 - это "корзины выживания", действительно минимальные по стоимости корзины, в то время как корзины Бюдж.1 и Бюдж.2 - это корзины реального потребления в семьях студентов Московского государственного института электроники и математики (технического университета) различного достатка.Продовольственные товары, на наш взгляд, можно разделить на две группы. Цены на одни растут монотонно, без всякой связи со временем года, т.е. ведут себя примерно также, как промышленные товары. Можно предположить, что индексы инфляции, построенные по подмножеству таких товаров, представляют собой общие индексы, "очищенные от сезонности", а потому лучше описывающие реальное состояние экономики, чем исходные индексы. Однако при их применении теряется связь со стоимостью корзины выживания, обеспечивающей существование без физиологического вырождения.
Второе подмножество - это товары с ярко выраженной сезонностью, прежде всего овощи, цены на которые падают во второй половине лета и осенью, а затем начинают возрастать. Наличие этой составляющей приводит к тому, что рост стоимостей корзин практически останавливается летом, а наиболее быстрым является зимой.
Можно ли управлять процессом роста цен? Мы наблюдали результаты явно административного воздействия: в ноябре 1995 г., перед выборами в Государственную Думу, цены в Москве внезапно упали на 9 %, хотя в ноябре цены обычно растут быстрее, чем в иное время года. Тем не менее необходимо констатировать, что обычно изменение цен происходит на микроэкономическом уровне, хотя и провоцируется макроэкономическими процессами, в частности, монопольными изменениями цен на энергоносители.
Ложная, на наш взгляд, идея монетаристов состоит в том, что они считают необходимым бороться с инфляцией, сокращая денежную массу в стране, например, не выплачивая вовремя зарплату и пенсии. Однако, как пишет академик-секретарь Отделения экономики РАН Д.С. Львов: "Макроэкономические расчеты показывают, что за каждый процент сокращения инфляции приходится расплачиваться тремя-пятью процентами спада производства" [6, с.11]. Основной удар монетаристской политики приходится не по инфляции, а по производству.
Процесс инфляции частично управляем административными методами. Осенью 1996 г. спрогнозированного ИВСТЭ роста цен не произошло, что объясняется изменением условий - правительство перешло к борьбе с инфляцией путем гигантского роста задолженностей по зарплате, пенсиям и другим платежам (например, детским пособиям, стипендиям студентов).
Если у населения нет денег - торговцы не поднимают цены. Так, в Москве за 2 года - с лета 1995 г. по лето 1997 г. цены выросли примерно на 50 %, в то время как в г. Иваново - лишь на 15 %, а импортные товары на ивановских рынках стоят на 1/3 дешевле, чем на московских (хотя эти импортные товары закупаются в Москве). Объяснить это можно тем, что экономическое положение в Иваново гораздо хуже, чем в Москве, ниже уровень доходов, больше безработных, что вынуждены учитывать торговцы.
Расчет индекса инфляции - вспомогательная задача. решение которой необходимо для приведения экономических характеристик к сопоставимому виду. Важнейшей задачей является расчет реальной заработной платы, равной частному от деления номинальной заработной платы на индекс инфляции. Известно, что цены на промышленные товары и на услуги, как правило, растут быстрее, чем на продовольствие. Поэтому рассчитываемые по продовольственным потребительским корзинам значения индексов инфляции дают оценку снизу для роста потребительских цен и стоимости жизни в целом.
Минимальный прожиточный минимум оцениваем по методу американской исследовательницы польского происхождения М. Оршански с коэффициентом Энгеля 0,5. Этот метод основан на расчете стоимости минимальной продовольственной корзины и учете стоимостей остальных минимально необходимых затрат с помощью коэффициентов. Так, для "бедных семей" студентов Московского государственного института электроники и математики (технического университета) во время пробного бюджетного обследования в октябре-ноябре 1995 г. затраты на продовольствие составили 52% от всех расходов. Поэтому стоимость прожиточного минимума для них получим, приняв за 52% стоимость минимальной продовольственной корзины ИВСТЭ, т.е. умножив ее стоимость на 1/0,52 = 1,92.
Метод М. Оршански предполагает, что структура затрат практически не меняется. Однако, как уже отмечалось, цены на промышленные товары и на услуги растут быстрее, чем на продовольствие. Поэтому замена 1,92 на 2,00 представляется обоснованной. Полученные значения (на май 1997 г. - 700 тыс. руб. в месяц на человека) хорошо согласуется с уже цитированными данными Московской федерации профсоюзов (750 тыс. руб.). Отметим, что для всей совокупности семей, чьи бюджеты были обследованы в 1996 г., затраты на продовольствие составили 42 %, т.е. для них коэффициент Оршански равен 1/0,42 = 2,38.
Средняя (начисленная) заработная плата в Москве составляла в декабре 1996 г. 1,12 миллиона руб. (в России - 0.84 млн.). В сопоставлении со сказанным выше (с учетом логнормального характера функции распределения доходов и наличия детей) это означает, что даже в Москве по крайней мере половина семей живет ниже прожиточного уровня. В 1990 г. средняя зарплата превышала прожиточный минимум в 5.5 раз, а в 1997 г. - лишь в 1.2 раза (по России), т.е. уровень жизни упал в среднем в 4,6 раза. Он весной 1998 г. соответствовал концу 50-х - началу 60-х годов. За август-сентябрь 1998 г. корзина ИВСТЭ подорожала в 1,5 раза, следовательно, уровень жизни упал уже в 7 раз, и по покупательной способности зарплаты рядовые граждане "приблизились" к возможностям начала 50-х годов.
Переход к сопоставимым ценам необходимо использовать также при расчете таких макроэкономических характеристик, как валовой внутренний продукт, объем бюджетных ассигнований и т.д. С учетом сказанного выше можно утверждать, что экономика России с 1990 г. по 1998 г. была "сокращена" в 4-6 раз, что соответствует сдвигу назад по времени на 35-45 лет.
Материалы настоящего пункта обсуждаются в работе [7].
Эконометрика описывает инфляцию. Причины инфляции - это предмет иных экономических наук. Однако несколько слов сказать об этом полезно.
Всегда говорят об инфляции спроса. Это ситуация, когда у населения много денег, которые оно хочет истратить. А товаров мало. Тогда цены растут. Либо непосредственно, либо через механизм " черного рынка".
Другой вид инфляции - инфляция издержек. Производитель вынужден повышать цену на свою продукцию, потому что его поставщики повышают цены на собственную продукцию. Этот порочный круг очень трудно разорвать.
Третий вид инфляции - административная инфляция. Цены повышает государство. Естественно, на то, что оно контролирует. Например, с августа по декабрь 1998 г. курс доллара США был поднят в 4 раза. Последствия были понятные: адекватный подъем цен на импортные товары, рост цен на продукцию, для изготовления которой использовались импортные комплектующие, а затем и рост цен на чисто отечественную продукцию, если такая вообще существует. В результате инфляция за год составила 80%.
Выше уже приводились примеры административного регулирования цен. Политика государственных органов в области энергетики, транспорта, экспорта и импорта и других сфер государственного регулирования экономики оказывает непосредственное влияние на инфляцию.
Ряд вопросов анализа и прогнозирования инфляционных процессов рассмотрен в главах 5, 6, 12 и др. Судя по опыту последних десяти лет, инфляционные процессы стали постоянной составляющей отечественной экономической жизни, и экономистам, менеджерам, инженерам различных специальностей придется учитывать их свойства в своей работе.
Цитированная литература
1. Орлов А.И. Устойчивость в социально-экономических моделях. - М.: Наука, 1979. - 296 с.
2. Самуэльсон П. Экономика. Тт.1,2. - М.: МГП "Алгон" - ВНИИСИ, 1992. - 333 с. + 415 с.
3. Математическое моделирование процессов налогообложения (подходы к проблеме) / Под ред. В.Г. Кольцова, В.Н. Жихарева, Н.Ю. Ивановой, А.И. Орлова. - М.: Изд-во ЦЭО Министерства общего и профессионального образования РФ, 1997. - 232 с. (Авторский коллектив: Балашов В. В., Букина Е. П., Жихарев В. Н., Иванова И. Г., Иванова Н. Ю., Иванова Р. К., Кастосов М. А., Кольцов В. Г., Кулага Е.В., Нечаева Е. Г., Орлов А. И., Орлова Л. А., Рафальская А. Э., Светлов С.В., Семенова О. В., Стешов И. В., Цупин В. А.)
4. Макконнелл Кэмпбелл Р., Брю Стэнли Л. Экономикс: Принципы, проблемы и политика. В 2-х т.: Пер. с англ. 11-го изд. Т.1. - М.: Республика, 1995. - 400 с.
5. Коростикова Т. Цены вырастут в 5 раз // Аргументы и факты, 1994, No.16, с.5.
6. Львов Д.С. Реформы с позиции современной науки. - Научные труды Международного союза экономистов и Вольного экономического общества России. Том второй. - М.- СПб: 1995, с.7-16.
7. Орлов А.И., Жихарев В.Н., Цупин В.А., Балашов В.В. Как оценивать уровень жизни? (На примере московского региона.) - Журнал "Обозреватель-Observer". 1999. No.5 (112). С. 80-83.
Глава 8. Статистика нечисловых данных
Статистика нечисловых данных - это направление в эконометрике, в котором в качестве исходных статистических данных (результатов наблюдений) рассматриваются объекты нечисловой природы. Так принято называть объекты, которые нецелесообразно описывать числами, в частности элементы нелинейных пространств. Примерами являются бинарные отношения (ранжировки, разбиения, толерантности и др.), результаты парных и множественных сравнений, множества, нечеткие множества, измерение в шкалах, отличных от абсолютных. Этот перечень примеров не претендует на законченность. Он складывался постепенно в соответствии с развитием теоретических исследований в области статистики нечисловых данных и расширением опыта применений этого направления эконометрики.
Объекты нечисловой природы широко используются в теоретических и прикладных исследованиях по экономике, менеджменту и другим проблемам управления, в частности управления качеством продукции, в технических науках, социологии, психологии, медицине и т.д., а также практически во всех отраслях народного хозяйства.
8.1. Объекты нечисловой природы
Начнем с первоначального знакомства с основными видами объектов нечисловой природы.
Результаты измерений в шкалах, отличных от абсолютной. Рассмотрим конкретное исследование в области маркетинга образовательных услуг, послужившее поводом к развитию отечественных исследований по теории измерений (см. главу 3). При изучении привлекательности различных профессий для выпускников новосибирских школ был составлен список из 30 профессий. Опрашиваемых просили оценить каждую из этих профессий одним из баллов 1,2,...,10 по правилу: чем больше нравится, тем выше балл. Для получения социологических выводов необходимо было дать единую оценку привлекательности определенной профессии для совокупности выпускников школ. В качестве такой оценки в работе [1] использовалось среднее арифметическое баллов, выставленных профессии опрошенными школьниками. В частности, физика получила средний балл 7,69, а математика - 7,50. Поскольку 7,69 больше, чем 7,50, был сделан вывод, что физика более предпочтительна для школьников, чем математика.
Однако этот вывод противоречит данным работы [2], согласно которым ленинградские школьники средних классов больше любят математику, чем физику. Обсудим одно из возможных объяснений этого противоречия, которое сводится к указанию на неадекватность (с точки зрения теории измерений) методики обработки эконометрических данных, примененной в работе [1].
Дело в том, что баллы 1,2,...,10 введены конкретными исследователями, т.е. субъективно. Если одна профессия оценена в 10 баллов, а вторая - в 2, то из этого нельзя заключить, что первая ровно в 5 раз привлекательней второй. Другой коллектив социологов мог бы принять иную систему баллов, например 1,4,9,16,...,100. Естественно предположить , что упорядочивание профессий по привлекательности, присущее школьникам, не зависит от того, какой системой баллов им предложит пользоваться маркетолог. Раз так, то распределение профессий по градациям десятибалльной системы не изменится, если перейти к другой системе баллов с помощью любого допустимого преобразования в порядковой шкале (см. главу 3), т.е. с помощью строго возрастающей функции Если , Y1, Y2,...,Yn -ответы n выпускников школ, касающихся математики, а Z1, Z2,...,Zn -физики, то после перехода к новой системе баллов ответы относительно математики будут иметь вид g(Y1), g(Y2),...,g(Yn), а относительно физики - g(Z1), g(Z2),...,g(Zn).
Пусть единая оценка привлекательности профессии вычисляется с помощью функции f(X1, X2,...,Xn). Какие требования естественно наложить на функцию чтобы полученные с ее помощью выводы не зависели от того, какой именно системой баллов пользовался специалист по маркетингу образовательных услуг?
Замечание. Обсуждение можно вести в терминах экспертных оценок. Тогда вместо сравнения математики и физики n экспертов (а не выпускников школ) оценивают по конкурентоспособности на мировом рынке, например, две марки стали. Однако в настоящее время маркетинговые и социологические исследования более привычны, чем экспертные.
Единая оценка вычислялась для того, чтобы сравнивать профессии по привлекательности. Пусть f(X1, X2,...,Xn) - среднее по Коши. Пусть среднее по первой совокупности меньше среднего по второй совокупности:
f(Y1, Y2,...,Yn) < f(Z1, Z2,...,Zn ).
Тогда согласно теории измерений (см. главу 3) необходимо потребовать, чтобы для любого допустимого преобразования g из группы допустимых преобразований в порядковой шкале было справедливо также неравенство
f(g(Y1), g(Y2),...,g(Yn)) < f(g(Z1), g(Z2),...,g(Zn)).
т.е. среднее преобразованных значений из первой совокупности также было меньше среднего преобразованных значений для второй совокупности. Причем сформулированное условие должно быть верно для любых двух совокупностей Y1, Y2,...,Yn и Z1, Z2,...,Zn и, напомним, любого допустимого преобразования. Средние величины, удовлетворяющие сформулированному условию, называют допустимыми (в порядковой шкале). Согласно теории измерений только такими средними можно пользоваться при анализе мнений выпускников школ, экспертов и иных данных, измеренных в порядковой шкале.
Какие единые оценки привлекательности профессий f(X1, X2,...,Xn) устойчивы относительно сравнения? Ответ на этот вопрос дан в главе 3. В частности, оказалось, что средним арифметическим, как в работе [1] новосибирских специалистов по маркетингу образовательных услуг, пользоваться нельзя, а порядковыми статистиками, т.е. членами вариационного ряда (и только ими) - можно.
Методы анализа конкретных экономических данных, измеренных в шкалах, отличных от абсолютной, являются предметом изучения в статистике нечисловых данных как части эконометрики. Как известно, основные шкалы измерения делятся на качественные (шкалы наименований и порядка) и количественные (шкалы интервалов, отношений, разностей, абсолютная). Методы анализа статистических данных в количественных шкалах сравнительно мало отличаются от таковых в абсолютной шкале. Добавляется только требование инвариантности относительно преобразований сдвига и/или масштаба. Методы анализа качественных данных - принципиально иные. О них пойдет речь в настоящей главе.
Напомним, что исходным понятием теории измерений является совокупность допустимых преобразований шкалы (обычно Ф- группа), . Алгоритм обработки данных W, т.е. функция (здесь A-множество возможных результатов работы алгоритма) называется адекватным в шкале с совокупностью допустимых преобразований Ф, если
для всех и всех Таким образом, теорию измерений рассматриваем как теорию инвариантов относительно различных совокупностей допустимых преобразований Ф. Интерес вызывают две задачи:
а) дана группа допустимых преобразований Ф (т.е. задана шкала); какие алгоритмы анализа данных W из определенного класса являются адекватными?
б) дан алгоритм анализа данных W; для каких шкал (т.е. групп допустимых преобразований Ф) он является адекватным?
В главе 3 первая задача рассматривалась для алгоритмов расчета средних величин. Информацию о других результатах решения задач указанных типов можно найти в работах [3-5].
Бинарные отношения. Пусть - адекватный алгоритм в шкале наименований. Можно показать, что этот алгоритм задается некоторой функцией от матрицы где
Если - адекватный алгоритм в шкале порядка, то этот алгоритм задается некоторой функцией от матрицы порядка n n, где
Матрицы B и C можно проинтерпретировать в терминах бинарных отношений. Пусть некоторая характеристика измеряется у n объектов q1,q2,...,qn, причем xi - результат ее измерения у объекта qi Тогда матрицы B и C задают бинарные отношения на множестве объектов Q ={q1,q2,...,qn}. Поскольку бинарное отношение можно рассматривать как подмножество декартова квадрата Q Q, то любой матрице D = ||dij|| порядка n n из 0 и 1 соответствует бинарное отношение R(D), определяемое следующим образом: тогда и только тогда, когда dij = 1.
Бинарное отношение R(B) - отношение эквивалентности, т.е. рефлексивное симметричное транзитивное отношение. Оно задает разбиение Q на классы эквивалентности. Два объекта qi и qj входят в один класс эквивалентности тогда и только тогда, когда
Выше показано, как разбиения возникают в результате измерений в шкале наименований. Разбиения могут появляться и непосредственно. Так, при оценке качества промышленной продукции эксперты дают разбиение показателей качества на группы. Для изучения психологического состояния людей их просят разбить предъявленные рисунки на группы сходных между собой. Аналогичная методика применяется и в иных экспериментальных психологических исследованиях, необходимых для оптимизации управления персоналом.
Во многих эконометрических задачах разбиения получаются "на выходе" (например, в кластер - анализе) или же используются на промежуточных этапах анализа данных (например, сначала проводят классификацию с целью выделения однородных групп, а затем в каждой группе строят регрессионную зависимость).
Бинарное отношение R(С) задает разбиение Q на классы эквивалентности, между которыми введено отношение строгого порядка. Два объекта qi и qj входят в один класс тогда и только тогда, когда cij= 1 и cji= 1, т.е. xi = xj. Класс эквивалентности Q1 предшествует классу эквивалентности Q2 тогда и только тогда, когда для любых имеем cij = 1, cji= 0, т.е. xi < xj. Такое бинарное отношение в статистике часто называют ранжировкой со связями; связанными считаются объекты, входящие в один класс эквивалентности. В литературе встречаются и другие названия: линейный квазипорядок, упорядочение, квазисерия, ранжирование. Если каждый из классов эквивалентности состоит только из одного элемента, то имеем обычную ранжировку (другими словами, линейный порядок).
Как известно, ранжировки возникают в результате измерений в порядковой шкале. Так, при описанном выше опросе ответ выпускника школы - это ранжировка (со связями) профессий по привлекательности. Ранжировки часто возникают и непосредственно, без промежуточного этапа - приписывания объектам квазичисловых оценок - баллов. Многочисленные примеры тому даны М. Кендэлом [6]. При оценке качества промышленной продукции нормативные методические документы предусматривают использование ранжировок.
Для прикладных областей, кроме ранжировок и разбиений, представляют интерес толерантности, т.е. рефлексивные симметричные отношения. Толерантность - математическая модель для выражения представлений о сходстве (похожести, близости). Разбиения - частный вид толерантностей. Толерантность, обладающая свойством транзитивности - это разбиение. Однако в общем случае толерантность не обязана быть транзитивной. Толерантности появляются во многих постановках теории экспертных оценок, например, как результат парных сравнений (см. ниже).
Напомним, что любое бинарное отношение на конечном множестве может быть описано матрицей из 0 и 1.
Дихотомические (бинарные) данные. Это данные, которые могут принимать одно из двух значений (0 или 1), т.е. результаты измерений значений альтернативного признака. Как уже было показано, измерения в шкале наименований и порядковой шкале приводят к бинарным отношениям, а те могут быть выражены как результаты измерений по нескольким альтернативным признакам, соответствующим элементам матриц, описывающих отношения. Дихотомические данные возникают в прикладных исследованиях и многими иными путями.
В настоящее время в большинстве стандартов на конкретную продукцию предусмотрен контроль по альтернативному признаку. Это означает, что единица продукции относится к одной из двух категорий - "годных" или "дефектных", т.е. соответствующих или не соответствующих требованиям стандарта. Отечественными специалистами проведены обширные теоретические исследования проблем статистического приемочного контроля по альтернативному признаку. Основополагающими в этой области являются работы академика А.Н.Колмогорова. Подход советской вероятностно-статистической школы к проблемам контроля качества продукции отражен в монографиях [7,8] (см. также главу 13).
Дихотомические данные - давний объект математической статистики. Особенно большое применение они имеют в экономических и социологических исследованиях, в которых большинство переменных, интересующих специалистов, измеряется по качественным шкалам. При этом дихотомические данные зачастую являются более адекватными, чем результаты измерений по методикам, использующим большее число градаций. В частности, психологические тесты типа MMPI используют только дихотомические данные. На них опираются и популярные в технико-экономическом анализе методы парных сравнений [9].
Элементарным актом в методе парных сравнений является предъявление эксперту для сравнения двух объектов (сравнение может проводиться также прибором). В одних постановках эксперт должен выбрать из двух объектов лучший по качеству, в других - ответить, похожи объекты или нет. В обоих случаях ответ эксперта можно выразить одной из двух цифр (меток)- 0 или 1. В первой постановке: 0, если лучшим объявлен первый объект; 1 - если второй. Во второй постановке: 0, если объекты похожи, схожи, близки; 1 - в противном случае.
Подводя итоги изложенному, можно сказать, что рассмотренные выше данные представимы в виде векторов из 0 и 1 (при этом матрицы, очевидно, могут быть записаны в виде векторов). Поскольку все результаты наблюдений имеют лишь несколько значащих цифр, то, используя двоичную систему счисления, любые виды анализируемых эконометрическими методами данных можно записать в виде векторов из 0 и 1. Представляется, что эта возможность имеет лишь академический интерес, но во всяком случае можно констатировать, что анализ дихотомических данных необходим во многих прикладных постановках.
Множества. Совокупность Xn векторов X = (x1, x2,...,xn) из 0 и 1 размерности n находится во взаимно-однозначном соответствии с совокупностью 2n всех подмножеств множества N = {1, 2, ..., n}. При этом вектору X = (x1, x2,...,xn) соответствует подмножество N(X)N, состоящее из тех и только из тех i, для которых xi = 1. Это объясняет, почему изложение вероятностных и статистических результатов, относящихся к анализу данных, являющихся объектами нечисловой природы перечисленных выше видов, можно вести на языке конечных случайных множеств, как это было сделано в монографии .[3].
Множества как исходные данные появляются и в иных постановках. Из геологических реалий исходил Ж. Матерон, из электротехнических - Н.Н. Ляшенко и др. Случайные множества применялись для описания процесса случайного распространения, например распространения информации, слухов, эпидемии или пожара, а также в математической экономике. В монографии [3] рассмотрены приложения случайных множеств в теории экспертных оценок и в теории управления запасами и ресурсами (логистике).
Отметим, что реальные объекты можно моделировать случайными множествами как из конечного числа элементов, так и из бесконечного, однако при расчетах на ЭВМ неизбежна дискретизация, т.е. переход к первой из названных возможностей.
Нечеткие множества. Пусть A - некоторое множество. Подмножество B множества A характеризуется своей характеристической функцией
(1)
Что такое нечеткое множество? Обычно говорят, что нечеткое подмножество C множества A характеризуется своей функцией принадлежности Если функция принадлежности имеет вид (1) при некотором B, то C есть обычное (четкое) подмножество A.
Обычное подмножество можно было бы отождествить с его характеристической функцией. Этого математики не делают, поскольку для задания функции (в ныне принятом подходе) необходимо сначала задать множество. Нечеткое же подмножество с формальной точки зрения можно отождествить с его функцией принадлежности. Однако термин "нечеткое подмножество" предпочтительнее при построении математических моделей реальных явлений.
Начало современной теории нечеткости положено работой 1965 г. американского ученого азербайджанского происхождения Л.А.Заде. К настоящему времени по этой теории опубликованы тысячи книг и статей, издается несколько международных журналов, выполнено достаточно много как теоретических, так и прикладных работ.
Л.А. Заде рассматривал теорию нечетких множеств как аппарат анализа и моделирования гуманистических систем, т.е. систем, в которых участвует человек. Его подход опирается на предпосылку о том, что элементами мышления человека являются не числа, а элементы некоторых нечетких множеств или классов объектов, для которых переход от "принадлежности" к "непринадлежности" не скачкообразен, а непрерывен. В настоящее время методы теории нечеткости используются почти во всех прикладных областях, в том числе при управлении предприятием, качеством продукции и технологическими процессами.
Л.А. Заде использовал термин "fuzzy set" (нечеткое множество). На русский язык термин "fuzzy" переводили как нечеткий, размытый, расплывчатый, и даже как пушистый и туманный.
Аппарат теории нечеткости громоздок. В качестве примера дадим определения теоретико-множественных операций над нечеткими множествами. Пусть C и D- два нечетких подмножества A с функциями принадлежности и соответственно. Пересечением , произведением CD, объединением , отрицанием , суммой C+D называются нечеткие подмножества A с функциями принадлежности
соответственно.
Теория нечетких множеств в определенном смысле сводится к теории вероятностей, а именно, к теории случайных множеств. Соответствующий цикл теорем приведен в книгах [3,10]. Однако при решении прикладных задач вероятностно-статистические методы и методы теории нечеткости обычно рассматриваются как различные.
Объекты нечисловой природы как статистические данные. В эконометрике и прикладной математической статистике наиболее распространенный объект изучения - выборка x1, x2,...,xn, т.е. совокупность результатов n наблюдений. В различных областях статистики результат наблюдения - это или число, или конечномерный вектор, или функция... Соответственно проводится деление прикладной математической статистики: одномерная статистика, многомерный статистический анализ, статистика временных рядов и случайных процессов... В статистике нечисловых данных в качестве результатов наблюдений рассматриваются объекты нечисловой природы, в частности, перечисленных выше видов - измерения в шкалах, отличных от абсолютной, бинарные отношения, вектора из 0 и 1, множества, нечеткие множества. Выборка может состоять из n ранжировок или n толерантностей, или n множеств, или n нечетких множеств и т.д.
Отметим необходимость развития методов статистической обработка "разнотипных данных", обусловленную большой ролью в прикладных исследованиях "признаков смешанной природы". Речь идет о том, что результат наблюдения состояния объекта зачастую представляет собой вектор, у которого часть координат измерена по шкале наименований, часть - по порядковой шкале, часть - по шкале интервалов и т.д. Статистические методы ориентированы обычно либо на абсолютную шкалу, либо на шкалу наименований (анализ таблиц сопряженности), а потому зачастую непригодны для обработки разнотипных данных. Есть и более сложные модели разнотипных данных, например, когда некоторые координаты вектора наблюдений описываются нечеткими множествами.
Для обозначения подобных неклассических результатов наблюдений в 1979 г. в монографии [3] предложен собирательный термин - объекты нечисловой природы. Термин "нечисловой" означает, что структура пространства, в котором лежат результаты наблюдений, не является структурой действительных чисел, векторов или функций, она вообще не является структурой линейного (векторного) пространства. При расчетах объекты числовой природы, разумеется, изображаются с помощью чисел, но эти числа нельзя складывать и умножать.
С целью "стандартизации математических орудий" целесообразно разрабатывать методы статистического анализа данных, пригодные одновременно для всех перечисленных выше видов результатов наблюдений. Кроме того, в процессе развития прикладных исследований выявляется необходимость использования новых видов объектов нечисловой природы, отличных от рассмотренных выше, например, в связи с развитием статистических методов обработки текстовой информации. Поэтому целесообразно ввести еще один вид объектов нечисловой природы - объекты произвольной природы, т.е. элементы множества, на которые не наложено никаких условий (кроме "условий регулярности", необходимых для справедливости доказываемых теорем). Другими словами, в этом случае предполагается, что результаты наблюдений (элементы выборки) лежат в произвольном пространстве X. Для получения теорем необходимо потребовать, чтобы X удовлетворяло некоторым условиям, например, было так называемым топологическим пространством. Как известно, ряд результатов классической математической статистики получен именно в такой постановке. Так, при изучении оценок максимального правдоподобия элементы выборки могут лежать в пространстве произвольной природы. Это не влияет на рассуждения, поскольку в них рассматривается лишь зависимость плотности вероятности от параметра. Методы классификации, использующие лишь расстояние между классифицируемыми объектами, могут применяться к совокупностям объектов произвольной природы, лишь бы в пространстве, где они лежат, была задана метрика. Цель статистики нечисловых данных (в некоторых литературных источниках используется термин "статистика объектов нечисловой природы") состоит в том, чтобы систематически рассматривать методы статистической обработки данных как произвольной природы, так и относящихся к указанным выше конкретным видам объектов нечисловой природы, т.е. методы описания данных, оценивания и проверки гипотез. Взгляд с общей точки зрения позволяет получить новые результаты и в других областях эконометрики.
Использование объектов нечисловой природы при формировании математической модели реального явления. Использование объектов нечисловой природы часто порождено желанием обрабатывать более объективную, более освобожденную от погрешностей информацию. Как показали многочисленные опыты, человек более правильно (и с меньшими затруднениями) отвечает на вопросы качественного например, сравнительного, характера, чем количественного. Так, ему легче сказать, какая из двух гирь тяжелее, чем указать их примерный вес в граммах. Другими словами, использование объектов нечисловой природы - средство повысить устойчивость эконометрических и экономико-математических моделей реальных явлений. Сначала конкретные области статистики объектов нечисловой природы (а именно, прикладная теория измерений, нечеткие и случайные множества) были рассмотрены в монографии [3] как частные постановки проблемы устойчивости математических моделей социально-экономических явлений и процессов к допустимым отклонениям исходных данных и предпосылок модели, а затем была понята необходимость проведения работ по развитию статистики объектов нечисловой природы как самостоятельного научного направления.
Начнем со шкал измерения. Науку о единстве мер и точности измерений называют метрологией. Таким образом, репрезентативная теория измерений - часть метрологии. Методы обработки данных должны быть адекватны относительно допустимых преобразований шкал измерения в смысле репрезентативной теории измерений. Однако установление типа шкалы, т.е. задание группы преобразований - дело специалиста соответствующей прикладной области. Так, оценки привлекательности профессий мы считали измеренными в порядковой шкале. Однако отдельные социологи не соглашались с этим, считая, что выпускники школ пользуются шкалой с более узкой группой допустимых преобразований, например, интервальной шкалой. Очевидно, эта проблема относится не к математике, а к наукам о человеке. Для ее решения может быть поставлен достаточно трудоемкий эксперимент. Пока же он не поставлен, целесообразно принимать порядковую шкалу, так как это гарантирует от возможных ошибок.
Порядковые шкалы широко распространены не только в социально-экономических исследованиях. Они применяются в медицине - шкала стадий гипертонической болезни по Мясникову, шкала степеней сердечной недостаточности по Стражеско-Василенко-Лангу, шкала степени выраженности коронарной недостаточности по Фогельсону; в минералогии - шкала Мооса (тальк - 1, гипс - 2, кальций - 3, флюорит - 4, апатит - 5, ортоклаз - 6, кварц - 7, топаз - 8, корунд - 9, алмаз - 10), по которому минералы классифицируются согласно критерию твердости; в географии - бофортова шкала ветров ("штиль", "слабый ветер", "умеренный ветер" и др.) и т.д. Напомним, что по шкале интервалов измеряют величину потенциальной энергии или координату точки на прямой, на которой не отмечены ни начало, ни единица измерения; по шкале отношений - большинство физических единиц: массу тела, длину, заряд, а также цены в экономике. Время измеряется по шкале разностей, если год принимаем естественной единицей измерения, и по шкале интервалов в общем случае. В процессе развития соответствующей области знания тип шкалы может меняться. Так, сначала температура измерялась по порядковой шкале (холоднее - теплее), затем - по интервальной (шкалы Цельсия, Фаренгейта, Реомюра) и, наконец, после открытия абсолютного нуля температур - по шкале отношений (шкала Кельвина). Следует отметить, что среди специалистов иногда имеются разногласия по поводу того, по каким шкалам следует считать измеренными те или иные реальные величины.
Отметим, что термин "репрезентативная" использовался, чтобы отличить рассматриваемый подход к теории измерений от классической метрологии, а также от работ А.Н.Колмогорова и А. Лебега, связанных с измерением геометрических величин, от "алгоритмической теории измерения" и др.
Необходимость использования в математических моделях реальных явлений таких объектов нечисловой природы, как бинарные отношения, множества, нечеткие множества, кратко была показана выше. Здесь же обратим внимание, что используемые в классической статистике результаты наблюдений также "не совсем числа". А именно, любая величина X измеряется всегда с некоторой погрешностью и результатом наблюдения является
Как уже отмечалось, погрешностями измерений занимается метрология. Отметим справедливость следующих фактов:
а) для большинства реальных измерений невозможно полностью исключить систематическую ошибку, т.е.
б) распределение в подавляющем большинстве случаев не является нормальным (см. главу 4);
в) измеряемую величину X и погрешность ее измерения обычно нельзя считать независимыми случайными величинами;
г) распределение погрешностей оценивается по результатам специальных наблюдений, следовательно, полностью известным считать его нельзя; зачастую исследователь располагает лишь границами для систематической погрешности и оценками таких характеристик для случайной погрешности, как дисперсия или размах.
Приведенные факты показывают ограниченность области применимости распространенной модели погрешностей, в которой X и рассматриваются как независимые случайные величины, причем имеет нормальное распределение с нулевым математическим ожиданием.
Строго говоря, результаты наблюдения всегда имеют дискретное распределение, поскольку описываются числами с небольшими (1 - 5) числом значащих цифр. Возникает дилемма: либо признать, что непрерывные распределения - фикция, и прекратить ими пользоваться, либо считать, что непрерывные распределения имеют "реальные" величины X, которые мы наблюдаем с принципиально неустранимой погрешностью . Первый выход в настоящее время нецелесообразен, так как потребует отказаться от большей части разработанного математического аппарата. Из второго следует необходимость изучения влияния неустранимых погрешностей на статистические выводы.
Погрешности можно учитывать либо с помощью вероятностной модели (- случайная величина, имеющая функцию распределения, вообще говоря, зависящую от X), либо с помощью нечетких множеств. Во втором случае приходим к теории нечетких чисел и к ее частному случаю - статистике интервальных данных (см. главу 9).
Другой источник появления погрешности связан с принятой в конструкторской и технологической документации системой допусков на контролируемые параметры изделий и деталей, с использованием шаблонов при проверке контроля качества продукции. В этих случаях характеристики определяются не свойствами средств измерения, а применяемой технологией проектирования и производства. В терминах математической статистики сказанному соответствует группировка данных, при которой мы знаем, какому из заданных интервалов принадлежит наблюдение, но не знаем точного значения результата наблюдения. Применение группировки может дать экономический эффект, поскольку зачастую легче (в среднем) установить, к какому интервалу относится результат наблюдения, чем точно измерить его.
Объекты нечисловой природы как результат статистической обработки данных. Объекты нечисловой природы появляются не только на "входе" статистической процедуры, но и в процессе обработки данных, и на "выходе" в качестве итога статистического анализа.
Рассмотрим простейшую прикладную постановку задачи регрессии (см. также главу 5). Исходные данные имеют вид . Цель состоит в том, чтобы с достаточной точностью описать y как полином от x, т.е. модель имеет вид
(2)
где m - неизвестная степень полинома; - неизвестные коэффициенты многочлена; , - погрешности, которые для простоты примем независимыми и имеющими одно и то же нормальное распределение. (Здесь наглядно проявляется одна из причин живучести модель на основе нормального распределения. Такие модели, хотя и неадекватны реальной ситуации, с математической точки зрения позволяет проникнуть глубже в суть изучаемого явления. Поэтому они пригодны для первоначального анализа ситуации, как и в рассматриваемом случае. Дальнейшие научные исследования должны быть направлены на снятие нереалистического предположения нормальности и перехода к непараметрическим моделям погрешности.) Распространенная процедура такова: сначала пытаются применить модель (2) для линейной функции (m = 1), при неудаче (неадекватности модели) переходят к многочлену второго порядка (m = 2), если снова неудача, то берут модель (2) с m= 3 и т.д. (адекватность модели проверяют по F-критерию Фишера).
Обсудим свойства этой процедуры в терминах математической статистики. Если степень полинома задана (m = m0), то его коэффициенты оценивают методом наименьших квадратов, свойства этих оценок хорошо известны (см., например, главу 5 или монографию [10, гл.26]). Однако в описанной выше реальной постановке m тоже является неизвестным параметром и подлежит оценке. Таким образом, требуется оценить объект (m, a0, a1, a2, ..., am), множество значений которого можно описать как Это - объект нечисловой природы, обычные методы оценивания для него неприменимы, так как m - дискретный параметр. В рассматриваемой постановке разработанные к настоящему времени методы оценивания степени полинома носят в основном эвристический характер (см., например, гл. 12 монографии [11]). Свойства описанной выше распространенной процедуры рассмотрены в главе 5; где показано, что m при этом оценивается несостоятельно, и найдено предельное распределение оценки этого параметра, оказавшееся геометрическим.
В более общем случае линейной регрессии данные имеют вид где - вектор предикторов (факторов, объясняющих переменных), а модель такова:
(3)
(здесь K - некоторое подмножество множества {1,2,...,n}; - те же, что и в модели (2); aj - неизвестные коэффициенты при предикторах с номерами из K). Модель (2) сводится к модели (3), если
В модели (2) есть естественный порядок ввода предикторов в рассмотрение - в соответствии с возрастанием степени, а в модели (3) естественного порядка нет, поэтому здесь стоит произвольное подмножество множества предикторов. Есть только частичный порядок - чем мощность подмножества меньше, тем лучше. Модель (3) особенно актуальна в задачах управления качеством продукции и других технико-экономических исследованиях, в экономике, маркетинге и социологии, когда из большого числа факторов, предположительно влияющих на изучаемую переменную, надо отобрать по возможности наименьшее число значимых факторов и с их помощью сконструировать прогнозирующую формулу (3).
Задача оценивания модели (3) разбивается на две последовательные задачи: оценивание множества K - подмножества множества всех предикторов, а затем - неизвестных параметров aj. Методы решения второй задачи хорошо известны и подробно изучены. Гораздо хуже обстоит дело с оцениванием объекта нечисловой природы K. Как уже отмечалось, существующие методы - в основном эвристические, они зачастую не являются даже состоятельными. Даже само понятие состоятельности в данном случае требует специального определения. Пусть K0 - истинное подмножество предикторов, т.е. подмножество, для которого справедлива модель (3), а подмножество предикторов Kn - его оценка. Оценка Kn называется состоятельной, если
где - символ симметрической разности множеств; Card(K) означает число элементов в множестве K, а предел понимается в смысле сходимости по вероятности.
Задача оценивания в моделях регрессии, таким образом, разбивается на две - оценивание структуры модели и оценивание параметров при заданной структуре. В модели (2) структура описывается неотрицательным целым числом m, в модели (3) - множеством K. Структура - объект нечисловой природы. Задача ее оценивания сложна, в то время как задача оценивания численных параметров при заданной структуре хорошо изучена, разработаны эффективные (в смысле математической статистики) методы.
Такова же ситуация и в других методах многомерного статистического анализа - в факторном анализе (включая метод главных компонент) и в многомерном шкалировании. Ряд иных примеров можно найти в списке оптимизационных постановок основных проблем прикладного многомерного статистического анализа, приведенном в монографии [12].
Перейдем к объектам нечисловой природы на "выходе" статистической процедуры. Примеры многочисленны. Разбиения - итог работы многих алгоритмов классификации, в частности, алгоритмов кластер-анализа. Ранжировки - результат упорядочения профессий по привлекательности или автоматизированной обработки мнений экспертов - членов комиссии по подведению итогов конкурса научных работ. (В последнем случае используются ранжировки со связями; так, в одну группу, наиболее многочисленную, попадают работы, не получившие наград.) Из всех объектов нечисловой природы, видимо, наиболее часты на "выходе" дихотомические данные - принять или не принять гипотезу, в частности, принять или забраковать партию продукции. Результатом статистической обработка данных может быть множество, например зона наибольшего поражения при аварии, или последовательность множеств, например, "среднемерное" описание распространения пожара (см. главу 4 в монографии [3]). Нечетким множеством Э. Борель [13] еще в начале ХХ в. предлагал описывать представление людей о числе зерен, образующем "кучу". С помощью нечетких множеств формализуются значения лингвистических переменных, выступающих как итоговая оценка качества систем автоматизированного проектирования, сельскохозяйственных машин, бытовых газовых плит, надежности программного обеспечения или систем управления. Можно констатировать, что все виды объектов нечисловой природы могут появляться " на выходе" статистического исследования.
8.2. Вероятностные модели конкретных видов объектов нечисловой природы
В настоящем пункте рассмотрены основные вероятностные модели объектов нечисловой природы: дихотомических данных, результатов парных сравнений, бинарных отношений, рангов, объектов общей природы. Обсуждаются различные варианты вероятностных моделей, приведены краткие сведения об их практическом использовании (см. также обзор [14]).
Дихотомические данные. Рассмотрим базовую вероятностную модель дихотомических данных - бернуллиевский вектор (в терминологии энциклопедии [15] - люсиан), т.е. конечную последовательность независимых испытаний Бернулли , для которых и причем вероятности pi могут быть различны.
Бернуллиевские вектора часто применяются при практическом использовании эконометрических методов. Так, они использованы в монографии [3] для описания равномерно распределенных случайных толерантностей. Как известно, толерантность на множестве из m элементов можно задать симметричной матрицей |||| из 0 и 1, на главной диагонали которой стоят 1. Тогда случайная толерантность описывается распределением m(m-1)/2 дихотомических случайных величин а для равномерно распределенной (на множестве всех толерантностей) толерантности эти случайные величины, как можно доказать, оказываются независимыми и принимают значения 0 и 1 с равными вероятностями 1/2. Записав элементы задающей такую толерантность матрицы в строку, получим бернуллиевский вектор с k=m(m-1)/2 и pi = 1/2,
В связи с оцениванием по статистическим данным функции принадлежности нечеткой толерантности в 1970-е годы была построена теория случайных толерантностей с такими независимыми что вероятности произвольны (см. об этом монографию [3]).
Случайные множества с независимыми элементами использовались как общий язык для описания парных сравнений и случайных толерантностей. В статьях [16] и [17] термин "люсиан" применялся как сокращение для выражения "случайные множества с независимыми элементами". В работе [18], являющейся продолжением [17] и содержащей описание расчетных методов, вытекающих из результатов [17], этот термин не употреблялся вообще, хотя указанный объект (т.е. бернуллиевский вектор) был основным предметом изучения. Это объясняется тем, что изложение в работе [18] шло на языке обработки результатов парных сравнений, которые для прикладника никак не связаны с множествами.
В дальнейшем был выявлен ещё ряд областей, в которых может оказаться полезным разработанный математический аппарат решения различных эконометрических задач, связанных с бернуллиевскими векторами. Перечислим эти области, включая ранее названные: анализ случайных толерантностей; случайные множества с независимыми элементами; обработка результатов независимых парных сравнений; статистические методы анализа точности и стабильности технологического процесса, а также анализ и синтез планов статистического приемочного контроля (по альтернативным, т.е. дихотомическим, признакам); обработка маркетинговых и социологических анкет (с закрытыми вопросами типа "да"-"нет"); обработка социально-психологических и медицинских данных, в частности, ответов на психологические тесты типа MMPI (используемых в задачах управления персоналом), топографических карт (применяемых для анализа и прогноза зон поражения при технологических авариях, распространении коррозии, распространении экологически вредных загрязнений в других ситуациях) и т.д.
Теорию бернуллиевских векторов можно выразить в терминах любой из этих теоретических и прикладных областей. Однако терминология одной из этих областей "режет слух" и приводит к недоразумениям в другой из них. Поэтому мы считаем целесообразным использовать термины "бернуллиевский вектор" в указанном выше значении, не связанном ни с какой из перечисленных областей приложения этой теории (в ряде публикаций в том же значении использовался термин "люсиан").
Распределение бернуллиевского вектора Х полностью описывается вектором ,т.е. нечетким подмножеством множества {1,2,...,k}. Действительно, для любого детерминированного вектора из 0 и 1 имеем
где h(x,p)=p при х=1 и h(х,р)=1-р при х=0.
Теперь можно уточнить способы использования люсианов при эконометрическом моделировании. Бернуллиевскими векторами можно моделировать: результаты статистического контроля (0-годное изделие, 1-дефектное); результаты маркетинговых и социологических опросов (0-опрашиваемый выбрал первую из двух подсказок, 1-вторую); распределение посторонних включений в материале (0 - нет включения в определенном объеме материала, 1 - есть); результаты испытаний и анализов (0 - нет нарушений требований нормативно-технической документации, 1 - есть такие нарушения); процессы распространения, например, пожаров (0 - нет загорания, 1 - есть; подробнее см. [3, с.215-223]); технологические процессы (0 - процесс находится в границах допуска,1 - вышел из них); ответы экспертов (опрашиваемых) о сходстве объектов (проектов, образцов) и т.д.
Парные сравнения. Общую модель парных сравнений опишем согласно монографии Г. Дэвида [9, с.9]. Предположим, что t объектов сравниваются попарно каждым из n экспертов. Всего возможных пар для сравнения имеется Эксперт с номером делает повторных сравнений для каждой из s возможностей. Пусть i,j=1,2,...,t, =1,2,...,n; =1,2,..., -случайная величина, принимающая значение 1 или 0 в зависимости от того, предпочитает ли эксперт объект Ai или объект Aj в -м сравнении двух объектов. Предполагается, что все сравнения проводятся независимо друг от друга, так что случайные величины независимы в совокупности, если не считать того, что Положим
Ясно, что описанная эконометрическая модель парных сравнений представляет собой частный случай бернуллиевского вектора. В этой модели число наблюдений равно числу неизвестных параметров, поэтому для получения статистических выводов необходимо положить априорные условия на , например [9, c.9]:
(нет эффекта от повторений);
(нет эффекта от повторений и от экспертов).
Теорию независимых парных сравнений целесообразно разделить на две части - непараметрическую, в которой статистические задачи ставятся непосредственно в терминах , и параметрическую, в которой вероятности выражаются через меньшее число иных параметров. Ряд результатов непараметрической теории парных сравнений непосредственно вытекает из теории бернуллиевских векторов.
В параметрической теории парных сравнений наиболее популярна так называемая линейная модель [9, c.11], в которой предполагается , что каждому объекту Ai можно сопоставить некоторую "ценность" Vi так, что вероятность предпочтения (т.е. предполагается дополнительно, что эффект от повторений и от экспертов отсутствует ) выражается следующим образом:
(1)
где H(x) - функция распределения, симметричная относительно 0, т.е.
(2)
при всех x.
Широко применяются модели Терстоуна - Мостеллера и Брэдли - Терри , в которых H(х) - соответственно функции нормального и логистического распределений. Поскольку функция Ф(х) стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1 и функция
стандартного логистического распределения удовлетворяют (см., например, [19]) соотношению
то для обоснованного выбора по статистическим данным между моделями Терстоуна-Мостеллера и Брэдли-Терри необходимо не менее тысячи наблюдений (ср. п.4.2 выше).
Соотношение (1) вытекает из следующей модели поведения эксперта: он измерят "ценность" Vi и Vj объектов Ai и Aj, но с ошибками и соответственно, а затем сравнивает свои оценки ценности объектов и Если то он предпочитает Ai, в противном случае - Aj. Тогда
(3)
Обычно предполагают, что субъективные ошибки эксперта и независимы и имеют одно и то же непрерывное распределение. Тогда функция распределения Н(х) из соотношения (3) непрерывна и удовлетворяет функциональному уравнению (2).
Существует много разновидностей моделей парных сравнений, постоянно предполагаются новые. В качестве примера опишем модель парных сравнений, основанную не на процедуре упорядочения, а на определении сходства объектов. Пусть каждому объекту Ai соответствует точка ai в r-мерном евклидовом пространстве Rr. Эксперт "измеряет" ai и aj с ошибками и соответственно и в случае, если евклидово расстояние между и меньше 1, заявляет о сходстве объектов Ai и Aj, в противном случае - об их различии. Предполагается, что ошибки и независимы и имеют одно и то же распределение, например, круговое нормальное распределение с нулевым математическим ожиданием и дисперсией координат . Целью статистической обработки является определение по результатам парных сравнений оценок параметров a1, a2,...,ar, и , а также проверка согласия опытных данных с моделью.
Рассмотренные модели парных сравнений могут быть обобщены в различных направлениях. Так, можно ввести понятие "ничья "- ситуации, когда эксперт оценивает объекты одинаково. Модели с учетом "ничьих" предполагают, что эксперт может отказаться от выбора одного из объектов и заявить об их эквивалентности, т. е. число возможных ответов увеличивается с 2 до 3. В моделях множественных сравнений эксперту представляется не два объекта , а три или большее число
Модели, учитывающие "ничьи", строятся обычно с помощью используемых в психофизике "порогов чувствительности": если (где r- порог чувствительности), то объекты Ai и Aj эксперт объявляет неразличимыми. Приведем пример модели с "ничьими", основанной на другом принципе. Пусть каждому объекту Ai соответствует точка ai в r-мерном линейном пространстве. Как и прежде , эксперт "измеряет " объектные точки " ai и aj с ошибками и соответственно, т.е. принимает решение на основе yi = и yj = . Если все координаты yi больше соответствующих координат yj , то Ai предпочитается Aj. Соответственно, если каждая координата yi меньше координаты yj с тем же номером , то эксперт считает наилучшим объект Aj. Во всех остальных случаях эксперт объявляет о ничейной ситуации. Эта модель при r=1 переходит в описанную выше линейную модель. Она связана с принципом Парето в теории группового выбора и предусматривает выбор оптимального по Парето объекта, если он существует (роль согласуемых критериев играют процедуры сравнения значений отдельных координат), и отказ от выбора, если такого объекта нет.
Можно строить модели, учитывающие порядок предъявления объектов при сравнении, зависимость результата сравнения от результатов предшествующих сравнений. Опишем одну из подобных моделей.
Пусть эксперт сравнивает три объекта - A, B, C, причем сначала сравниваются A и B, потом - B и C и, наконец, A и C. Для определенности пусть A>B будет означать, что A более предпочтителен, чем B. Пусть при предъявлении двух объектов
Теперь пусть пара B, C предъявляется после пары A, B. Естественно предположить, что высокая оценка B в первом сравнении повышает вероятность предпочтения B и во втором, и, наоборот, отрицательное мнение о B в первом сравнении сохраняется и при проведении второго сравнения. Это предположение проще всего учесть в модели следующим образом:
где - некоторое положительное число, показывающее степень влияния первого сравнения на второе. По аналогичным причинам вероятности исхода третьего сравнения в зависимости от результатов первых двух можно описать так:
Статистическая задача состоит в определении параметров и по результатам сравнений, проведенных n экспертами, и в проверке адекватности модели.
Ясно, что можно рассматривать и другие модели, в частности, учитывающие тягу экспертов к транзитивности ответов. Очевидно, что проблемы построения моделей парных сравнений относятся не к эконометрической теории, а к тем прикладным областям, для решения задач которых развиваются методы парных сравнений, например, к экономике предприятия, стратегическому менеджменту, производственной психологии, изучению поведения потребителей, экспертным оценкам и т. д.
Метод парных сравнений был введен в 1860 г. Г. Т. Фехнером для решения задач психофизики. Расскажем об этом несколько подробнее. Как известно, основателем психофизики по праву считается Густав Теодор Фехнер (1801 - 1887), а год выхода в свет его фундаментальной работы "Элементы психофизики"(1860) - датой рождения новой науки; в этой работе широко применялся предложенный Г.Т. Фехнером метод парных сравнений (обсуждение событий тех лет с современных позиций дано в монографии [9, c.14-16]).
С точки зрения математической статистики приведенные выше модели не представляют большого теоретического интереса: оценки параметров находятся обычно методом максимального правдоподобия, а проверка согласия проводится по критерию отношения правдоподобия или асимптотически эквивалентными ему критериями типа хи-квадрат [9]. Вычислительные процедуры обычно сложны и плохо исследованы; их можно упростить и одновременно повысить обоснованность, перейдя от оценок максимального правдоподобия к одношаговым оценкам [20].
Отметим некоторые сложности при обосновании возможности использовании линейных моделей типа (1) - (3). Эконометрическая теория достаточно проста, когда предполагается , что каждому отдельному сравнению двух объектов соответствуют свои собственные ошибки экспертов, причем все ошибки независимы в совокупности. Однако это предположение отнюдь не очевидно с содержательной точки зрения. В качестве примера рассмотрим три объекта A, B и C, которые сравнивают попарно: A и B, B и C, A и C. В соответствии со сказанным, в рассмотрение вводят 6 ошибок одного и того же эксперта: и в первом сравнении, и -во втором, и - в третьем, причем все эти 6 случайных величин независимы в совокупности. Между тем естественно думать, что мнения эксперта об одном и том же объекте связаны между собой, т. е. и зависимы, равно как и , а также и . Более того, если принять, что точка зрения эксперта полностью определена для него самого, то следует положить = и соответственно = и =. При этом, напомним, случайные величины, и др. интерпретируется как отклонения мнений отдельных экспертов от истины. Видимо, ошибку эксперта целесообразно считать состоящей из двух слагаемых, а именно: отклонения от истины, вызванного внутренними особенностями эксперта (систематическая погрешность) и колебания мнения эксперта в связи с очередным парным сравнением (случайная погрешность). Игнорирование систематической погрешности облегчает развитие математико-статистической теории, а ее учет приводит к необходимости изучения зависимых парных сравнений.
При обработке результатов парных сравнений первый этап - проверка согласованности. Понятие согласованности уточняется различными способами, но все они имеют один и тот же смысл проверки однородности обрабатываемого материала, т.е. того, что целесообразно агрегировать мнения отдельных экспертов, объединить данные и совместно их обрабатывать. При отсутствии однородности данные разбиваются на группы (классы, кластеры, таксоны) с целью обеспечения однородности внутри отдельных групп. Естественно, согласованность целесообразно проверять, вводя возможно меньше гипотез о структуре данных. Следовательно, целесообразно пользоваться для этого непараметрической теорией парных сравнений, основанной на теории бернуллиевских векторов.
Хорошо известно, что модели парных сравнений можно с успехом применять в экспертных и экспериментальных процедурах упорядочивания и выбора, в частности, для анализа голосований, турниров, выбора наилучшего объекта (проекта, образца, кандидатуры); в планировании и анализе сравнительных экспериментов и испытаний; в органолептической экспертизе (в частности, дегустации); при изучении поведения потребителей; визуальной колоритмии, определении индивидуальных рейтингов и вообще изучении предпочтений при выборе и т. д. (подробнее см. [3,9]).
Бинарные отношения. Теорию ранговой корреляции [6, 21] можно рассматривать как теорию статистического анализа случайных ранжировок, равномерно распределенных на множестве всех ранжировок. Так, при обработке данных классического психофизического эксперимента по упорядочению кубиков соответственно их весу, подробно описанного в работе [22], оказалась адекватной следующая т.н. Т-модель ранжирования.
Пусть имеется t объектов причем каждому объекту соответствует число ai, описывающее его положение на шкале изучаемого признака. Испытуемый упорядочивает объекты так, как если бы оценивал соответствующие им значения с ошибками, т.е. находил i=1,2,...n, где - ошибка при рассмотрении i-го объекта, а затем располагал бы объекты в том порядке, в каком располагаются В этом случае вероятность появления упорядочения есть а ранги объектов являются рангами случайных величин , полученных при их упорядочении в порядке возрастания. Кроме того, для простоты расчетов в модели предполагается, что ошибки испытуемого независимы и имеют нормальное распределение с математическим ожиданием 0 и дисперсией . Как уже отмечалось, бинарное отношение на множестве из t элементов полностью описывается матрицей из 0 и 1 порядка . Поэтому задать распределение случайного бинарного отношения - это то же самое, что задать распределение вероятностей на множестве всех матриц описанного вида, состоящем из элементов. Пространства ранжировок, разбиений, толерантностей зачастую удобно считать подпространствами пространства всех бинарных отношений, тогда распределения вероятностей на них - частные случаи описанного выше распределения, выделенные тем, что вероятности принадлежности соответствующим подпространствам равны 1. Распределение произвольного бинарного отношения описывается -1 параметрами, распределение случайной ранжировки (без связей) - (t!-1) параметрами, а описанная выше T-модель ранжирования - (t+1) параметром. При t=4 эти числа равны соответственно 65535, 23 и 5. Первое из этих чисел показывает практическую невозможность использования в эконометрических моделях произвольных бинарных отношений, поскольку по имеющимся данным невозможно оценить столь большое число параметров. Приходится ограничиваться теми или иными семействами бинарных отношений - ранжировками, разбиениями, толерантностями и др. Модель произвольной случайной ранжировки при t=5 описывается 119 параметрами, при t=6 - уже 719 параметрами, при t=7 число параметром достигает 5049, что уже явно за возможностями оценивания. В то же время T-модель ранжирования при t=7 описывается всего 8-ю параметрами, а потому она практически пригодна.
Что естественно предположить относительно распределения случайного элемента со значениями в том или ином пространстве бинарных отношений? Зачастую целесообразно считать, что распределение имеет некий центр, попадание в который наиболее вероятно, а по мере удаления от центра вероятности убывают. Это соответствует естественной модели измерения с ошибкой; в классическом одномерном случае результат подобного измерения описывается унимодальной симметричной плотностью, монотонно возрастающей слева от модального значения, в котором плотность максимальна, и монотонно убывающей справа от него. Чтобы ввести понятие монотонного распределения в пространстве бинарных отношений, будем исходить из метрики в этом пространстве. Воспользовавшись тем, что бинарные отношения C и D однозначно описываются матрицами и порядка соответственно, рассмотрим расстояние (в несколько другой терминологии - метрику) в пространстве бинарных отношений
(4)
Метрика (4) в различных пространствах бинарных отношений - ранжировок, разбиений, толерантностей - может быть введена с помощью соответствующих систем аксиом. В работах [3, 23] дан обзор аксиоматическим подходам к получению метрики (4) в различных пространствах объектов нечисловой природы. В настоящее время метрику (4) обычно называют расстоянием Кемени в честь американского исследователя Джона Кемени, впервые получившего эту метрику исходя из предложенной им системы аксиом для расстояния между упорядочениями (ранжировками). Этой тематике посвящена первая глава учебника [24], на английском языке выпущенном под названием "Математические методы в социальных науках".
В статистике нечисловых данных используются и иные метрики, отличающиеся от расстояния Кемени. Более того, для использования понятия монотонного распределения, о котором сейчас идет речь, нет необходимости требовать выполнения неравенства треугольника, а достаточно, чтобы d(C,D) можно было рассматривать как показатель различия. Под показателем различия понимаем такую функцию d(C,D) двух бинарных отношений C и D, что d(C,D)=0 при C=D и увеличение d(C,D) интерпретируется как возрастание различия между C и D.
Определение 1. Распределение бинарного отношения X называется монотонным относительно расстояния (показателя различия) d с центром в C0, если из d(C,C0)
Это определение впервые введено в монографии [3, c.196]. Оно может использоваться в любых пространствах бинарных отношений и, более того, в любых пространствах из конечного числа элементов, лишь бы в них была введена функция d(C,D) - показатель различия элементов С и D этого пространства. Монотонное распределение унимодально, мода находится в С0.
Определение 2. Распределение бинарного отношения X называется симметричным относительно расстояния d с центром в C0, если существует такая функция что
(5)
Если распределение X монотонно и таково, что из d(C,C0) = d(D,C0) следует P(X=C) = P(X=D), то оно симметрично. Если функция f в формуле (5) монотонно строго убывает, то соответствующее распределение монотонно в смысле определения 1.
Поскольку толерантность на множестве из t элементов задается 0,5t(t-1) элементами матрицы из 0 и 1 порядка , лежащими выше главной диагонали, то распределение на множестве толерантностей задается в общем случае параметрами. Естественно выделить семейство распределений, соответствующее независимым элементам матрицы. Оно задается бернуллиевским вектором (люсианом) с 0,5t(t-1) параметрами ( выше бернуллиевские вектора рассмотрены подробнее). Математическая техника, необходимая для изучения толерантностей с независимыми элементами, существенно проще, чем в случае ранжировок и разбиений. Здесь легко отказаться от условия равномерности распределения. Этому условию соответствует pij = 1/2, в то время как статистические методы анализа люсианов, развитые в статистике нечисловых данных (см., например, работы [3,17, 18]) не налагают никаких существенных ограничений на pij .
Как уже отмечалось, при обработке мнений экспертов сначала проверяют согласованность. В частности, если мнения экспертов описываются монотонными распределениями, то для согласованности необходимо совпадение центров этих распределений. К сожалению, рассмотренные выше классические методы проверки согласованности для ранжировок, основанные на коэффициентах ранговой корреляции и конкордации, позволяют лишь отвергнуть гипотезу о равнораспределенности, но не установить, можно ли считать, что центры соответствующих экспертам распределений совпадают или же, например, существует две группы экспертов, каждая со своим центром. Теория случайных толерантностей лишена этого недостатка. Отсюда вытекают следующие практические рекомендации.
Пусть цель обработки экспертных данных состоит в получении ранжировки, отражающей групповое мнение. Однако согласно рекомендуемой процедуре экспертного опроса пусть эксперты не упорядочивают объекты, а проводят парные сравнения, сравнивая каждый из рассматриваемых объектов со всеми остальными, причем ровно один раз. Когда ответ эксперта - толерантность, но, вообще говоря, не ранжировка, поскольку в ответах эксперта может нарушаться транзитивность.
Возможны два пути обработки данных. Первый - превратить ответ эксперта в ранжировку (тем или иным способом "спроектировав" на пространство ранжировок), а затем проверять согласованность ранжировок с помощью известных критериев. При этом от толерантности перейти к ранжировке можно, например, так. Будем выбирать ближайшую (в смысле применяемого расстояния) матрицу к матрице ответов эксперта из всех, соответствующих ранжировкам без связей.
Второй путь - проверить согласованность случайных толерантностей, а групповое мнение искать с помощью медианы Кемени (см. ниже) непосредственно по исходным данным, т.е. по толерантностям. Групповое мнение при этом может быть найдено в пространстве ранжировок. Второй путь мы считаем более предпочтительным, поскольку при этом обеспечивается более адекватная проверка согласованности и исключается процедура укладывания мнения эксперта в "прокрустово ложе "ранжировки" (эта процедура может приводить как к потере информации, так и к принципиально неверным выводам).
Области применения статистики бинарных отношений многообразны: ранговая корреляция - оценка величины связи между переменными, измеренными в порядковой шкале; анализ экспертных или экспериментальных упорядочений; анализ разбиений технико-экономических показателей на группы сходных между собой; обработка данных о сходстве (взаимозаменяемости); статистический анализ классификаций; математические вопросы теории менеджмента и др.
Случайные множества. Будем рассматривать случайные подмножества некоторого множества Q. Если Q состоит из конечного числа элементов, то считаем, что случайное подмножество S - это случайный элемент со значениями в 2Q - множестве всех подмножеств множества Q, состоящем из 2card(Q) элементов. Чтобы удовлетворить математиков, считаем, что все подмножества Q измеримы. Тогда распределение случайного подмножества множества Q - это
(6)
В формуле (6) предполагается, что где - вероятностное пространство (здесь - пространство элементарных событий, F--алгебра случайных событий, -вероятностная мера на F), на котором определен случайный элемент .Через распределение PS(A) выражаются вероятности различных событий, связанных с S. Так ,чтобы найти вероятность накрытия фиксированного элемента q случайным множеством S, достаточно вычислить
где суммирование идет по всем подмножествам A множества Q, содержащим q. Пусть Q={q1, q2,...,qk}. Рассмотрим случайные величины, определяемые по случайному множеству S следующим образом
Определение 3. Случайное множество S называется случайным множеством с независимыми элементами, если случайные величины независимы (в совокупности).
Последовательность случайных величин --бернуллиевский вектор с и Из последней формулы подпункта "Дихотомические данные" следует, что распределение случайного множества с независимыми элементами задается формулой
т.е. такие распределения образуют k = card(Q) - мерное параметрическое семейство, входящее в (2card(Q) - 1) - одномерное семейство всех распределений случайных подмножеств множества Q.
При исследовании случайных подмножеств произвольного множества Q будем рассматривать их как случайные величины со значениями в некотором пространстве подмножеств множества Q, например, в пространстве замкнутых подмножеств 2Q множества Q. Представляющими интерес лишь для математиков способами введения измеримой структуры в 2Q интересоваться не будем. Отсутствие специального интереса к проблеме измеримости связано с тем, что при эконометрическом моделировании и обработке на ЭВМ все случайные подмножества рассматриваются как конечные (т.е. подмножества конечного множества).
Случайные множества находят разнообразные применения в многообразных проблемах эконометрики и математической экономики, в том числе в задачах управлении запасами и ресурсами (см. об этом главу 5 в монографии [3]), в задачах менеджмента и маркетинга, в экспертных оценках, в частности, при анализе мнений голосующих или опрашиваемых, каждый из которых отмечает несколько пунктов из списка и т.д. Кроме того, случайные множества применяются в гранулометрии, при изучении пористых сред и объектов сложной природы в таких областях, как металлография, петрография, биология, в частности, математическая морфология, в изучении структуры веществ и материалов, в исследовании процессов распространения, в частности, просачивания, распространения пожаров, экологических загрязнений, при районировании, в том числе в изучении областей поражения, в частности, поражения металла коррозией и сердечной мышцы при инфаркте миокарда, и т.д., и т.п. Можно вспомнить о компьютерной томографии, о наглядном представлении сложной информации на экране компьютера, об изучении распространения рекламной информации, о картах Кохонена (популярный метод представления информации при применении нейросетей) и т.д.
Ранговые методы. Ранее установлено, что любой адекватный алгоритм в порядковой шкале является функцией от некоторой матрицы C. Пусть никакие два из результатов наблюдений x1, x2,...,xn не совпадают, а r1, r2,...,rn - их ранги. Тогда элементы матрицы C и ранги результатов наблюдений связаны взаимно однозначным соответствием:
а cij через ранги выражаются так: cij=1, если ri
Разумеется, ранговые статистические методы могут применяться не только при обработке данных, измеренных в порядковой шкале. Так, для проверки независимости двух количественных признаков в случае, когда нет уверенности в нормальности соответствующего двумерного распределения, целесообразно пользоваться коэффициентами ранговой корреляции Кендалла или Спирмена.
Как было подробно обосновано в главах 4 и 5, в настоящее время с помощью непараметрических и прежде всего ранговых методов можно решать все те задачи эконометрики и прикладной статистики, что и с помощью параметрических методов, в частности, основанных на предположении нормальности. Однако параметрические методы вошли в массовое сознание исследователей и инженеров и мешают широкому внедрению более обоснованной и прогрессивной ранговой статистики. Так, при проверке однородности двух выборок вместо критерия Стъюдента целесообразно использовать ранговые методы, но пока это делается редко.
Объекты общей природы. Вероятностная модель объекта нечисловой природы в общем случае- случайный элемент со значениями в пространстве произвольного вида, а модель выборки таких объектов - совокупность независимых одинаково распределенных случайных элементов. Именно такая модель была использована для обработки наблюдений, каждое из которых - нечеткое множество [10].
Из-за имеющего разнобоя в терминологии приведем математические определения из справочника по теории вероятностей академика РАН Ю.В Прохорова и проф. Ю.А. Розанова [25].
Пусть -некоторое измеримое пространство; -измеримая функция на пространстве элементарных событий (где - вероятностная мера на -алгебре F - измеримых подмножеств , называемых событиями) со значениями в называется случайной величиной (чаще этот математический объект называют случайным элементом, оставляя термин "случайная величина" за частным случаем, когда Х - числовая прямая) в фазовом пространстве . Распределением вероятностей этой случайной величины называется функция на -алгебре фазового пространства, определенная как
(7)
(распределение вероятностей представляет собой вероятностную меру в фазовом пространстве ) [25, с. 132].
Пусть - случайные величины на пространстве случайных событий в соответствующих фазовых пространствах . Совместным распределением вероятностей этих величин называется функция , определенная на множествах ..., как
(8)
Распределение вероятностей как функция на полукольце множеств вида в произведении пространств представляет собой функцию распределения. Случайные величины называются независимыми, если при любых B1, B2,...,Bn (см. [25, с.133])
. (9)
Предположим, что совместное распределение вероятностей случайных величин и абсолютно непрерывно относительно некоторой меры Q на произведении пространств , являющейся произведением мер и , т.е.:
(10)
для любых и , где p(x,y) - соответствующая плотность распределения вероятностей [25, с.145].
В формуле (10) предполагается, что и - случайные величины на одном и том же пространстве элементарных событий со значениями в фазовых пространствах и . Существование плотности p(x,y) вытекает из абсолютной непрерывности относительно Q в соответствии с теоремой Радона - Никодима.
Условное распределение вероятностей может быть выбрано одинаковым для всех при которых случайная величина сохраняет одно и то же значение: При почти каждом (относительно распределения в фазовом пространстве ) условное распределение вероятностей где и будет абсолютно непрерывно относительно меры :
Причем соответствующая плотность условного распределения вероятностей будет иметь вид (см. [25, с.145-146]):
(11)
При построении вероятностных моделей реальных явлений важны вероятностные пространства из конечного числа элементарных событий. Для них перечисленные выше общие понятия становятся более прозрачными, в частности, снимаются вопросы измеримости (все подмножества конечного множества обычно считаются измеримыми). Вместо плотностей и условных плотностей рассматриваются вероятности и условные вероятности. Отметим, что вероятности можно рассматривать как плотности относительно меры, приписывающей каждому элементу пространства элементарных событий вес 1, т.е. считающей меры
(мера каждого множества равна числу его элементов). В целом ясно, что определения основных понятий теории вероятностей в общем случае практически не отличаются от таковых в элементарных курсах, во всяком случае с идейной точки зрения.
За последние двадцать лет в эконометрике и прикладной математической статистике сформировалась новая область - статистика нечисловых данных, она же - статистика объектов нечисловой природы. К настоящему времени она развита не менее, чем ранее выделенные статистика случайных величин, многомерный статистический анализ, статистика временных рядов и случайных процессов. Краткая сводка основных постановок и результатов математической статистики в пространствах нечисловой природы даны ниже в настоящей главе. Теория, построенная для результатов наблюдений, лежащих в пространствах общей природы, является центральным стержнем в статистике нечисловой природы. В ее рамках удалось разработать и изучить методы оценивания параметров и характеристик, проверки гипотез (в частности, с помощью статистик интегрального типа), параметрической и непараметрической регрессии (восстановления зависимостей), непараметрического оценивания плотности, дискриминантного и кластерного анализов и т.д.
Вероятностно-статистические методы, развитые для результатов наблюдений из пространств произвольного вида, позволяют единообразно проводить анализ данных из любого конкретного пространства. Так, в монографии [3] они применены к конечным случайным множествам, в работе [10] - к нечетким множествам. С их помощью установлено поведение обобщенного мнения экспертной комиссии (медианы Кемени) при увеличении числа экспертов, когда ответы экспертов лежат в том или ином пространстве бинарных отношений (см. см. пункт 4 настоящей главы и главу 12 ниже). В пункте 5 настоящей главы методы распознавания образов, основанные на непараметрических оценках плотности распределения вероятностей в пространстве общей природы, применены для разработки алгоритма диагностики в пространстве разнотипных данных (часть координат вектора измерена по количественным шкалам, часть - по качественным - см. главу 3).
8.3. Структура статистики объектов нечисловой природы
Как уже отмечалось, термин "статистика объектов нечисловой природы" впервые появился в 1979 г. в монографии [3]. В том же году в статье [16] была сформулирована программа развития этого нового направления прикладной математической статистики, которая к 1985 г. в основном была реализована.
Статистика объектов нечисловой природы как самостоятельное научное направление была выделена в нашей стране. Со второй половины 80-х годов существенно возрос интерес к этой тематике и у зарубежных исследователей. Это нашло отражение, в частности, на Первом Всемирном Конгрессе Общества математической статистики и теории вероятностей им. Бернулли, состоявшемся в сентябре 1986 г. в Ташкенте. Статистика объектов нечисловой природы используется в нормативно-технической и методической документации, ее применение позволяет получить существенный технико-экономический эффект (см. например, сводку [26]).
Однако тематика статистики объектов нечисловой природы обсуждалась до сих пор в основном в кругу развивающих ее специалистов, в результате она недостаточно отражена в монографической литературе. Цель настоящего пункта - дать введение в статистику объектов нечисловой природы, выделить ее структуру, указать основные идеи и результаты.
Напомним, что объектами нечисловой природы (см. также предыдущие пункты настоящей главы) называют элементы пространств, не являющихся линейными. Примерами являются бинарные отношения (ранжировки, разбиения, толерантности), множества, последовательности символов (тексты). Объекты нечисловой природы нельзя складывать и умножать на числа, не теряя при этом содержательного смысла. Этим они отличаются от издавна используемых в прикладной статистике (в качестве элементов выборок) чисел, векторов и функций.
Прикладную статистику по виду статистических данных принято делить на следующие направления:
статистика случайных величин (одномерная статистика);
многомерный статистический анализ;
статистика временных рядов и случайных процессов;
статистика объектов нечисловой природы.
При создании теории вероятностей и математической статистики исторически первыми были рассмотрены объекты нечисловой природы - белые и черные шары в урне. На основе соответствующих вероятностных моделей были введены биномиальное, гипергеометрическое и другие распределения, получены теоремы Муавра-Лапласа, Пуассона и др. Современное развитие этой тематики привело, в частности, к созданию теории статистического контроля качества продукции по альтернативному признаку (годен - не годен) в работах А.Н.Колмогорова, Б.В. Гнеденко, Ю.К. Беляева, Я.П. Лумельского и многих других (см., например, классические монографии [7,8]).
В семидесятых годах в связи с запросами практики весьма усилился интерес к статистическому анализу нечисловых данных. Московская группа, организованная Ю.Н. Тюриным и другими специалистами вокруг созданного в 1973 г. научного семинара "Экспертные оценки и нечисловая статистика", развивала в основном вероятностную статистику нечисловых данных. Были установлены разнообразные связи между различными видами объектов нечисловой природы и изучены свойства этих объектов. Московской группой выпущены десятки сборников и обзоров, перечень которых приведен в итоговой работе [4]. Хотя в названиях многих из этих изданий стоят слова "экспертные оценки", анализ содержания сборников показывает, что подавляющая часть статей посвящена математико-статистическим вопросам, а не проблемам проведения экспертиз. Частое употребление указанных слов отражает лишь один из импульсов, стимулирующих развитие статистики объектов нечисловой природы и идущих от запросов практики. При этом необходимо подчеркнуть, что полученные результаты могут и должны активно использоваться в теории и практике экспертных оценок.
Новосибирская группа (Г.С. Лбов, Б.Г. Миркин и др.), как правило, не использовала вероятностные модели, т.е. вела исследования в рамках анализа данных. В московской группе в рамках анализа данных также велись работы, в частности, Б.Г.Литваком. Исследования по статистике объектов нечисловой природы выполнялись также в Ленинграде, Ереване, Киеве, Таллине, Тарту, Красноярске, Минске, Днепропетровске, Владивостоке, Калинине и других научных центрах.
Внутреннее деление статистики объектов нечисловой природы. Внутри рассматриваемого направления эконометрики и прикладной статистики выделим следующие области.
1. Статистика конкретных видов объектов нечисловой природы.
2. Статистика в пространствах общей (произвольной) природы.
3. Применение идей, подходов и результатов статистики объектов нечисловой природы в классических областях прикладной статистики.
Единство рассматриваемому направлению придает прежде всего вторая составляющая, позволяющая с единой точки зрения подходить к статистическим задачам описания данных, оценивания, проверки гипотез при рассмотрении выборки, элементы которой имеют ту или иную конкретную природу. Внутри первой составляющей рассмотрим:
1.1) теорию измерений;
1.2) статистику бинарных отношений;
1.3) теорию люсианов (бернуллиевских векторов);
1.4) статистику случайных множеств;
1.5) статистику нечетких множеств;
1.6) многомерное шкалирование;
1.7) аксиоматическое введение метрик.
Перечисленные разделы тесно связаны друг с другом, как продемонстрировано, в частности, в работах [3,15] и первых двух пунктах настоящей главы. Вне данного перечня остались работы по хорошо развитым классическим областям - статистическому контролю, таблицам сопряженности, а также по анализу текстов и некоторые другие (см.[4]). Таким образом, рассмотрим постановки 1970-2000 гг. вероятностной статистики объектов нечисловой природы.
Статистика в пространствах общей природы. Пусть x1,x2,...,xn -элементы пространства X, не являющегося линейным. Как определить среднее значение для x1,x2,...,xn? Поскольку нельзя складывать элементы X, сравнивать их по величине, то необходимы подходы, принципиально новые по сравнению с классическими. В статистике объектов нечисловой природы предложено использовать показатель различия (содержательный смысл показателя различия: чем больше d(x,y), тем больше различаются x и y) и определять среднее как решение экстремальной задачи
(1)
Таким образом, среднее En(d)- это совокупность всех тех , для которых функция
(2)
достигает минимума на X.
Для классического случая X = R1 при d(x,y) = (x-y)2 имеем En(d) =, а при d(x,y)=|x-y| среднее En(d) совпадает с выборочной медианой (при нечетном объеме выборки; а при четном - En(d) является отрезком с концами в двух средних элементах вариационного ряда).
Для ряда конкретных объектов среднее как решение экстремальной задачи вводилось рядом авторов. В 1929 г. итальянские статистики Джини и Гальвани применили такой подход для усреднения точек на плоскости и в пространстве Американский исследователь Джон Кемени решение задачи (1) называл медианой или средним для выборки, состоящей из ранжировок (см. монографию [24]). При моделировании лесных пожаров согласно выражению (1) было введено "среднеуклоняемое множество" для описания средней выгоревшей площади (см. об этом в монографии [3]). Общее определение среднего вида (1) было впервые введено в работе [16].
Основной результат, связанный со средними вида (1) - аналог закона больших чисел. Пусть x1,x2,...,xn - независимые одинаково распределенные случайные элементы со значениями в пространстве общей природы X. Теоретическим средним, или математическим ожиданием, в статистике объектов нечисловой природы называют
. (3)
Закон больших чисел состоит в сходимости En(d) к En(x1,d) при . Поскольку и эмпирическое, и теоретическое средние - множества, то понятие сходимости требует уточнения.
Одно из возможных уточнений, впервые введенное в работе [16], таково. Для функции
(4)
введем понятие "-пятки" (>0)
(5)
Очевидно, - пятка f - это окрестность Argmin(f) (если он достигается), заданная в терминах минимизируемой функции. Тем самым снимается вопрос о выборе метрики в пространстве X. Тогда при некоторых условиях регулярности для любого >0 вероятность события
(6)
стремится к 1 при., т.е. справедлив закон больших чисел. Подробное доказательство приводится в следующем пункте настоящей главы.
Естественное обобщение рассматриваемой задачи позволяет построить общую теорию оптимизационного подхода в статистике. Как известно, большинство задач прикладной статистики может быть представлено в качестве оптимизационных [12]. Как себя ведут решения экстремальных задач? Частные случаи этой постановки: как ведут себя при росте объема выборки оценки максимального правдоподобия, минимального контраста (в том числе робастные в смысле Тьюки-Хьюбера - см. главу 10), оценки нагрузок в факторном анализе и методе главных компонент при отсутствии нормальности, оценки метода наименьших модулей в регрессии и т.д.
Обычно легко устанавливается, что для некоторых пространств X и последовательности случайных функций.fn(x) при. найдется функция f(x) такая, что
(7)
для любого (сходимость по вероятности). Требуется вывести отсюда, что
(8)
т.е. решения экстремальных задач также сходятся. Понятие сходимости в соотношении (8) уточняется с помощью -пяток, как это сделано выше для закона больших чисел. Условия регулярности, при которых справедливо предельное соотношение (8), приведены в исследовании [27]. В подавляющем большинстве реальных задач эти условия выполняются.
Как оценить распределение случайного элемента в пространстве общей природы? Поскольку понятие функции распределения неприменимо, естественно использовать непараметрические оценки плотности. Что такое плотность распределения вероятностей в пространстве произвольной природы? Это функция такая, что для любого измеримого множества (т.е. случайного события) справедливо соотношение
, (9)
где.- некоторая мера в X. Ряд непараметрических оценок плотности был предложен в работе [16]. Например, аналогом ядерных оценок плотности является оценка
(10)
где d - показатель различия; H - ядерная функция; hn - последовательность положительных чисел; - нормирующий множитель. Удалось установить, что, что статистики типа (10) обладают такими же свойствами, по крайней мере при фиксированном x, что и их классические аналоги при X = R1. В частности, такой же скоростью сходимости. Некоторые изменения необходимы при рассмотрении дискретных , каковыми являются многие пространства конкретных объектов нечисловой природы. С помощью непараметрических оценок плотности можно развивать регрессионный анализ, дискриминантный анализ и другие направления в пространствах общей природы (см. пункт 5 ниже).
Для проверки гипотез согласия, однородности, независимости в пространствах общей природы могут быть использованы статистики интегрального типа
(11)
где -последовательность случайных функций на X; - последовательность случайных распределений (или зарядов). Обычно при сходится по распределению к некоторой случайной функции , а - к распределению F(x). Тогда распределение статистики интегрального типа (11) сходится к распределению случайного элемента
(12)
Условия, при которых это справедливо, даны в работе [28]. Пример применения - вывод предельного распределения статистики типа омега-квадрат для проверки симметрии распределения (см. главу 4).
Перейдем к статистике конкретных видов объектов нечисловой природы.
Теория измерений. Цель теории измерений - борьба с субъективизмом исследователя при приписывании численных значений реальным объектам. Так, расстояния можно измерять в метрах, микронах, милях, парсеках и других единицах измерения. Выбор единиц измерения зависит от исследователя, т.е. субъективен. Статистические выводы могут быть адекватны реальности только тогда, когда они не зависят от того, какую именно единицу измерения предпочтет исследователь, т.е. когда они инвариантны относительно допустимого преобразования шкалы.
Теория измерений известна в нашей стране уже около 30 лет. С начала семидесятых годов активно работают отечественные исследователи. В настоящее время изложение основ теории измерений включают в справочные издания, помещают в научно-популярные журналы и книги для детей. Однако она еще не стала общеизвестной среди специалистов, в частности, среди метрологов. Поэтому опишем одну из задач теории измерений (ср. главу 3).