<< Пред. стр. 7 (из 15) След. >>
Таким образом, к известным и неизвестным величинам в расчетах, привычным со школы, добавляются величины детерминированные и статистические, и, кроме того, величины собственные и заимствованные.Заимствованные или цитируемые величины могут быть приведены в разнообразных интерпретациях и без сведений об их достоверности. При необходимости их совместного анализа может потребоваться их обработка по методике, отличной от авторской.
В практических задачах совместно используются и эмпирические и теоретические данные. Прикладные программы сопоставляют все данные в табличной форме, поскольку это гораздо удобнее для цифровой обработки.
Однако никакие программы не могут предугадывать стратегию анализа и, тем более, синтеза, так что необходим диалог с оператором - интерактивный режим.
Человек воспринимает графики несравненно быстрее и достовернее, чем таблицы и, тем более, формулы. Поэтому диалог с ЭВМ рациональнее вести в графической форме. Выбор графической интерпретации становится единственно возможным для необозримо объемных массивов цифр и формул с труднодоступным смыслом.
Применение статистических расчетов в практических задачах привносит риск ошибок из-за неопытности или нерадивости работника.
Нечто подобное было при компьютеризации менеджмента, однако своевременно появились книги, типа "Компьютер для чайников". К сожалению, нет на сегодня "Матстатистики для чайников".
Статистическая литература изложена весьма корректным математическим языком. Если практические задачи не укладываются в Прокрустово ложе математической модели, то никаких рекомендаций по их решению не отыскать. К сожалению, идеальная для математики практика является, скорее, исключением, чем правилом.
В этом пособии используется исключительно графическая интерпретация всех маркетинговых задач. Расчетные формулы не используются, приводятся пояснения для решений, доступных и полезных в практической деятельности.
Инженер и маркетолог, применяющие статистические расчеты, обретают значительное конкурентное преимущество, ради которого есть смысл преодолеть неприятие, воспитанное вузом. Освоение стохастического моделирования, это не просто вооружение новым инструментом, это рост уровня мышления. Видя, к примеру, рекламу с исхудавшей дамой, поедающей некое средство, уже не придется бежать за покупкой. Вспомнятся риски симптомов, не упомянутых в рекламе, и меры рассеяния веса худеющих.
В экономических учебниках обычно приводятся графики хозяйственной деятельности за много лет. Замысловатая зависимость от времени вала или цен объясняется по детерминированной модели. Обычно ищется колебательный процесс с периодом и амплитудой колебаний. Спад рассматривается, как непременный предвестник подъема - вроде качелей.
Стохастическая модель отрицает связь соседних значений, так что по предыдущему значению нельзя прогнозировать последующее аксиоматически. В любой точке спада может быть рывок и вверх и вниз. Источников гармонических колебаний может не быть вовсе, а причины случайных флюктуаций всегда налицо.
Стохастические модели описывают случайные процессы, состоящие в чередовании множества значений исследуемых признаков. Моментные оценки случайных процессов представляют случайные величины. Множество измерений исследуемого признака или предполагаемых его значений составляет статистический ансамбль.
Математики предлагают устремить к бесконечности исследуемое множество, и называют его генеральной совокупностью.
В практических задачах оперируют множествами с конечными объемами. Изделия, в частности, или товары, характеризуют объемами партий N. Партия является целью исследований, причем часто недоступной из-за непомерных затрат или физических ограничений. Партию представляют в качестве статистического ансамбля при ее чрезмерном для исследований объеме, например, более 105.
Для исследования партии применяют эмпирические распределения (ЭР), для чего комплектуют по обоснованным правилам выборки с объемом n. Правила составления выборки должны гарантировать случайность, т.е. равные шансы отбора у всех элементов. Иллюстрацией этих правил является смешивание шаров в барабане и участие ребенка в изъятии шара. Отбор из партии элементов выборки должен обеспечивать равенство статистических показателей партионных и выборочных т.е. представительность выборки. ЭР может быть представлено графически или таблично колонками цифр.
Стохастическая модель оперирует теоретическим распределением (ТР) случайной величины. ТР - это средство исследования статистического ансамбля, представляемое в аналитической форме. Кроме того, оно представляется в графической и табличной формах. Аналитическая форма создается математиком посредством весьма сложных выкладок, приближающих модель к избранным объектам. По формулам создаются программы, формирующие таблицы и графики в компьютере для сравнения с эмпирическими данными. Значения случайной величины принято назы
Рис. 21. Гистограмма распределения.
вать реализациями. Эмпирические распределения составляются показаниями приборов, записями в анкетах и т.п.
Известно несколько вариантов графического представления стохастических моделей. Самой широкоупотребительной, а во многих источниках единственной, является гистограмма распределения.
Известные методики построения гистограмм отличаются разнообразием, так что не всегда возможно совмещение данных из разных источников.
Общим для всех методик является размещение под горизонтальной осью с линейным масштабом Х всех значений исследуемого признака Хi. Значения откладываются в виде точек в соответствии с избранным масштабом. Здесь и далее горизонтальная ось называется параметрической, а выборка - упорядоченной.
Параметрическую ось делят на несколько равных интервалов и подсчитывают число точек в каждом интервале - "частость". Частости ni откладывают по вертикальной оси, предварительно поделив на общее число значений n. Сумма относительных частостей во всех интервалах равна единице.
В университетах США студентам показывают физические модели распределений. Это наклонные доски, с которых скатываются шарики. Низ доски разделен барьерами на "загоны" для шариков. На доске имитируются воздействия на шарики, формирующие распределение их между барьерами. Множество скатывающихся шариков создает иллюстрацию теоретического распределения внизу доски. Старт шариков - в центре верха доски.
Причины рассеивания имитируются шпильками, установленными на пути шариков. В результате соударений шарики катятся к разным барьерам, "материализуя" гистограмму на нижней кромке.
Для любого теоретического распределения можно рассчитать форму гистограммы, задавшись числом интервалов и предположив бесконечный объем партии. О теоретических распределениях есть обширная библиотека, причем каждое распределение, а их более 300, построено на конкретных условиях. Выбор теоретического распределения для практической задачи можно уподобить составлению фоторобота в криминалистике. В науке можно найти аналогию с изучением спектральных линий, определяющих наличие примесей в веществе.
На рис. 21 представлена гистограмма с эмпирическими значениями в виде точек и прямоугольниками, высота которых пропорциональна числу точек в интервале. Подобные гистограммы часто приводятся в литературе. Их форма зависит не только от представленных данных, но и от методики построения.
Известные методики различаются по приемам выбора числа интервалов, размещения крайний интервалов относительно экстремальных значений, учета точек на границах интервалов и т.п. Различия существенны, при необходимости сравнения гистограмм из разных источников приходится перестраивать их по одной методике.
Для обработки эмпирических данных рекомендуется следующая методика построения гистограммы:
1. Число измерений (реализаций) фиксировано n = 32.
2. Все значения размещаются под горизонтальной (параметрической) осью в виде точек. Отмечаются максимальные Xmax и минимальные Xmin значения, а также срединное - медиана , для чего отсчитывается 16 точек справа и слева.
3. От медианы откладывается вправо и влево по три равных интервала так, чтобы все точки оказались внутри интервалов при наименьшей их ширине.
4. Подсчитывается число точек в интервалах, причем, точки на границах интервалов разносят на обе стороны пополам. Строятся прямоугольники с высотой, пропорциональной числу точек в интервале.
В гистограмме "заложена" методическая погрешность из-за смешивания точек в интервале, поэтому большие выборки избыточны. Фиксированное число точек устраняет вариацию гистограмм из-за разных объемов. Построение интервалов от центра, а не от краев, как это принято, обосновано тем, что вариация экстремальных значений значительно больше, чем у медианы. Использование 6 интервалов вытекает из общеизвестного правила "3?". Если наблюдаемая выборка представительна и соответствует этому правилу, то медиана равна среднему арифметическому значению , а ширина интервала равна ?. Эмпирические гистограммы доступны сравнению с теоретической по правилу "3?", у которой число значений в интервалах составляет:
Рис. 22. Теоретическая гистограмма распределения.
Среднее арифметическое значение или просто среднее является самым широко известным статистическим показателем. Оно просто рассчитывается, тем более, с калькулятором - складываются измерения, а сумма делится на число измерений.
По гистограмме прочесть среднее еще проще, причем, одновременно оценивается форма. Если форма отличается от названного выше правила, то расчет теряет смысл. Равно как и ?, хоть его и рекомендуют считать по соответствующей формуле.
Гистограмму рационально применять при приближенных, ориентировочных оценках распределений эмпирических данных. Прежде всего, устанавливается сам факт наличия статистической информации - наличие различающихся значений хi количественного признака Х . Если все значения совпадают, надо считать признак детерминированным. Различия значений хi позволяет составить упорядоченную выборку, в которой значения выстраиваются "по росту" от хmin до хmax. Говорят о ранжировании Х - именно для этого удобна параметрическая ось.
Комплект измерений Х определяет вариацию признака Х с размахом
R = xmax - xmin.
5.3. Статистические меры
Во многих расчетах достаточно точечных оценок, т.е. определения статистического ансамбля одним или двумя числами. Этими числами являются статистические меры. Основными видами этих мер являются меры центра группирования (положения) и меры рассеяния (формы).
5.3.1. Меры центра группирования
1. Выше упомянутая мера называется среднеарифметическим или средневзвешенным значением, а в теоретическом распределении - математическим ожиданием.
Физическая модель этой меры может быть составлена из линейки с масштабом для параметра Х и кнопок, каждая из которых представляет значение хi. После размещения всех кнопок линейку уравновешивают на опоре - в точке, определяющей .
2. Медиану определяют по упорядоченной выборке. Это срединное значение: половина выборки меньше, а другая половина больше медианы. Ситуация когда медиана равна среднему встречается, когда распределение симметрично.
Рис. 23. Точечные оценки (распределение несимметричное).
3. Среднее геометрическое значение, получают, складывая логарифмы реализаций и разделив на число измерений. Применяется сравнительно редко.
4. Характеристическое значение Хе определяется по упорядоченной выборке. Больше этого значения - доля выборки 0,368 (это величина, обратная натуральному числу е).
Все меры центра группирования определяют положение на параметрической оси основной части выборки или статистического ансамбля, сгруппированные относительно тесно, причем доля "центральных" значений порядка 0,9.
Остальная часть выборки или партии находятся в областях максимальных и минимальных значений.
5.3.2. Меры рассеяния
Чаще всех прочих, применяется среднее квадратичное отклонение ? (стандартное отклонение или просто стандарт S).
Эту меру рассчитывают по общеизвестной формуле или считывают, как ширину интервала на графике. Последнее предпочтительнее, поскольку форма свидетельствует о корректности применения ? - меры нормального распределения.
Каждое теоретическое распределение имеет свою меру рассеивания. При неопределенности теоретического распределения возникает необходимость в "универсальных" мерах, которые несложно пересчитывать в специальные меры. "Универсальными" являются квантили Хр. Квантили определяются по упорядоченной выборке. Значение квантиля Хр больше значений, доля которых равна Р. В качестве меры рассеивания удобно использовать пару квантилей:
Х0,1 - из 100 значений в выборке десять значений меньше Х0,1;
Х0,01 - из 100 значений в выборке одно значение меньше Х0,01.
По этим квантилям удобно рассчитывать меры рассеивания, например (см. рис. 22):
Х0,1 - Х0,01 = ?
Квантили упоминаются в публикациях, в частности, сравнение доходов богатых и бедных производится на уровне 10%. Это квантили Х0,1 - самые бедные и Х0,9 - самые богатые.
5.4. Функции распределения
Стохастическая модель строится на основе функций распределения - теоретической Fт(х) и эмпирической Fэ(х) для расчетов, не ограниченных по точности и достоверности.
Теоретическая функция распределения Fт(х) имеет смысл вероятности того, что случайная величина (СВ) Х не превысит текущего значения Х. При изменении Х от -? до +? значения Fт(х) меняются от 0 до 1.
Функция Fт(х) дифференцируема во всей области своего существования. Для этого вводится математиками аксиома о превращении множества точек в непрерывную линию при устремлении их количества к бесконечности.
Результатом дифференцирования является f(х) - функция распределения плотностей вероятностей. Именно эту функцию изображают в виде "колокола". Гистограмма рассматривается, как графическая интерпретация f(х). При интегрировании f(х) получают интегральную функцию распределения F(х).
Аналитическое выражение Fт(х) может быть неосуществимо и тогда применяется численное интегрирование.
Технико-экономическая литература оперирует, как правило, функцией распределения плотностей вероятностей f(х), её графическими представлениями, полигоном, в частности, а также её мерой - модальным значением.
Однако в практических задачах все партии имеют конечный объем и устремлять его к бесконечности не всегда корректно.
В итогах измерений могут быть разрывы т.е. недифференцируемость. Между тем, многие авторы анализируют модальные значения, трактуют бимодальность и т.п. результаты с чрезмерным риском ошибок. Методические погрешности являются главным недостатком гистограмм.
Функция распределения F(х) является неубывающей, для нее не требуются интервалы, каждое значение сохраняет исходную точность. Именно это обеспечивает ее отличные метрологические характеристики и доступность для прецизионных расчетов. В последующем изложении используются исключительно функции распределения Fэ(х) и Fт(х).
5.4.1. Эмпирическая функция распределения Fэ(х)
Эмпирическая функция распределения имеет смысл долей объема упорядоченной выборки со значениями, не превышающими растущий параметр Х.
Fэ(х) меняется от 0 до 1 при росте параметра Х от хmin до хmax.
Функция Fэ(х) совместно с Fт(х) является средством исследования статистических ансамблей (партий). Применяются Fэ(х) и Fт(х) совместно, поскольку необходимым условием во всех задачах являются оценки адекватности.
Fэ(х) представляется в табличной форме или графически как зависимость от аргумента Х долей упорядоченной выборки, включающих в себя значения, не превышающие Х.
Рис. 24. Построенная функция Fэ(х) (см. гистограмму на рис. 21).
На поле графика откладываются точки, число которых равно объему выборки.
Сначала все значения откладываются под параметрической осью, также как в гистограммах. Далее моделируют рост Х, например, перемещая лист бумаги, открывают точки, начиная с хmin. Доля открывшихся точек отмечается соответствующей ординатой по масштабу вертикальной оси. Каждая точка добавляет долю 1/n, а последняя - на уровне хmax 1-1/n; чтобы оценки не были смещенными, координаты ищут справа и слева сводя ошибку к центру.
Рис. 25. Построение функции Fэ(х) (сведение ошибки в центр).
Здесь ni - доля открывшихся точек.
На поле графика рисуют ступеньки или просто точки - в зависимости от вкусов исполнителя (см. рис. 24). Главная особенность Fэ(х) - отсутствие методических погрешностей. Абсцисса каждой точки равна измерению. Число точек на графике равно числу измерений, которые удалось отличить от ближайших к ним значений. Именно поэтому Fэ(х) используется в статистических задачах в которых нужно минимизировать погрешность расчетов.
Масштаб вертикальной оси иногда выбирается линейный. Строить функции распределения можно в любом масштабе, однако для последующих графических расчетов необходимо соблюсти "метрические" условия.
В линейном масштабе точки будут укладываться на некую кривую, которую трудно соотнести со статистическими мерами. Сравнение таких кривых между собой неосуществимо в численной форме. Такие кривые обладают лишь зрелищными признаками и в этом плане похожи на гистограммы или полигоны.
Доступность статистическим расчетам, достаточным для решения производственных задач, включая маркетинговые, имеет место при использовании вероятностных масштабов вертикальной оси т.е. в вероятностных графиках.
5.5. Вероятностные графики
Вертикальный масштаб вероятностного графика рассчитан таким образом, чтобы любая прямая на поле графика представляла собой теоретическую функцию Fт(х). Такие масштабы есть в справочной литературе или могут быть рассчитаны для любого известного распределения.
Равные интервалы вертикального масштаба представляют равные части меры рассеивания. Размер вертикальной шкалы указывают в числе мер рассеивания - вместе с длиной.
Общим для всех вертикальных масштабов является наличие в качестве начала отсчета меры центра группирования - уровня 0,5 для симметричных распределений и уровня 0,632 или аналогичного для несимметричных распределений. Вниз от этого уровня значения стремятся к нулю, а вверх - к единице.
Для массового применения размножаются типографским способом бланки с вероятностным масштабом - вероятностная бумага. В России вероятностные графики не прижились, а масштабы являются библиографической редкостью. В итоге многие специалисты пользуются статистическими данными, воспринимая их как детерминированные однозначные показатели. Повсеместно подменяют статистические меры, привнося грубейшие ошибки, особо опасные при оценках прочности и надежности.
Известны прикладные программы для построения вероятностных графиков. Пользование ими предполагает режим диалога, т.е. оператору никак не избежать соучастия в формировании функций распределения. Без "бумажного" графика не обойтись, прежде всего, для приобретения опыта. Вероятностную бумагу можно напечатать, используя иллюстрации из справочников. Однако, у пользователя этой бумаги проявится ее недостаток, суть которого в неизменности масштаба, для всех, самых разных выборок.
Названный недостаток устраняется, если вертикальный масштаб будет нанесен на рейсшину или любое подручное чертежное средство для изображения параллельных прямых. Это позволит изображать графики на любой бумаге и, главное, менять размер вертикальной оси наклоном линейки с масштабом. Надо лишь не забыть о метках, фиксирующих избранное положение вертикальной шкалы на бумаге. Шкалу двигают вверх и вниз, поворачивают, пока экстремальные точки будущего графика не станут вершинами квадрата со сторонами, параллельными осям.
Вертикальные масштабы для двух теоретических функций распределения приведены в приложении 2 (рис. 82). Оба масштаба были рассчитаны по программам, составленным применительно к интерполяционным задачам. Нелинейностью масштаба между соседними делениями можно пренебречь, т.е. делить их на любое число равных участков по аналогии с линейной шкалой. Методическая погрешность при этом будет пренебрежимо малой, даже недоступной расчету на ЭВМ.
Построение вероятностного графика начинают, как уже говорилось, размещением точек под горизонтальной осью и обозначением экстремальных величин хmax и хmin, задающих размер по горизонтали. Горизонтальный масштаб должен быть линейным, если отношение хmin/хmax меньше единицы. Если хmin и хmax различаются более чем на порядок, нужен логарифмический масштаб.
Размер графика по вертикали должен обеспечить угол построений с осями, примерно, 45?.
Линейку с масштабом поворачивают так, чтобы размер соответствовал экстремальным квантилям. Если, к примеру, объем выборки n = 200 то хmin соответствует 0,005, а хmax - уровню 0,995 по вертикали. Координаты этих точек по обеим осям примерно равны.
Эмпирическая функция Fэ(х) строится при смещении линейки с масштабом параллельно горизонтальной оси, начиная с хmin и до уровня 0,5. Каждая точка из выборки добавляется к предыдущим "ступенькам" на графике 1/n; затем линейку двигают справа налево, начиная с xmax. Каждая точка убавляет от предыдущей ступеньки 1/n, начиная с уровня 1- 1/n для хmax, вплоть до уровня 0,5. Можно шкалу оставить неподвижной, а смещать лист бумаги с указанными правилами. Во всех вариантах на поле графика отмечаются деления с линейки, достаточные для считывания информации. Точки или вершины ступенек эмпирической функции Fэ(х) размещаются в окрестности диагонали квадрата, образуемого осями. Взаиморасположение осей выбирается произвольно, поскольку привычных нулей на осях здесь нет.
Логарифмический масштаб горизонтальной оси строится с помощью калькулятора или старинной логарифмической линейки, прикладываемой под углом к оси так, чтобы ее проекция уложилась между значениями 1 и 10 (0,3 и 3 или т.п.).
Следующим этапом является выбор статистической гипотезы, т.е. построение прямой Fт(х) по Fэ(х). Прямую надо проводить так, чтобы точки оказывались поочередно выше и ниже, или, по крайней мере, минимизировать число точек, которые остаются с одной стороны подряд.
а) б)
Рис. 26. Построение функции Fт(х) по точкам функции Fэ(х):
а) вероятностный график признан успешным; б) вероятностный график нуждается в дополнительном анализе.
Если точки явно не идут по "одной половице" то это может быть следствием одной из 3 причин:
1. Вероятностный масштаб выбран неверно, его надо сменить на более корректный для решаемой задачи. Надо заменить линейку и повторить построение графика.
2. Выборка взята более чем из одного статистического ансамбля, т.е. налицо смесь. Частным случаем смеси является изъятие части ансамбля по какому-либо признаку, а в итоге - усеченная выборка. Нужен дополнительный анализ.
3. Выборка непредставительна. Желательно повторить эксперимент.
Если прямая "пронизывает" точки на поле графика, оставляя их справа и слева поочередно, то построение вероятностного графика признается успешным. Точки, оказавшиеся подряд с одной стороны, нуждаются в дополнительном анализе.
5.5.1. Анализ вероятностных графиков
Построенный вероятностный график является накопителем статистических данных и расчетным средством. Анализ статистических данных начинается с оценок мер распределения.
Меру положения находят, опустив перпендикуляр из точки пересечения уровня 0,5 вертикальной оси с построенной прямой Fт(х) для нормального распределения или с уровнем 0,632 для Вейбулловского распределения.
На уровне 0,5 считывается среднее арифметическое значение (математическое ожидание) и медиана .
На уровне 0,632 считывается характеристическое значение Хе. Это значение часто интерпретируют в качестве среднего - средняя продолжительность жизни, зарплата, прочность и т.п.
Индекс е обозначает натуральное число. Общепринятого обозначения характеристического значения в литературе нет.
а) б)
Рис. 27. Оценка мер распределения по графикам:
а) вероятностного графика нормального распределения;
б) вероятностного графика Вейбулловского распределения.
Меру формы следует искать, опустив перпендикуляры из точек пересечения двух уровней, отмеченных на вертикальном масштабе с построенной прямой Fт(х).
Они "индивидуальны" для нормального (НР) и Вейбулловского (ВР) распределений. Для НР можно выбрать два уровня: 0,16 и 0,023, соответствующие квантилям Х0,16 и Х0,02 и по ним найти среднее квадратичное отклонение:
? = Х0,16 - Х0,02
Выше упоминались квантили Х0,1 и Х0,01, разность между которыми тоже равна ?.
Для ВР удобно выбрать уровни 0,1 и 0,01 по упомянутым квантилям определяется параметр формы К
lg Х0,1 - lg Х0,01 = 1/К
Аналогичным образом могут определяться меры всех остальных теоретических распределений, которые можно найти в специальной литературе, в основном, американской и немецкой. К примеру, двойное экспоненциальное распределение, "модное" в США, или первое предельное по Колмогорову - это линейный масштаб по горизонтали и ВР по вертикали. Квантили считываются те же для оценки мер рассеяния.
Расчет статистических мер по вероятностному графику проще общепринятого по формулам и достовернее, поскольку проверяется адекватность математической модели практическим данным.
5.6. Оценка согласия эмпирических и теоретических
распределений
Согласие Fт(х) и Fэ(х) оценивается с целью проверки достоверности всех последующих расчетов.
Для оценок обычно применяют стандартные критерии согласия. Всего их известно до 200, но применяют практически, в основном, два: ?2 (хи-квадрат) и Колмогорова. Оцениваются разности Fэ(х) и Fт(х) в сравнении с табулированными данными, по которым выясняются соответствие или несоответствие сравниваемых функций. При этом задаются ошибками первого и второго родов.
Для понимания сути этих ошибок полезно вообразить поиск адреса в полузабытом районе. Ошибка первого рода - это вход в подъезд не того дома, но напомнившего искомый. Ошибка второго рода - это незамеченный и пропущенный подъезд, являющийся искомым.
Критерий согласия комплектуется таблицами для выбора доверительных интервалов, внутри которых согласие Fт(х) и Fэ(х) не отрицается. Выбор осуществляется, исходя из доверительной вероятности ?. В таблицах есть значения ? от 0,001 до 0,999, что вполне перекрывает любые предпочтения исследователей. Однако, у многих возникает недоумение в связи со смыслом расчетов, в которых можно произвольно менять результат, избирая ?. Констатация соответствия Fт(х) и Fэ(х) при ? = 0,15, к примеру, ничего не скажет тем, кто привык к детерминированным моделям, поскольку при ? = 0,1 соответствия уже нет.
Исследователю, работающему с критериями согласия, необходимо представить себе процесс отбора выборок из статистического ансамбля, который аппроксимируется Fт(х). Если для каждой выборки строить Fэ(х), то они будут заполнять некоторое поле графика, причем, часть из них уложится в "Прокрустово ложе" доверительных интервалов, а другая будет "перехлестывать" их.
Для исследуемого статистического ансамбля можно выбрать узкие доверительные интервалы, к примеру, ? = 0,1. Тогда из 10 выборок, взятых из одного ансамбля, будет только одна, чья Fэ(х) будет полностью внутри доверительных интервалов. Если взять ? = 0,9, то, соответственно, лишь 1 выборка будет с Fэ(х), не уложившейся в доверительные интервалы. При этом соответствие статистическому ансамблю Fт(х) не отрицается.
Первая ошибка, подстерегающая исследователя - это признание соответствия Fэ(х) некоей F1(х), которая предназначена для других статистических ансамблей. Это признание желаемого за действительное. Похоже на выбор рыбака - столь мелкая сетка, что захватывает ненужных мальков.
Вторая ошибка настигает исследователя, когда он отвергает соответствие Fэ(х) той самой функции F0(х), которая предназначена для анализируемого статистического ансамбля. Это отрицание реальности напоминает выбор рыбака: крупная сетка, пропускающая, кроме всего лишнего, основную часть улова.
Различия критериев можно уподобить избирательности фильтров верхних и нижних частот. Критерии согласия принято различать по мощности ?. 1 - ? является вероятностью того, что будет признано соответствие гипотезе F1(х), в то время как на самом деле соответствует эмпирическая функция F0(х), т.е. ошибка 1 рода. Ошибка 2 рода - это отрицание соответствия F0(х), в то время как она верна.
Критерии согласия применяются в практических задачах в качестве меры соответствия эмпирического и теоретического распределений, исходя из ? = 0 для представительной выборки. Кроме того, по критерию сравниваются опубликованные данные о статистических мерах, нормируются требования к случайным процессам, прогнозируются итоги оценок для малых выборок и т.п.
Недостатками мощных критериев являются чрезмерные объем и сложность вычислений и, для практических задач, отсутствие возможностей учета физико-технических данных, определяющих вариацию исследуемых значений Fэ(х).
Конкретные сведения об исследуемом предмете могут в существенной мере уменьшить риски ошибок при выборе статистических гипотез. Сравнение Fэ(х) и Fт(х) будет тем корректнее, чем подробнее будут известны причинно-следственные связи, определяющие рассеивание Fэ(х), а также граничные и начальные условия, исходя из которых выведено аналитическое выражение Fт(х).
Стремление выбирать статистические гипотезы с учетом знаний исследователя проявилось в отечественной литературе обилием гистограмм (полигонов) распределения. Именно гистограммы оказались несравненно "доходчивыми", доступными восприятию и манипуляциям. К сожалению, гистограммы лишены метрологических свойств, как отмечалось выше. Исследователи нередко делают по гистограммам далеко идущие выводы, в частности, о "бимодальности" и даже "многомодальности". В реальности могут присутствовать смеси нескольких ансамблей, но могут быть и неверно избранные теоретические распределения.
"Доходчивость" вероятностного графика - дело привычки, главное, доступность статистическим расчетам.
На вероятностном графике можно изобразить доверительные интервалы с избранной ? для любого критерия согласия - по табличным значениям квантилей. Стандартные критерии согласия будут представлены кривыми, "симметричными" относительно прямой Fт(х). Кривизна эта усложняет графические расчеты.
Мощные критерии согласия содержат весовую функцию, которая увеличивает "вклад" реализации по мере удаления от центра. Графически этот прием отображается спрямлением доверительных интервалов. Аналитическое выражение весовой функции здесь не рассматривается, как и все прочие формулы. Констатируется лишь, что нет препятствий для формирования такой функции. Для критериев с табулированными квантилями доступны расчеты взаимосвязей между данными в численной форме.
Для вероятностного графика являются предпочтительными доверительные интервалы, параллельные прямой Fт(х) т.е. прямые, параллельные и равноудаленные от Fт(х).
Рис. 28. Построение доверительных интервалов.
Здесь а и в - ширина доверительных интервалов в долях меры рассеивания ?.
Если задача решается "для себя", то параллельные интервалы являются самыми удобными. Ширина этих интервалов считывается по вертикальному масштабу - в долях меры рассеивания. Между интервалами укладываются все значения FЭ(х) (см. рис. 28).
Для читателей посторонних, необходимо пересчитывать на общепринятые критерии согласия данные из зоны центра группирования. В областях экстремальных значений официальные кривые разойдутся на неприемлемые для многих задач расстояния. Придется вводить мощный критерий с весовой функцией. Во всех сомнительных ситуациях можно установить истину исключительно повторными экспериментами, оцениваемыми на сходимость с расчетными данными.
Нередки Fэ(х), которые хорошо аппроксимируются прямой линией, но есть одна или несколько точек, досадно отклонившихся от избранной гипотезы. Возникает соблазн исключить их из анализа, тем более что есть руководства, советующие признавать "заблудшие" точки выбросами. Это предложения весьма некорректны, категорически нельзя подгонять эксперимент под модель. Все точки должны быть оставлены на графике. Наибольшие отклонения ?Хэт оцениваются парой соответствующих квантилей. Аналогичная оценка производится на участках с односторонним положением точек относительно прямой. Названные признаки могут оказаться в последствии либо несущественными, либо, наоборот, успехом научного поиска, только не следствием волюнтаризма.
5.7. Кусочная аппроксимация эмпирических распределений
Точки на поле вероятностного графика нередко располагаются так, что аппроксимировать их можно не менее чем двумя или тремя прямыми (см. рис. 29). В этом случае может быть выбрана гипотеза о смеси двух статистических ансамблей, представленных в выборке в некотором соотношении Z. Более сложные смеси лучше не рассматривать, поскольку для них нужны чрезмерно большие выборки.
Рис. 29. Кусочная аппроксимация (смесь двух статистических ансамблей).
Теоретические функции, аппроксимирующие участки эмпирической функции, строятся точно также, как единственная Fт(х). Однако каждый участок содержит относительно небольшое число точек, представляющих прямую, независимо от других. Чем меньше точек, тем необоснованнее прямая, проведенная в их окрестности. Все прямые на поле вероятностного графика пересекают экстремальные значения вертикальной шкалы. Точки пересечения прямых между собой определяют соотношение Z в смеси, которую представляет выборка.
Достоверность оценки Z определяется шириной доверительных интервалов для каждой из пересекающихся прямых, а также углом между ними. Чем больше этот угол, тем достовернее решение задачи разделения "мух и щей". Если при повторении эксперимента остается необходимость аппроксимации несколькими прямыми, то гипотеза о смеси будет безальтернативной.
Обычно "эффект смеси" получается при добавлении в статистический ансамбль объектов с необычными данными. Например, среди местных покупателей появились приезжие, более "щедрые". Аналогичен итог вычитания из ансамбля части объектов, к примеру, среди покупателей редки пенсионеры вечером.
Иногда требуется восстановить статистические меры смешанных в выборке статистических ансамблей. В литературе часто упоминаются "бимодальные" распределения. Несколько модальных значений является следствием смеси. Однако искать моды по гистограммам, как это часто делают, рискованно из-за методических погрешностей. Вероятностные графики не вносят методические погрешности, однако сама постановка задачи вносит многозначность решения. Выборку делят не две части - с наиболее вероятностной принадлежностью к одной части смеси и с неизвестной принадлежностью. В зоне пересечения прямых точки могут быть из обеих частей смеси с равной вероятностью. Задача решается путем последовательного перебора адресации сомнительных точек в обе части и построения искомых функций.
5.8. Анализ отклонений эмпирических данных от Fт(х)
Отклонение эмпирических данных от теоретических анализируются в задачах оценок погрешностей измерений, представительности выборок, достоверности квантилей и т.п. Предполагается в этих задачах, что теоретическая функция Fт(х) адекватно представляет статистический ансамбль. Эмпирические значения отклоняются соответственно гипотезе, которую требуется проверить. К примеру, на данные о погоде за год накладываются погрешности градусника. Есть теоретическая функция распределения температур Fт(Т) и эмпирическая Fэ(Т), по которой надо проверить гипотезу.
Рис. 30. Анализ погрешности измерений градусника.
Здесь Fт(?) - функция распределения погрешностей градусника. Fт(Т) и Fэ(Т) - функция распределения температур теоретическая и эмпирическая.
Предполагается по гипотезе, что показания градусника имеют рассеяние, соответствующее НР. Поэтому измеряются на поле вероятностного графика расстояние по горизонтали между эмпирическими точками и реализациями Fэ(Тi) - Fт(Тi) = ?Тi (см. рис. 30). Для ?Тi строится горизонтальный масштаб, достаточно "растянутый". Под ним размещаются точки, а по ним строится новая функция распределения отклонений Fэ(?Тi). Если гипотеза верна, то новая функция будет хорошо аппроксимироваться НР, ее среднее квадратичное отклонение будет определять погрешность термометра случайную, а отклонение среднего значения - систематичную.
5.9. Анализ взаимосвязей между параметрами
Многие объекты характеризуются несколькими признаками, причем между ними могут быть самые разнообразные связи: от детерминированных до полной взаимонезависимости. Например, вес и габариты плат связаны однозначно, а проводимость с твердостью взаимонезависимы. Потери на разных частотах имеют сложные взаимосвязи. Маркетологов обычно интересует, как сочетания признаков товара связаны с объемами продаж, сроками и ценами.
Рис. 31. Корреляционный график взаимосвязи двух параметров Х и Y.
Принято оперировать корреляционными зависимостями между параметрами. Анализируют поле корреляции, измеряя пару значений параметров X и Y у очередного изделия и откладывая их в виде абсциссы и ординаты. Это поле делят интервалами, считают средние интервальные значения и по ним строят зависимости одного параметра от другого - линии регрессии (см. рис. 31).
Практическое применение как корреляционного так и регрессионного анализа ограничено парными взаимосвязями. Обычно приходится оперировать 3-5 параметрами, так что парные регрессии недостаточно информативны. Кроме того, накладываются ограничения на соответствие НР.
Анализ взаимосвязей параметров на вероятностном графике не имеет названных ограничений. Для каждого параметра строится горизонтальная ось X,Y,Z и т.п. (см. рис. 32). Все комплекты показаний на очередные изделия нумеруются. Номера откладываются по всем осям точно так же, как выше размещались точки. Построение вероятностного графика для каждой оси ведется точно так же, как рассмотрено выше для одного параметра, но вместо точек ставят маленькие номера. Оси целесообразно разместить "лесенкой" с тем, чтобы было удобнее считывать информацию. Кроме того, расстояния между экстремальными значениями (Rx, Ry, Rz) по каждой оси целесообразно изображать равными, выбирая соответствующие масштабы. Тогда все построенные функции будут, примерно, параллельными. Вертикальный масштаб может быть общим для всех функций или индивидуальным, если законы распределения определяются точно также как для "одинарных" функций.