ГОЛУБКОВ E П МАРКEТИНГОВЫE ИССЛEДОВАНИЯ ТEОРИЯ МEТОДОЛОГИЯ И ПРАКТИКА УЧEБНИК М ФИНПРEСС 2003 496 С 9

Рассмотрим основные понятия, используемые при проведении выборочных исследований.
На данном этапе маркетинговых решений возникает необходимость получить информацию о параметрах "группы", среди членов которой будет проводиться маркетинговое исследование. Например, управляющий маркетингом желает иметь данные об объеме сбыта продуктов его компании через различные типы розничных магазинов ("группа"). Такая "группа" в статистике называется генеральной совокупностью или просто совокупностью. Иногда совокупность является достаточно малой по своей численности, и менеджер может изучить всех ее членов. Обычно же это сделать невозможно: изучить, например, мнение всех детей возраста от 3-х до 5 лет относительно игрушек определенного типа. Следовательно, проводится изучение только части совокупности, называемой выборкой.
Выборка является базовым уровнем проводимых исследований.
Необходимо отметить, что, поскольку выборка является частью изучаемой совокупности, полученные от выборки данные скорее всего не будут в точности соответствовать данным, которые можно было бы получить от всех единиц совокупности. Различие между данными, полученными от выборки, и истинными данными называется ошибкой выборки. Ошибка выборки обусловливается двумя факторами: методом формирования выборки и размером выборки. Эти вопросы будут рассмотрены ниже.
Формирование выборки прежде всего основывается на знании контура выборки (sampling frame), под которым понимается список всех единиц совокупности, из которого выбираются единицы выборки. Например, если в качестве совокупности рассматривать все автосервисные мастерские города Москвы, то надо иметь список таких мастерских, рассматриваемый как контур, в пределах которого формируется выборка.
Контур выборки неизбежно содержит ошибку, называемую ошибкой контура выборки и характеризующую степень отклонения от истинных размеров совокупности. Очевидно, что не существует полного официального списка всех автосервисных мастерских города Москвы, включая полулегальный и нелегальный бизнес в данной области. Исследователь должен информировать заказчика работы о размерах ошибки контура выборки.
Существуют три главные проблемы формирования выборки.
Прежде всего, исходя из сути рассматриваемой задачи, необходимо определить, кто является единицей выборки. Например, фирма - производитель сотовых телефонов решила изучить потенциальный рынок на свою продукцию. Было принято решение изучить мнение по данному вопросу как лиц, принимающих решения по выбору коммуникационного оборудования в различных организациях, так и глав семейств, определяющих данную политику в семье.
Далее необходимо четко определить, кто рассматривается в качестве единицы выборки. В нашем примере единицами выборки являются начальники коммуникационных отделов и главы семейств.
Очень важным является также определение контура выборки. Например, список всех домовладельцев определенного региона. В целях выполнения правила репрезентативности проводимого исследования необходимо обратить внимание на метод, с помощью которого выбираются единицы выборки из контура выборки. Здесь разговор идет о планировании выборки.
И наконец, необходимо решить вопрос об объеме выборки, который определяет число изучаемых единиц выборки. Объем выборки очень редко зависит от размера совокупности. Поэтому объем выборки для одного региона необязательно существенно меньше объема выборки для государства в целом.
При формировании выборки используются вероятностные (случайные) и не вероятностные (неслучайные) методы.
Если все единицы выборки имеют известный шанс (вероятность) быть включенными в выборку, то выборка называется вероятностной (случайной). Если этот шанс (вероятность) неизвестен, то выборка называется невероятностной (неслучайной). К сожалению, в большинстве маркетинговых исследований из-за невозможности точного определения размера совокупности не представляется возможным точно рассчитать вероятности. Поэтому термин "известная вероятность" скорее основан на использовании определенных методов формирования выборки, чем на знании точных размеров совокупности.
Вероятностные методы включают в свой состав: простой случайный отбор, систематический отбор, кластерный отбор и стратифицированный отбор.
Простой случайный отбор предполагает, что вероятность быть избранным в выборку известна и является одинаковой для всех единиц совокупности. Вероятность быть включенным в выборку определяется отношением объема выборки к размеру совокупности.
Простой случайный отбор может осуществляться с помощью следующих методов: формирование выборки вслепую и с помощью таблицы случайных чисел.
При использовании метода формирования выборки вслепую единицы совокупности в соответствии с их фамилиями, названиями или другими признаками вносятся в карточки, которые в перемешанном виде помещаются в какую-то непрозрачную емкость (ящик, коробку и т.п.). Из данной емкости кто-то случайным образом вытягивает число карточек, определяемое объемом выборки.
В таблицах случайных чисел содержатся числа, порядок включения которых в таблицу осуществлен случайным образом. Единицам совокупности присваивают порядковые номера. В таблице случайных чисел выбирают любую начальную точку и, двигаясь в произвольном направлении и произвольно меняя направление движения, выбирают необходимое количество номеров из числа присвоенных, равное заранее установленному объему выборки.
Использование простого случайного отбора гарантирует, что каждая единица совокупности известна и имеет равные шансы быть включенной в выборку.
Однако, чтобы можно было эти методы использовать, необходимо предварительно определить каждую единицу совокупности, что при больших размерах совокупности сделать достаточно сложно, а порой и невозможно.
Данный недостаток существенно снижается при использовании компьютера для присвоения единицам совокупности номеров и формирования выборки. При телефонном интервью компьютер может генерировать случайным образом телефонные номера: он имеет генератор случайных чисел.
Начальная часть метода систематического отбора соответствует начальной части метода простого случайного отбора: необходимо получить полный список единиц генеральной совокупности.
Однако далее вместо присвоения порядковых номеров используется показатель "интервал скачка", рассчитанный как отношение размера совокупности к объему выборки. Например, если используется телефонный справочник и интервал скачка был определен равным 250, то это означает, что каждый 250-й телефонный номер включается в выборку. Для определения же начальных страницы и колонки справочника используются случайные числа.
Очевидно, что данный метод является более экономичным и быстрым по сравнению с методом простого случайного отбора. Случайные числа используются только на начальной стадии его реализации. Вместе с тем такой метод дает менее репрезентативные результаты по сравнению с методом простого случайного отбора.
Особенно широко метод систематического отбора используется, когда для различных видов совокупностей имеются различные справочники, списки, спецификации и т.п. материалы.
Другим методом вероятностного отбора является кластерный отбор, основанный на делении совокупности на подгруппы, каждая из которых представляет совокупность в целом. Базовая концепция данного метода очень похожа на базовую концепцию метода систематического отбора, однако реализация этой концепции осуществляется по-другому. Предположим, что исследуется мнение населения какого-то региона относительно марки какого-то товара.
Регион разбивается на четко определяемые части (кластеры), например области. Исследователь может считать, что выделенные кластеры являются идентичными и мнение населения этих областей характерно для региона в целом. Далее одна из областей (один кластер) выбирается случайным образом, определяется совокупность для этой области, в ней проводится соответствующее исследование, а выводы обобщаются на совокупность всего региона (одноступенчатый подход).
Формирование выборки можно осуществить и на основе двухступенчатого подхода. В этом случае после первоначального случайного формирования выборки кластеров (в нашем примере случайным образом выбирается несколько областей) используется один из вероятностных методов для проведения исследований среди единиц выборки. Очевидно, что репрезентативность результатов, полученных на основе исследований для группы кластеров, является более высокой, чем для одного кластера. Однако этот подход является более дорогим по сравнению с одноступенчатым подходом.
Иногда при проведении исследований, когда общую исследуемую территорию можно разбить на отдельные зоны, при формировании выборки используется выборочная решетка, накладываемая на карту обследуемой территории. Каждая ячейка решетки определяет конкретный кластер. Далее используется один из описанных методов формирования выборки. К сожалению, метод выборочной решетки не учитывает административные, естественные (реки, улицы и т.п.) и другие границы.
В основе всех описанных методов лежит предположение, что любая совокупность характеризуется симметричным распределением ее ключевых характеристик. Другими словами, каждая выборка достаточно полно характеризует всю совокупность, различные крайности в выборке уравновешивают друг друга. Но такая ситуация на практике встречается крайне редко. Скажем, исследуется рыночный потенциал определенного региона для какого-то товара. Население больших, средних и малых городов, сельской местности данного региона отличается по уровню образования, дохода, образу жизни и т.п.
В случае несимметричного распределения совокупности последняя разделяется на различные подгруппы (страты), например по уровню доходов, и выборки формируются из этих подгрупп, по сути дела являющихся сегментами рынка. Такой метод носит название стратифицированного отбора.
При использовании данного метода прежде всего следует выбрать некоторую наблюдаемую характеристику (признак), характеризующую каждую единицу совокупности, например уровень дохода.
Далее для каждой страты с помощью случайного отбора формируется выборка.
Если размер выборки для определенной страты пропорционален размеру страты по отношению ко всей совокупности, то выборка называется пропорционально стратифицированной. В случае непропорционально стратифицированной выборки необходимо использовать весовые коэффициенты, уравновешивающие размеры страт.
При применении невероятностных методов отбора формирование выборки осуществляется без использования понятий теории вероятностей, вследствие чего невозможно рассчитать вероятность включения в выборку единицы совокупности.
Кратко охарактеризуем следующие невероятностные методы отбора: отбор на основе принципа удобства, отбор на основе суждений, формирование выборки в процессе обследования и формирование выборки на основе квот.
Смысл метода отбора на основе принципа удобства заключается в том, что формирование выборки осуществляется самым удобным с позиций исследователя образом, например, с позиций минимальных затрат времени и усилий, с позиции доступности респондентов. Выбор места исследования и состава выборки производится субъективным образом, например, опрос покупателей осуществляется в магазине, ближайшем к месту жительства исследователя. Очевидно, что многие представители совокупности не принимают участия в опросе.
Данный метод скорее применяется для поиска респондентов с заданными характеристиками. Например, в универсаме путем первоначального задания вопросов выявляется, что из себя представляют опрашиваемые и только некоторые из их числа подвергаются дальнейшему обследованию. Данный метод является дешевым и простым, и существуют методы оценки ошибки формирования выборки при его использовании, которые будут рассмотрены ниже.
Формирование выборки на основе суждения основано на использовании мнения квалифицированных специалистов, экспертов относительно состава выборки. На основе такого подхода часто формируется состав фокус-группы. Например, изучается потребность в издании кулинарной книги для приготовления в микроволновой печи низкокалорийной пищи. На основе мнения исследователей в состав фокус-группы было включено 12 домохозяек; шестеро из них владело микроволновыми печами более трех лет, трое - менее трех лет и трое только собирались их купить. По мнению исследователей, такой состав группы достаточно полно соответствует целям проводимого исследования. Результаты работы фокус-группы были признаны удовлетворительными; они послужили основой для крупномасштабных региональных опросов, проведенных на основе вероятностных методов.
Формирование выборки в процессе опроса основано на расширении числа опрашиваемых на основе предложений респондентов, которые уже приняли участие в обследовании. Первоначально исследователь формирует выборку намного меньшую, чем требуется в проводимом исследовании, затем она по мере проведения обследования расширяется. Данный метод применяется там, где контуры выборки являются очень ограниченными, например, при проведении маркетинговых исследований продукции производственно-технического назначения.
Формирование выборки на основе квот (квотный отбор) предполагает предварительное, исходя из целей исследования, определение численности групп респондентов, отвечающих определенным требованиям (признакам). Например, в целях исследования было принято решение, что в универсаме должно быть опрошено пятьдесят мужчин и пятьдесят женщин. Интервьюер проводит опрос, пока не выберет установленную квоту. Такой метод обычно применяется в случае, когда имеется четкое суждение о характеристиках респондентов, мнение которых целесообразно изучить в проводимом исследовании. Он дает возможность контролировать деятельность интервьюеров, ограничивая выбор респондентов определенными требованиями.
На практике имеет место параллельное использование нескольких методов формирования выборки. Так, формирование выборки для оценки мнения населения России относительно различных марок какого-либо товара, например холодильника, может осуществляться по следующей схеме [11]:
1. Россия, согласно ее административно - территориальному делению, делится на 89 субъектов Федерации.
2. Осуществляется случайным образом выбор девяти субъектов (исключая Москву и С.-Петербург).
3. Все населенные пункты (исключая Москву и С.-Петербург) в зависимости от численности населения делятся на шесть групп: до 1000 жителей, от 1000 до 10 000 (поселки), от 10 000 до 100 000, от 100 000 до 500 000, свыше 500 000 (города). Москва и С.-Петербург исследуются отдельно.
4. На основе квотного метода устанавливается, что для каждого из девяти выбранных субъектов Федерации исследуются три города и два поселка (по крайней мере, по одному населенному пункту из этих двух типов поселков и трех типов городов должно принадлежать каждой категории). Для этого берется каждый пятый населенный пункт из справочника Госкомстата "Численность населения Российской Федерации по городам, рабочим поселкам и районам на 1 января 1993 г." и определяется, в какую из категорий он попадет (систематический отбор). Так поступают до тех пор, пока не наберется нужное количество населенных пунктов.
Если, дойдя до конца списка, не будет найдено квотное число населенных пунктов, процесс выбора населенных пунктов начинается сначала, но берется каждый четвертый населенный пункт, и т.д.
5. Выбирается случайным образом в каждом выбранном городе и поселке по меньшей мере 20 респондентов.
Таким образом, кроме Москвы и С.-Петербурга должно быть проинтервьюировано 900 респондентов. В Москве и С.-Петербурге опрашивается по 50 респондентов. В итоге должно быть проинтервьюировано 1000 респондентов.

4.11.2. Этапы разработки выборочного плана

Рассмотренные выше понятия выстраиваются в определенную логическую последовательность отдельных шагов (этапов) по разработке выборочного плана, целью которого является получение конечного варианта выборки. Можно выделить следующие этапы разработки выборочного плана:
1. Определение соответствующей совокупности.
2. Получение "списка" совокупности.
3. Проектирование выборочного плана.
4. Определение методов доступа к совокупности.
5. Достижение нужной численности выборки.
6. Проверка выборки на соответствие требованиям.
7. В случае необходимости формирование новой выборки.
Кратко охарактеризуем отдельные этапы разработки выборочного плана.
На первом этапе определяется целевая совокупность, определяемая целями исследования. Четко устанавливаются характеристики, которым должны удовлетворять единицы совокупности и которые дают возможность отличить целевую совокупность от других возможных совокупностей.
На втором этапе устанавливается, откуда может быть получен перечень единиц совокупности. Это нужно для установления контура выборки. Здесь используются соответствующие справочники, данные переписи населения и местных органов власти, материалы различных консультационных организаций.
На данном этапе также необходимо оценить ошибку контура выборки. Для этого необходимо: 1. Определить, насколько список людей (юридических лиц), включенных в контур выборки, отличается от совокупности в целом. 2. Установить, какой контингент людей не вошел в состав контура выборки.
Обычно ответы на начальные вопросы вопросника дают возможность идентифицировать опрашиваемых и установить, входят ли они в состав изучаемой совокупности. Далее, если исследователь не может установить причины, по которым невключение в контур выборки определенных единиц совокупности негативно влияет на состав окончательной выборки, то ошибка контура выборки считается допустимой.
Например, в городе автосервисная компания изучает мнение водителей относительно содержания определенного ремонтного набора для автомобиля. Было принято, что наиболее полным списком совокупности является список автовладельцев, имеющийся в городской ГАИ. Однако не все новые жильцы-автовладельцы зарегистрировали автомобили в положенные сроки. Кроме того, услугами автосервисной компании могут пользоваться проезжие автовладельцы. Но число незарегистрированных автовладельцев скорее всего будет незначительным на фоне общего числа автовладельцев города, а вкусы и потребности проезжих автовладельцев вряд ли кардинальным образом отличаются от потребностей автовладельцев-резидентов. Поэтому в данном случае ошибку контура выборки можно считать допустимой. (Мы не рассматривали вопрос: а возможно ли в ГАИ получить данный список.)
На третьем этапе с учетом ранее выполненных работ осуществляется проектирование самой выборки. Здесь необходимо найти баланс между структурой выборки, затратами на сбор данных и объемом выборки; в деталях обсудить выборочные методы. Выборочный план должен соответствовать целям проводимого обследования и существующим ограничениям.
Определение методов доступа к совокупности обусловливается тем, кто осуществляет сбор данных. Многие маркетинговые исследования основаны на привлечении фирм, специализирующихся на сборе информации. Такие фирмы обычно имеют свои отработанные методы выхода на изучаемую совокупность. Например, фирмы, проводящие телефонное интервьюирование, имеют свои подходы к осуществлению повторных звонков в случае, если телефон был занят или на звонок никто не ответил. Это касается также числа повторных звонков по занятому номеру.
Достижение нужной численности выборки осуществляется в два этапа. Прежде всего устанавливается единица выборки, затем от этой единицы должна быть получена требуемая информация. Однако очевидно, что на ряд выбранных респондентов в силу тех или иных причин невозможно выйти и что не каждый выбранный респондент выразит желание отвечать на вопросы. Возникает проблема замены респондентов, которая может быть решена с помощью трех методов: выбор следующего по списку респондента, использование выборки больших размеров и формирование повторной выборки.
Первый метод чаще всего применяется в случае систематической выборки. Скажем, в качестве контура выборки используется телефонный справочник и необходимо опросить каждого сотого абонента. Если не удается получить ответ от первого респондента, то звонят абоненту, следующему по справочнику, и так поступают, пока не удастся получить ответы на задаваемые вопросы; только после этого осуществляется "скачок" в сто номеров.
Использование выборки больших размеров осуществляется в случае, когда заранее известен процент респондентов, не принимающих участие в опросе. Например, известно, что на письма при почтовом опросе отвечает только 20% респондентов (в ряде случаев этот процент бывает существенно меньше). Поэтому, чтобы получить окончальную выборку численностью в 200 человек, письма следует направить тысяче потенциальных респондентов.
Если процент ответов намного ниже, чем ожидалось, то контуры исходной выборки расширяются за счет дополнительных имен, найденных, скажем, случайным образом. В этом заключается смысл метода формирования повторной выборки.
Проверка выборки на соответствие требованиям может осуществляться по-разному, например, путем сравнения профиля данной выборки с профилем выборки, использованной ранее при проведении аналогичных исследований. Цель данной проверки заключается в том, чтобы убедить клиента в репрезентативности выборки.
Такая проверка может быть осуществлена только в случае, когда возможно провести сравнение данной выборки с аналогичными выборками, использованными ранее.
Формирование новой выборки осуществляется тогда, когда проверка показала, что выборка не представляет совокупность в целом. В этом случае выбираются новые респонденты, и они добавляются к ранее использованной выборке, пока не достигается удовлетворительный уровень репрезентативности.

4.11.3. Определение объема выборки

В реальности решение об объеме выборки является компромиссом между теоретическими предположениями о точности результатов обследования и возможностями их практической реализации, прежде всего имеются в виду затраты на проведение опроса.
Следует отметить, что объем выборки никак не влияет на репрезентативность полученных результатов. Предположим, например, что в целях изучения степени использования в России персональных компьютеров в научной работе проводился опрос на основе принципа удобства на одном из московских перекрестков. И хотя было опрошено 5000 респондентов, полученные результаты не являются репрезентативными даже для Москвы. Это обусловлено тем, что был использован невероятностный метод формирования выборки, который в данном случае применять было нельзя.
На практике используется несколько подходов к определению объема выборки. Прежде всего опишем наиболее простые.
Произвольный подход основан на применении "правила большого пальца". Например, бездоказательно принимается, что для получения точных результатов выборка должна составлять 5% от совокупности. Данный подход является простым и легким в исполнении, однако не представляется возможным установить точность полученных результатов. При достаточно большой совокупности он к тому же может быть и весьма дорогим.
Объем выборки может быть установлен исходя их неких заранее оговоренных условий. Скажем, заказчик маркетингового исследования знает, что при изучении общественного мнения выборка обычно составляет 1000-1200 человек, поэтому он рекомендует исследователю придерживаться данной цифры. В случае, если на каком-то рынке проводятся ежегодные исследования, то в каждом году используется выборка одного и того же объема. В отличие от первого подхода здесь при определении объема выборки используется известная логика, которая, однако, является весьма уязвимой. Например, при проведении определенных исследований может потребоваться точность меньше, чем при изучении общественного мнения, да и объем совокупности может быть во много раз меньше, нежели при изучении общественного мнения. Таким образом, данный подход не принимает в расчет текущие обстоятельства и может быть достаточно дорогим.
В ряде случаев в качестве главного аргумента при определении объема выборки используется стоимость проведения обследования. Так, в бюджете маркетинговых исследований предусматриваются затраты на проведение определенных обследований, которые нельзя превышать. Очевидно, что ценность получаемой информации не принимается в расчет. Однако в ряде случаев и малая выборка может дать достаточно точные результаты.
Представляется разумным учитывать затраты не абсолютным образом, а по отношению к полезности информации, полученной в результате проведенных обследований. Заказчик и исследователь должны рассмотреть различные объемы выборки и методы сбора данных, затраты, учесть другие факторы.
Объем выборки может определяться на основе статистического анализа. Этот подход основан на определении минимального объема выборки исходя из определенных требований к надежности и достоверности получаемых результатов. Он также используется при анализе полученных результатов для отдельных подгрупп, формируемых в составе выборки по полу, возрасту, уровню образования и т.п. Требования к надежности и точности результатов для отдельных подгрупп диктуют определенные требования к объему выборки в целом.
Наиболее теоретически обоснованный и корректный подход к определению объема выборки основан на расчете доверительных интервалов. Рассмотрение данного подхода начнем с краткой характеристики ряда базовых понятий математической статистики (см. подробнее, например, в [10]).
Понятие вариации характеризует величину несхожести (схожести) ответов респондентов на определенный вопрос. В более строгом плане вариацией значений какого-либо признака в совокупности называется различие его значений у разных единиц данной совокупности в один и тот же период или момент времени. Результаты ответов на вопросы опроса обычно представляются в форме кривой распределения. При высокой схожести ответов говорят о малой вариации (узкая кривая распределения) и при низкой схожести ответов - о высокой вариации (широкая кривая распределения). На рис. 4.5 приводятся кривые распределения результатов ответа на вопрос: "Сколько миль за год проходит ваш автомобиль?" для низкой и высокой вариации ответов.

6 8 12 15 17 19 20
Оцененный пробег автомобиля (тыс. миль)

Рис. 4.5. Вариация и кривые распределения

В качестве меры вариации обычно принимается среднее квадратическое отклонение, которое характеризует среднее расстояние от средней оценки ответов каждого респондента на определенный вопрос. Можно сравнить среднее квадратическое отклонения для двух выборок и определить, для какой из них вариация является меньшей.
Поскольку все маркетинговые решения принимаются в условиях неопределенности, то это обстоятельство целесообразно учесть при определении объема выборки. Так как определение исследуемых величин для совокупности в целом осуществляется на основе выборочной статистики, то следует установить диапазон (доверительный интервал), в который, как ожидается, попадут оценки для совокупности в целом, и ошибку их определения.
Понятие "доверительный интервал" - это диапазон, крайним точкам которого соответствует определенный процент определенных ответов на какой-то вопрос. Данное понятие тесно связано с понятием "среднее квадратическое отклонение изучаемого признака в генеральной совокупности": чем оно больше, тем шире должен быть доверительный интервал, чтобы включить в свой состав, например, 95% ответов.
Из свойств нормальной кривой распределения вытекает, что конечные точки доверительного интервала, равного, скажем, 95%, определяются как произведение 1,96, называемого нормированным отклонением, на среднее квадратическое отклонение. Числа 1,96 и 2,58 .(для 99%-ного доверительного интервала) обозначаются как Z. Имеются таблицы "Значение интеграла вероятностей", которые дают возможность определить величины Z для различных доверительных интервалов. Доверительный интервал, равный или 95%, или 99%, является стандартным при проведении маркетинговых исследований.
Например, проведено исследование числа визитов автовладельцев в сервисные мастерские за год. Доверительный интервал для среднего числа визитов был рассчитан равным 5-7 визитам при 99%-ном уровне доверительности. Это означает, что если появится возможность провести независимо 100 раз выборочные исследования, то для 99 средних значений числа визитов попадут в диапазон от 5 до 7 визитов - другими словами, 99% автовладельцев попадут в доверительный интервал.
Предположим, было проведено исследование для пятидесяти независимых выборок. Средние оценки для этих выборок образовали нормальную кривую распределения, которая в данном случае называется выборочным распределением. Средняя оценка для совокупности в целом равна средней оценке кривой распределения. Понятие "выборочное распределение" также рассматривается в качестве одного из базовых понятий теоретической концепции, лежащей в основе определения объема выборки.
Очевидно, что ни одна компания не проводит маркетинговых исследований, формируя 50 независимых выборок. Обычно используется только одна выборка. И математическая статистика дает возможность получить некую информацию о выборочном распределении, владея только данными о вариации единственной выборки.
Индикатором степени отличия оценки, истинной для совокупности в целом, от оценки, которая ожидается для типичной выборки, является средняя квадратическая ошибка (см. ниже). Например, исследуется мнение потребителей о новом продукте и заказчик данного исследования указал, что его устроит точность полученных результатов, равная ±5%. Предположим, что 30% членов выборки высказалось за новый продукт. Это означает, что диапазон возможных оценок для всей совокупности составляет 25-35%. Причем чем больше объем выборки, тем меньше ошибка. Высокое значение вариации обусловливает высокое значение ошибки и наоборот.
Теперь, после знакомства с базовыми понятиями, определим объем выборки на основе расчета доверительного интервала. Исходной информацией, необходимой для реализации данного подхода, является: 1. Величина вариации, которой, как считается, обладает совокупность. 2. Желаемая точность. 3. Уровень доверительности, которому должны удовлетворять результаты проводимого обследования.
Когда на заданный вопрос существует только два варианта ответа, выраженные в процентах (используется процентная мера), объем выборки определяется по следующей формуле:

Таблица 4.15
Значение нормированного отклонения оценки (z) от среднего значения в зависимости от доверительной вероятности (?) полученного результата

Например, фирмой, выпускающей покрышки, проводится опрос автолюбителей. Целью обследования является определение процента автолюбителей, использующих радиальные покрышки, поэтому на вопрос: "Используете ли вы радиальные покрышки?" - возможно только два ответа: "Да" или "Нет" (шкала наименований). Если предположить, что совокупность автолюбителей обладает низким показателем вариации, то это означает, что почти каждый опрошенный использует радиальные покрышки. В этом случае может быть сформирована выборка достаточно малых размеров. В формуле (4.1) произведение pq выражает вариацию, свойственную совокупности.
Предположим, что 90% единиц совокупности используют радиальные покрышки. Это означает, что рq = 900. Если принять, что показатель вариации выше (р = 70%), то рq = 2100.
Наибольшая вариация достигается в случае, когда половина совокупности (50%) используют радиальные покрышки, а другая (50%) - не использует. В этом случае произведение рq достигает наибольшего значения, равного 2500.
При проведении обследования следует указать точность полученных оценок. Скажем, было установлено, что 44% респондентов используют радиальные покрышки. В этом случае результаты измерения желательно представить в виде: "Процент автолюбителей, использующих радиальные покрышки, составляет 44% плюс-минус ...%". Величину допустимой ошибки заранее совместно определяют заказчик исследования и исследователь.
Что касается уровня доверительности, то при проведении маркетинговых исследований, как отмечалось выше, обычно рассматриваются только два его значения: 95% или 99%. Первому значению соответствует значение z = 1,96, второму - z = 2,58. Если выбирается уровень доверительности, равный 99%, то это говорит о том, что мы уверены на 99% (другими словами, доверительная вероятность равна 0,99) в том, что процент членов совокупности, попавших в диапазон ± е%, равен проценту членов выборки, попавших в тот же диапазон ошибки.
Принимая вариацию, равную 50%, точность, равную ± 10%, при 95%-ном уровне доверительности, рассчитаем размер выборки:

При уровне доверительности, равном 99%, и е = ±3% n = 1067.
При определении показателя вариации для определенной совокупности прежде всего целесообразно провести предварительный качественный анализ исследуемой совокупности, в первую очередь установить схожесть единиц совокупности в демографическом, социальном и других отношениях, представляющих интерес для исследователя. Возможно проведение пилотного исследования, использование результатов подобных исследований, проведенных в прошлом. При использовании процентной меры изменчивости принимается в расчет то обстоятельство, что максимальная изменчивость достигается для р = 50%, что является наихудшим случаем. К тому же этот показатель радикальным образом не влияет на объем выборки. Учитывается также мнение заказчика исследования об объеме выборки.
Возможно определение объема выборки на основе использования средних значений, а не процентных величин, как это делалось выше. Предположим, что выбран уровень доверительности, равный 95% (z=1,96), среднее квадратическое отклонение (s) рассчитано равным 100 и желаемая точность (погрешность) составляет ±10. Определение объема выборки (n):

На практике, если выборка формируется заново и схожие опросы не проводились, то s не известно. В этом случае целесообразно задавать погрешность е в долях от среднеквадратического отклонения. Расчетная формула преобразуется и приобретает следующий вид:

Выше шел разговор о совокупностях очень больших размеров, характерных для рынков потребительских товаров. Однако в ряде случаев совокупности на являются столь большими - например, на рынках отдельных видов продукции производственно-технического назначения.
Обычно, если выборка составляет менее пяти процентов от совокупности, то совокупность считается большой и расчеты проводятся по вышеприведенным правилам.
Если же объем выборки превышает пять процентов от совокупности, то последняя считается малой и в вышеприведенные формулы вводится поправочный коэффициент. Объем выборки в данном случае определяется следующим образом:

где n' - объем выборки для малой совокупности;
n - объем выборки (или для процентных мер, или для средних), рассчитанный по приведенным выше формулам;
N - объем генеральной совокупности.

Например, изучается мнение членов совокупности, состоящей из 1000 компаний, относительно изменения местной налоговой политики органами власти определенного региона. Вследствие отсутствия информации о вариации принимается наихудший случай 50:50. Решено использовать уровень доверительности, равный 95%. Заказчик исследования заявил, что его устроит точность результатов ±5%. Тогда, используя формулу для процентной меры, получим

Очевидно, что использование выборки меньших размеров приведет к экономии времени и средств.
Данный подход к определению объема выборки с известными оговорками может быть использован и при определении численности панели и экспертной группы (см. соответствующие разделы данной книги).
Приведенные формулы расчета объема выборки основаны на предположении, что все правила формирования выборки были соблюдены и единственной ошибкой выборки является ошибка, обусловленная ее объемом. Однако следует помнить, что объем выборки определяет точность полученных результатов, но не их представительность. Последняя определяется методом формирования выборки. Все формулы для расчета объема выборки предполагают, что репрезентативность гарантируется использованием корректных вероятностных процедур формирования выборки.
Помимо четкого планирования репрезентативности выборки, нельзя распространять полученные результаты за ее границы. Так, результаты исследования мнения массового потребителя города Москвы о товарах определенной фирмы нельзя распространять на всю Россию. Далее, можно быть поставленным в тупик разными результатами обследования степени лояльности потенциальных покупателей к определенной марке пылесоса (в одном исследовании была названа цифра 10%, в другом случае - 25%). Дело в том, что в первом случае цифра была получена от общего числа опрошенных, а во втором случае - только от числа тех покупателей, которые твердо решили приобрести пылесос. Поэтому для вдумчивого маркетолога очень важными являются те пояснения, которые сопровождают социологические данные (как минимум, формулировки вопросов и описание выборки).

4.12. Сбор данных

4.12.1. Организация и проведение сбора данных

Существует по крайней три альтернативных подхода к сбору данных: осуществлять это самим, осуществлять путем создания специальной группы или путем привлечения коммерческих компаний, специализирующихся на сборе данных.
В первом случае сотрудники маркетинговой службы организации своими силами осуществляют сбор данных, скажем, путем интервьюирования. Очевидно, что такая организация должна обладать достаточно развернутым штатом сотрудников. Однако и в этом случае весьма проблематично проведение сбора данных в широком, например национальном, масштабе.
Специальная группа обычно комплектуется за счет специалистов не очень высокой квалификации, например, студентов для проведения телефонного или персонального интервьюирования. В этом случае с интервьюерами необходимо провести несколько тренировочных занятий. Необходимы контроль за качеством собираемой информации (не заполняются ли анкеты самим интервьюером?), мотивация труда интервьюеров.
За последние годы как у нас в стране, так и за рубежом начинающие дело небольшие компании и такие гиганты, как "Дженерал Моторз", все чаще прибегают к услугам специализированных компаний, осуществляющих маркетинговые исследования на коммерческой основе. К их числу относятся и компании, занимающиеся только сбором маркетинговой информации.
К числу достоинств привлечения к проведению маркетинговых исследований таких компаний относится следующее:
1. Большой опыт проведения подобных исследований. Например, в определенном универсаме на протяжении многих лет компания проводит опрос покупателей или она регулярно осуществляет опрос общественного мнения. Такие компании обычно имеют высококвалифицированный персонал. Сбор данных обычно осуществляется обученными интервьюерами, которых привлекают для работы компания.
2. Наличие классов, оборудованных современными техническими и электронными средствами, для тренировки интервьюеров практически в реальных условиях.
3. Быстрота проведения исследований даже в случае удаления маркетинговой компании от респондентов на тысячи километров.
4. Контроль качества как стандартная процедура процесса сбора данных. Существуют различные приемы проверки добросовестности интервьюеров и качества собранной ими информации. Например, путем установления вторичных контактов с ранее привлеченными респондентами.
Однако стоимость услуг маркетинговых компаний в три-пять раз превышает стоимость других двух подходов к сбору данных. Поэтому ее необходимо сопоставлять с качеством и надежностью получаемой информации.
Кроме того, поскольку заказчик исследования сам не участвует в его проведении, особенно в случае, когда такой заказ для него имеет место впервые, то для него может показаться странным, что можно провести сбор данных в разных регионах, не покидая офиса компании. Представители компании должны развеять такие сомнения.
Большое значение имеет правильное проведение сбора данных. При личном интервьюировании необходимо представиться и сказать несколько слов о проводимом исследовании. Например: "Один из российских производителей холодильников хочет лучше узнать покупателей своей продукции. На основе результатов этого исследования будут изменены некоторые характеристики продукции и условия обслуживания для лучшего удовлетворения желаний покупателей". При использовании анкет данная информации должна содержаться в ее вводной части.
Следует подчеркивать конфиденциальность ответов. Скажите, сколько времени займет опрос. Не начинайте с вопросов о доходах и других вопросов личного характера.
Помогайте респонденту разобраться в сложных вопросах. Например, при ранжировании характеристик холодильника объясните методику определения степени важности отдельных характеристик. Предложите дать разъяснения, если возникнут вопросы.

4.12.2. Ошибки сбора данных

При сборе данных могут иметь место многие погрешности - Другие, нежели ошибки выборки, называемые поэтому невыборочными ошибками. Эти ошибки включают выбор неверных элементов выборки для взятия интервью, неучет мнения тех, кто отказался давать интервью или не оказался дома, ложные оценки, даваемые интервьюируемыми преднамеренно. Возможна фальсификация полученных данных со стороны интервьюера. Ошибки могут совершать и добросовестные интервьюеры при переписывании собранной информации из анкет.
В отличие от ошибок выборки невыборочные ошибки не могут быть измерены. Поэтому важным является заранее выяснить возможные причины невыборочных ошибок и предпринять соответствующие меры по их предотвращению.
Одним из критериев выбора определенного подхода к сбору данных является величина невыборочной ошибки. Невыборочная ошибка включает в свой состав: 1) все типы ошибок, обусловленные тем, что не все респонденты дали ответы; 2) ошибки сбора данных; 3) ошибки обращения с полученными данными; 4) ошибки анализа собранных данных; 5) ошибки интерпретации полученных результатов. Кроме того, существуют ошибки, обусловленные нечетким выявлением проблем, использованием неоднозначных терминов и т.п.
Невыборочные ошибки можно классифицировать на ошибки: лиц, осуществляющих сбор данных, и респондентов. Кроме того, невыборочные ошибки подразделяются на преднамеренные и на непреднамеренные.
Преднамеренные ошибки лица, собирающего информацию, имеют место, когда оно сознательно нарушает установленные исследователем требования к сбору данных.
Такое нарушение может носить характер обмана (например, сам заполнил анкеты) и стремления склонить респондента к определенному ответу путем использования особых слов, интонации, мимики, жестов, подсказки определенных ответов и т.п.
Непреднамеренная ошибка лица, собирающего информацию, главным образом определяется неправильным пониманием со стороны интервьюера отдельных аспектов сбора данных, изложенных в различных инструкциях, хотя ему и кажется, что он все делает правильно. Часто такая ошибка обусловлена существенным разрывом в уровне образования у исследователя и у интервьюера.
Кроме того, причиной непреднамеренной ошибки может быть усталость лица, собирающего информацию, особенно когда в течение рабочего дня было опрошено достаточно большое число респондентов. По этой причине может быть ослаблен контроль заполнения анкет; приглашение принять участие в опросе произносится усталым, раздражительным голосом, в результате чего потенциальный респондент откажется принять участие в опросе, и т.п.
Существуют два вида преднамеренных ошибок респондентов.
Первый вид обусловлен стремлением респондента фальсифицировать свои ответы вследствие определенного замешательства, нежелания отвечать на персональные вопросы (об уровне дохода, о национальности, возрасте, семейном положении и т.п.), из-за подозрения, что интервьюер преследует какие-то свои цели.
Второй вид обусловлен отказом респондента отвечать на вопросы из-за своей занятости, нежелания открывать личные аспекты своей жизни, предубежденности к опросам.
Непреднамеренная ошибка респондента возникает в случае, когда респондент, думая, что говорит правду, на самом деле дает ошибочный ответ. Это обусловлено плохим пониманием вопросов и/или инструкции по заполнению анкет, использованием предположений вместо точных знаний (вследствие плохого знания предмета исследования, недостаточно хорошей памяти и т.п.). Далее следует выделить недостаток внимания при ответах на вопросы из-за отсутствия мотивации, отвлечения от ответов на вопросы (телефонный звонок, крик ребенка и т.п.), усталости респондента, желания скорее ответить на вопросы.

4.12.3. Контроль качества собираемых данных

Контроль за преднамеренными ошибками интервьюеров осуществляется двумя способами: путем надзора за их работой и путем проверки выполненной работы. Надзор осуществляется, например, путем незаметного подключения к телефонной линии, по которой берется интервью. При устном интервьюировании интервьюера может сопровождать проверяющее лицо.
Цель проверки проведенного опроса заключается в выявлении случаев обмана и фальсификации со стороны интервьюеров.
Для этого можно установить повторный контакт с рядом ранее опрошенных респондентов и узнать, принимали ли они участие в опросе, и проверить выборочно их ответы на вопросы. Кроме того, опытный проверяющий, просматривая заполненные ответы, может обнаружить какие-то несоответствия. Например, очень молодой человек оказался отцом многодетной семьи.
Уменьшение непреднамеренной ошибки интервьюеров осуществляется путем проведения ориентационных сессий и путем разыгрывания ролей. В первом случае производится ознакомление интервьюеров с целями обследования, с вопросником, с инструкцией по его заполнению. Разыгрывание ролей предполагает пробное заполнение анкет, когда одни из участников сессии исполняют роли интервьюеров, а другие - респондентов.
Контроль за преднамеренными ошибками респондентов направлен на снижение числа случаев лжи и отказа участвовать в обследовании. Для этого прежде всего необходимо сохранять анонимность и конфиденциальность (данные личного характера, останутся известными только респонденту). Далее, используются различные меры стимулирования участия респондентов в обследовании (денежная оплата, подарки, сувениры). Проверка достоверности ответов заключается в поиске ложных ответов путем их просмотра. Например, может быть обнаружено, что выглядящий немолодым респондент называет молодой возраст, потрепанно одетый - укажет высокий заработок. В ряде случаев для преодоления нежелания правдиво отвечать на вопросы последние задаются от третьего лица. Например, мужчине средних лет может быть задан вопрос: "Как вы думаете, будет ли использовать человек вроде вас данное средство от облысения?"
Контроль за непреднамеренными ошибками респондентов осуществляется в различных формах. Необходимо тщательно составлять вопросники и инструкции к ним, использовать разнонаправленные шкалы измерений. Для уменьшения числа ответов-предположений в шкалы вводятся такие градации, как "не имею мнения", "не могу вспомнить", "не уверен". Нецелесообразно в шкалах для всех вопросов с одной стороны располагать негативные оценки, а с другой - только положительные. Надо менять полярность вопросов, что повышает внимательность респондентов, заставляет их больше думать над ответами. Наконец, в вопросниках для поддержания внимания респондентов и доведения обследования до конца могут использоваться такие фразы, как "Опрос близится к концу", "Вы ответили на самые трудные вопросы".
Можно выделить три типа ошибок, обусловленных нежеланием респондента отвечать на вопросы: из-за отказа вообще принять участие в обследовании, из-за прекращения участия и из-за отказа отвечать на определенные вопросы.
Так, респондент может отказаться от участия в опросе из-за отсутствия интереса к данному обследованию или принципиальной отрицательной позиции по отношению к любому обследованию подобного рода, из-за своей занятости, ему может не понравится голос интервьюера, манера задавания вопросов и т.п.
Причины прекращения ответов на вопросы также являются весьма различными. Возможно, что ответы потребовали больших затрат времени, чем ожидалось; некоторые вопросы носят чрезмерно личностный характер; пояснения к ответу на ряд вопросов оказались непонятными; ответы прервал телефонный звонок, возвращение из школы ребенка и т.п.
Наконец, респондент просто может не ответить только на некоторые вопросы - чрезмерно личностного характера или вызывающие неприятие по тем или иным причинам. Поэтому в шкалу в ряде случаев специально вводят градацию "отказываюсь отвечать".
Для уменьшения ошибки, обусловленной отказом отвечать на вопросы, необходимо прежде всего ее измерить. Если величина ошибки является существенной, то надо предпринять меры для ее уменьшения. Для этого используются два метода: взвешенных средних и формирования выборки больших размеров.
Первый метод предполагает использование весов для точного представления отдельных подгрупп изучаемой совокупности. Таким путем учитывается разное число "отказников" для разных подгрупп. Взвешенная средняя рассчитывается по следующей формуле:

где х - взвешенная средняя оценка для выборки;
xa, xb... - средние оценки для разных подгрупп выборки;
Wa, Wb... - веса отдельных подгрупп, характеризующие долю каждой подгруппы в совокупности.
Например, изучается мнение потребителей относительно крема для загара определенной марки. Демографические данные говорят о том, что целевой рынок включает 50% мужчин и 50% женщин. Однако на вопросы почтового опроса ответило 25% мужчин и 75% женщин. В этом случае возможно уточнение полученных данных путем введения весов, характеризующих пропорцию 50:50. На вопрос анкеты: "Сколько бы вы заплатили за флакон крема?" - мужчины в среднем ответили 2 доллара, а женщины - 3 доллара. В этом случае средняя оценка (пропорция 25:75) составит 2,75 доллара. Однако если использовать истинную пропорцию 50:50, то средняя цена составит 2,50 доллара.
Второй метод заключается в сознательном формировании выборки больших размеров, чем требуется для анализа. Из этой выборки выбираются подгруппы, по размерам соответствующие представлениям о структуре целевой выборки.
Скажем, в нашем примере относительно крема для загара вопросы были посланы 10 000 респондентам, из которых только 2000 дали ответы. При этом имела место некорректная пропорция 25:75. Возможно вместо использования весовых коэффициентов просто не принимать в расчет 1000 ответов женщин, приведя таким образом пропорцию к истинному значению 50:50, т.е. учитывая ответы 500 мужчин и 500 женщин. Хотя, конечно, лучше использовать другие методы уменьшения числа "отказников", рассмотренные выше.
Перед тем как табулировать и анализировать данные проведенного обследования, целесообразно провести их предварительную проверку и выявить ошибки респондентов.
Для этого прежде всего следует проверить анкеты на полноту и точность их заполнения, выявить возможную ненадежность (разные подходы к ответам на подобные вопросы) и односторонность ответов (например, только "да", "нет", "нет мнения"). Осуществляется это на систематической и несистематической основе. В первом случае анкеты выбираются случайным образом, и осуществляется их проверка на основе выборочных процедур; во втором - анкеты для проверки отбираются произвольным образом.
Если такие ошибки являются весьма существенными, то анкеты изымаются из дальнейшего анализа. Если возможно, то производится уточнение ответов. Жестких правил в данной области не существует, и они основаны на традициях, опыте и т.п., т.е. на неформальных подходах к определению, какие анкеты пригодны для последующего анализа, а какие - нет. Поэтому лучше ужесточить контроль сбора данных, уменьшив таким образом проблемы предварительной оценки собранных данных.

4.13. Анализ данных

Анализ данных начинается с перевода "сырых" данных в осмысленную информацию и включает их введение в компьютер, проверку на предмет ошибок, кодирование, представление в матричной форме (табулирование). Все это называется преобразованием исходных данных.
Далее проводится статистический анализ, т.е. определяются средние величины, частоты, корреляционные и регрессионные соотношения, осуществляется анализ трендов.
4.13.1. Преобразование данных

После сбора данных необходимо их преобразовать, т.е. привести к более сжатому виду, удобному для анализа и обладающему достаточной для заказчика информацией. Обычно закодированные исходные данные представляются в виде матрицы (осуществляется табулирование), столбцы которой содержат ответы на различные вопросы анкеты, а ряды - респондентов или изучаемые ситуации. Преобразование данных заключается в описании данных матрицы на языке ограниченного числа мер, характеризующих собранные данные. Табулирование помогает исследователю понять, что означают собранные данные. Одновременный анализ двух и более категорий опрашиваемых называется перекрестной табуляцией.
Исследователь, осуществляя преобразование, старается найти зависимости среди собранных данных и в то же время достигнуть наиболее высокого уровня обобщения.
Выделяют, по крайней мере, следующие четыре функции преобразования данных: обобщение, определение концепции (концептуализация), перевод результатов статистического анализа на понятный для менеджера язык (коммуникация), определение степени соответствия полученных результатов всей совокупности (экстраполяция).
Из-за неспособности человека анализировать большие массивы информации необходимо исходные собранные данные представить в удобном для осмысления виде, т.е. их необходимо обобщить, выразить через ограниченное число понятных параметров.
Большинство статистических мер основано на конкретных предположениях, которые определяют базу анализа собранньк данных. Концептуализация направлена на оценку результатов обобщения. Например, слабый разброс оценок определенной марки продукта вырабатывает у исследователя одно суждение (концепцию), сильный - другое (см. ниже про корреляцию).
Коммуникация предполагает при интерпретации полученных результатов использование понятных для заказчика категорий. Например, если для него понятна такая статистическая мера, как "мода", то она используется при представлении полученных результатов, если нет, то результаты описываются на общепринятом языке.
Экстраполяция в данном случае предполагает определение, в какой степени данные выборки можно обобщить на всю совокупность (см. ниже).
4.13.2. Виды статистического анализа

Выделяют пять основных видов статистического анализа, используемых при проведении маркетинговых исследований: дескриптивный анализ, выводной анализ, анализ различий, анализ связей и предсказательный анализ. Иногда эти виды анализа используются по отдельности, иногда - совместно.
В основе дескриптивного анализа лежит использование таких статистических мер, как средняя величина (средняя), мода, среднее квадратическое отклонение, размах или амплитуда вариации.
Анализ, в основе которого лежит использование статистических процедур (например, проверка гипотез) с целью обобщения полученных результатов на всю совокупность, называется выводным анализом.
Анализ различий используется для сравнения результатов исследования двух групп (двух рыночных сегментов) для определения степени реального отличия в их поведении, в реакции на одну и ту же рекламу и т.п.
Анализ связей направлен на определение систематических связей (их направленности и силы) переменных. Например, определение, как увеличение затрат на рекламу влияет на увеличение сбыта.
Предсказательный анализ используется в целях прогнозирования развития событий в будущем, например путем анализа временных рядов. Статистические методы прогнозирования рассмотрены в разделе 7.

4.13.2.1. Инструменты дескриптивного анализа

Для описания информации, полученной на основе выборочных измерений, широко используется две группы мер. Первая включает меры "центральной тенденции", или меры, которые описывают типичного респондента или типичный ответ. Вторая включает меры вариации, или меры, описывающие степень схожести или несхожести респондентов или ответов с "типичными" респондентами или ответами.
Существуют и другие описательные меры, например меры асимметрии (насколько найденные кривые распределения отличаются от нормальных кривых распределения). Однако они используются не столь часто, как вышеупомянутые, и не представляют особого интереса для заказчика.
Ниже дается только краткая характеристика указанных мер. Более подробную информацию можно получить из книг по математической статистике, например [9], [10].
К числу мер центральной тенденции относятся мода, медиана и средняя.
Мода характеризует величину признака, появляющуюся наиболее часто по сравнению с другими величинами данного признака. Мода носит относительный характер, и необязательно, чтобы большинство респондентов указало именно эту величину признака.
Медиана характеризует значение признака, занимающее срединное место в упорядоченном ряду значений данного признака.
Третьей мерой центральной тенденции является средняя величина, которая чаще всего рассчитывается как средняя арифметическая величина. При ее вычислении общий объем признака поровну распределяется между всеми единицами совокупности.
Видно, что степень информативности средней величины больше, чем медианы, а медианы - моды.
Однако рассмотренные меры не характеризуют вариацию ответов на какой-то вопрос или, говоря другими словами, несходство, различие респондентов или измеренных характеристик. Очевидно, что помимо знания величин мер центральной тенденции важно установить, насколько близко к этим величинам расположены остальные полученные оценки. Обычно используют три меры вариации: распределение частот, размах вариации и среднее квадратическое отклонение.
Распределение частот представляет в табличной или графической форме число случаев появления каждого значения измеренной характеристики (признака) в каждом выбранном диапазоне ее значений. Распределение частот позволяет быстро сделать выводы о степени подробности результатов измерений.
Размах вариации определяет абсолютную разность между максимальным и минимальным значениями измеренного признака. Говоря другими словами, это разница между конечными точками в распределении упорядоченных величин измеренного признака. Данная мера определяет интервал распределения значений признака.
Среднее квадратическое отклонение является обобщающей статистической характеристикой вариации значений признака. Если эта мера мала, то кривая распределения имеет узкую, сжатую форму (результаты измерений обладают высокой степенью схожести); если мера велика, то кривая распределения имеет широкий, растянутый вид (велика степень различия оценок).
Ранее было отмечено, что выбор шкалы измерений, а следовательно, типа вопросов в опросном листе предопределяют количество получаемой информации. Подобным образом, количество информации, получаемой при использовании рассмотренных выше мер, является различным. Общим правилом является то, что статистические меры дают возможность получить больше информации при применении наиболее информативных шкал измерений. Выбор шкалы измерений предопределяет выбор статистических мер. Например, один из вопросов демографического исследования, при проведении которого использовалась шкала наименований, касался национальности. Русским был присвоен код 1, украинцам - 2, татарам - 3 и т.д. В данном случае, конечно, можно вычислить среднее значение. Но как интерпретировать среднюю национальность, равную, скажем, 5,67? Для вычисления средних надо использовать интервальную шкалу или шкалу отношений. Однако в нашем примере можно использовать моду.
Что касается мер вариации, то при использовании номинальной шкалы применяется распределение частот, при использовании шкалы порядков - кумулятивное распределение частот, а при использовании интервальной шкалы и шкалы отношений - среднее квадратическое отклонение.

4.13.2.2. Статистический вывод

Вывод является видом логического анализа, направленного на получение общих заключений о всей совокупности на основе наблюдений за малой группой единиц данной совокупности.
Выводы делаются на основе анализа малого числа фактов. Например, если два ваших товарища, имеющих одну и ту же марку автомобиля, жалуются на его качество, то вы можете сделать вывод о низком качестве данной марки автомобиля в целом.
Статистический же вывод основан на статистическом анализе результатов выборочных исследований и направлен на оценку параметров совокупности в целом. В данном случае результаты выборочных исследований являются только отправной точкой для получения общих выводов.
Например, автомобилестроительная компания провела два независимых исследования с целью определения степени удовлетворенности потребителей своими автомобилями. Первая выборка включала 100 потребителей, купивших данную модель в течение последних шести месяцев. Вторая выборка включала 1000 потребителей. В ходе телефонного интервьюирования респонденты отвечали на вопрос: "Удовлетворены вы или не удовлетворены купленной вами моделью автомобиля?" Первый опрос выявил 30% неудовлетворенных, второй - 35%.
Поскольку существуют ошибки выборки и в первом и во втором случаях, то можно сделать следующий вывод. Для первого случая: около 30% опрошенных выразили неудовлетворенность купленной моделью автомобиля. Для второго случая около 35% опрошенных выразили неудовлетворенность купленной моделью автомобиля. Какой же общий вывод можно сделать в данном случае? Как избавиться от термина "около"? Для этого введем показатель ошибки: 30% ± х% и 35% ± у% и сравним х и у. Используя логический анализ, можно сделать вывод, что большая выборка содержит меньшую ошибку и что на ее основе можно сделать более правильные выводы о мнении всей совокупности потребителей. Видно, что решающим фактором для получения правильных выводов является размер выборки. Данный показатель присутствует во всех формулах, определяющих содержание различных методов статистического вывода.
При проведении маркетинговых исследований чаще всего используются следующие методы статистического вывода: оценка параметров и проверка гипотез.
Оценка параметров генеральной совокупности представляет из себя процесс определения, исходя из данных о выборке, интервала, в котором находится один из параметров генеральной совокупности, например среднее значение. Для этого используют следующие статистические показатели: средние величины, среднюю квадратическую ошибку и желаемый уровень доверительности (обычно 95% или 99%).
Ниже пойдет разговор об их роли при проведении оценки параметров.
Средняя квадратическая ошибка является, как отмечалось выше, мерой вариации выборочного распределения при теоретическом предположении, что исследовалось множество независимых выборок одной и той же генеральной совокупности.
Она определяется по следующей формуле:

где sx - средняя квадратическая ошибка выборочной средней;
s - среднее квадратическое отклонение от средней величины в выборке;
n - объем выборки.
Если используются процентные меры, выражающие альтернативную изменчивость качественных признаков, то

где s - средняя квадратическая ошибка выборочной средней при использовании процентных мер;
р - процент респондентов в выборке, поддержавших первую альтернативу;
q = (100 - q) - процент респондентов в выборке, поддержавших
вторую альтернативу;
n - объем выборки.
Видно, что средняя ошибка выборки тем больше, чем больше вариация, и тем меньше, чем больше объем выборки.
Поскольку всегда существует выборочная ошибка, то необходимо оценить разброс значений изучаемого параметра генеральной совокупности. Предположим, исследователь выбрал уровень доверительности, равный 99%. Из свойств нормальной кривой распределения вытекает, что ему соответствует параметр Z = ± 2,58. Средняя для генеральной совокупности в целом вычисляется по формуле

Если используются процентные меры, то

Это означает, что если вы хотите, чтобы при 99%-ном уровне доверительности диапазон оценок включал истинную для генеральной совокупности оценку, то необходимо умножить среднюю квадратическую ошибку на 2,58 и добавить полученный результат к процентному значению р (верхняя предельная оценка). Если же произвести вычитание данного произведения, то найдем нижнюю предельную оценку.
Как эти формулы связаны со статистическим выводом?
Поскольку производится оценка параметра генеральной совокупности, то здесь указывается диапазон, в который попадает истинное значение параметра генеральной совокупности. С этой целью для выборки берутся статистическая мера центральной тенденции, величина дисперсии и объем выборки. Далее делается предположение об уровне доверительности и рассчитывается диапазон разброса параметра для генеральной совокупности.
Например, для членов выборки (100 читателей какой-то газеты) было установлено, что среднее время чтения газеты составляет 45 минут при средней квадратической ошибке в 20 минут. При уровне доверительности, равном 95%-ном, получим

При 99%-ном уровне доверительности получим

Видно, что доверительный интервал шире для 99% по сравнению с 95%-ным уровнем доверительности.
Если используются проценты и оказалось, что из выборки в 100 человек 50% опрошенных по утрам пьет кофе, то при уровне доверительности в 99% получим следующий диапазон оценок:

Таким образом, логика статистического вывода направлена на получение конечных заключений об изучаемом параметре генеральной совокупности на основе выборочного исследования, осуществленного по законам математической статистики. Если используется простое заключение, не основанное на статистических измерениях, то конечные выводы носят субъективный характер и на основе одних и тех же фактов разные специалисты могут сделать разные выводы.
При использовании статистического вывода используются формулы, носящие объективный характер, в основе которых лежат общепризнанные статистические концепции. В результате конечные выводы носят намного более объективный характер.
В ряде случаев делаются суждения относительно какого-то параметра генеральной совокупности (величине средней, дисперсии, характере распределения, форме и тесноте связи между переменными) исходя только из некоторых предположений, размышлений, интуиции, неполных знаний. Такие суждения называются гипотезами.
Статистической гипотезой называется предположение о свойстве генеральной совокупности, которое можно проверить, опираясь на данные выборки.
Под проверкой гипотезы понимается статистическая процедура, применяемая для подтверждения или отклонения гипотезы, основанной на результатах выборочных исследований. Проверка гипотезы осуществляется на основе выявления согласованности эмпирических данных с гипотетическими. Если расхождение между сравниваемыми величинами не выходит за пределы случайных ошибок, гипотезу принимают. При этом не делается никаких заключений о правильности самой гипотезы, речь идет лишь о согласованности сравниваемых данных.

<< Пред. стр. 9 (из 18) След. >>

Список литературы по разделу