<< Пред.           стр. 1 (из 2)           След. >>

Список литературы по разделу

 социологический клуб город
 
 
 
 
 
 
 
 Методическое пособие
 
 
 
 Выборочный метод
 в социологии
 
 
 
 
 
 Редактор-составитель:
 Андрей Ермолаев
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 Москва 2000
 
 Содержание
 1. ВВЕДЕНИЕ. 3
 2. СУТЬ ВЫБОРОЧНОГО МЕТОДА И ЕГО РОЛЬ В СОЦИОЛОГИИ. 3
 3. СЛУЧАЙНЫЕ (ВЕРОЯТНОСТНЫЕ) МЕТОДЫ ОТБОРА. 5
 3.1 СОБСТВЕННО СЛУЧАЙНАЯ ВЫБОРКА. 5
 3.1.1 Определение собственно случайной выборки. 5
 3.1.2 Способы практической реализации собственно случайной выборки. 5
 3.1.3 Вычисление ошибки репрезентативности для собственно случайной выборки. 6
 3.1.4 Определение объема выборки. 9
 3.1.5 Плюсы и минусы собственно случайной выборки. 10
 3.2 КОРРЕКТИРОВКА ВЫБОРОЧНЫХ ПОКАЗАТЕЛЕЙ. 10
 4. ВЫБОРОЧНЫЕ МЕТОДЫ С ВНЕДРЕНИЕМ ЭЛЕМЕНТА НЕСЛУЧАЙНОСТИ. 12
 4.1 МЕХАНИЧЕСКАЯ ВЫБОРКА. 13
 4.1.1 Практическая реализация. 13
 4.1.2 Вычисление ошибки выборки. 13
 4.1.3 Определение объема выборки. 13
 4.1.4 Плюсы и минусы механического отбора. 13
 4.2 СТРАТИФИЦИРОВАННАЯ (РАЙОНИРОВАННАЯ) ВЫБОРКА. 15
 4.2.1 Практическая реализация. 15
 4.2.2 Вычисление ошибки выборки. 15
 4.2.3 Определение объема выборки. 18
 4.2.4 Плюсы и минусы стратифицированного отбора. 18
 4.3 ГНЕЗДОВАЯ (СЕРИЙНАЯ) ВЫБОРКА. 20
 4.3.1 Практическая реализация. 20
 4.3.2 Вычисление ошибки выборки. 20
 4.3.3 Определение объема выборки. 21
 4.3.4 Плюсы и минусы этого метода. 21
 5. НЕСЛУЧАЙНЫЕ (НЕВЕРОЯТНОСТНЫЕ) МЕТОДЫ ОТБОРА. 22
 5.1 ПОЧЕМУ ПРИМЕНЯЮТ НЕСЛУЧАЙНЫЙ ОТБОР? 22
 5.2 КЛАССИФИКАЦИЯ МЕТОДОВ НЕСЛУЧАЙНОГО ОТБОРА. 22
 5.2.1 Доступная выборка 23
 5.2.2 Стихийная выборка. 23
 5.2.3 Направленный отбор. 23
 6. ЛИТЕРАТУРА. 25
 
 
 1. Введение.
  Настоящее методическое пособие является результатом серии семинаров по теме "Выборочное исследование в социологии", проведенной Социологическим клубом "Город" Государственного университета - Высшей Школы Экономики.
  Цель работы - составить общее представление о выборочном методе и о возможностях его применения в социологии. Работа содержит классификацию типов случайной и неслучайной выборки, описание каждого метода, их преимущества и недостатки. Для каждого типа случайной выборки приведены формулы расчета ошибки репрезентативности (выборочного среднего) и объема выборки.
  Предполагается, что читатель знаком с основами теории вероятности и математической статистики.
  Авторы выражают огромную благодарность Ю. Н. Толстовой и А.О. Крыштановскому, за помощь в проведении и организации семинаров, подборе материала и постоянные консультации.
 2. Суть выборочного метода и его роль в социологии.
  Одной из задач, которые стоят перед социологом при проведении исследования, является сбор необходимых эмпирических данных об объекте исследования. Множество элементов, составляющих объект исследования называют генеральной совокупностью (ГС). Наиболее простым, на первый взгляд, способом сбора данных является сплошное обследование ГС. Однако применение сплошного обследования не всегда представляется возможным. В этом случае применяется выборочное обследование. Суть выборочного метода заключена в том, что обследованию подвергается только часть элементов ГС, которая называется выборочной совокупностью (ВС). Как писал профессор А. Кауфман , "изобретателем выборочного была сама жизнь" [4]. Действительно, еще до теоретического обоснования возможностей применения выборочного метода, статистики были вынуждены проводить выборочные обследования. Основными причинами для этого были отсутствие времени и средств.
  Выборочный метод позволяет не только сократить временные и материальные затраты на проведения исследования, но и повысить достоверность результатов исследования [6, 16]. Это утверждение может вызвать недоумение: как можно получить более достоверные данные, обследовав менее половины ГС? Достоверность полученной информации может быть не только не ниже, чем при сплошном обследовании, но и выше вследствие возможности привлечения персонала более высокого класса и применения различных процедур контроля качества получаемой информации.
  Кроме того выборочный метод имеет более широкую область применения [там же]. Широта области применения выборочного метода объясняется тем, что небольшой (по сравнению с ГС) объем выборки позволяет использовать более сложные методы обследования, включая использование различных технических средств (например, видео- и аудиоаппаратуры).
  Следует различать единицы отбора и единицы наблюдения. Единицами отбора являются единицы или группы единиц ГС отбираемые на каждом этапе формирования ВС. Единицы наблюдения - это отобранные единицы ГС, характеристики которых непосредственно измеряются. Если выборка проходит в несколько этапов (многоступенчатая выборка), то единицы отбора и единицы наблюдения могут не совпадать. Мы будем рассматривать только одноступенчатую выборку, т.е. выборку, проходящую в один этап.
  Развитие теории вероятностей позволило теоретически обосновать возможность применения выборочного метода. В основе теоретического обоснования выборочного метода лежит так называемый закон больших чисел. Физический смысл этого закона можно выразить следующим образом:
 "при очень большом числе случайных явлений средний их результат практически перестает быть случайным и может быть предсказан с большой степенью определенности" [, 399].
  Также это дало возможность определять ошибку репрезентативности. Репрезентативностью ВС называется ее способность адекватно представлять (репрезентировать) характеристики ГС. Ошибкой репрезентативности, как правило, называют отклонение выборочного среднего значения признака от генерального. Важно учитывать, что при помощи выборочного метода никогда нельзя получить абсолютно точную оценку наблюдаемого признака, всегда существует вероятность ошибки, но, если вероятность ошибки мала, то она скорее всего не произойдет.
  Разделяют два типа ошибок. Случайная (статистическая) ошибка - это ошибки, которые возникают вследствие случайной вариации значений, вызванной тем, что наблюдается только часть единиц, а не вся ГС [6, 379]. Случайные ошибки уменьшаются с увеличением объема ВС. Случайную ошибку можно измерить методами математической статистики, если при формировании ВС соблюдался принцип случайности. Принцип случайности заключается в следующем: каждый элемент ГС имеет равную и отличную от нуля вероятность попасть в ВС [9, 100]. Иными словами, термин "случайный" употребляется здесь и далее как синоним слова "равновероятный". Для соблюдения принципа случайности формирование выборочной совокупности должно проходить по строго определенным правилам, которые составляют метод формирования выборочной совокупности.
  На практике принцип случайности соблюсти очень сложно, а иногда просто невозможно, что приводит к появлению систематической ошибки. Систематическая ошибка - это неконтролируемые перекосы в распределении выборочных наблюдений1 [1, 132]. Число опрошенных не влияет на величину систематической ошибки.
  Общая типология методов отбора представлена на рис. 1. Рассмотрим их.
 
 Рисунок 1. Типология методов отбора.
 
 3. Случайные (вероятностные) методы отбора.
 3.1 Собственно случайная выборка.
  Собственно случайная выборка лежит в основе всех остальных типов выборки, которые будут рассмотрены далее.
 3.1.1 Определение собственно случайной выборки.
  Выборка называется собственно случайной, если при извлечении выборки объема n все возможные комбинации из n элементов, которые могут быть получены из генеральной совокупности объема N, имеют равную вероятность быть извлеченными [16]
  По определению, при собственно случайной выборке выполняется принцип случайности.
 3.1.2 Способы практической реализации собственно случайной выборки.
  Отбор производится с помощью жеребьевки, таблицы (либо генератора) случайных чисел. Главный принцип - случайность, т.е. все единицы генеральной совокупности имеют равную вероятность попасть в выборочную совокупность.
 1. Принцип жеребьевки. Каждый элемент генеральной совокупности заносится на бумажку (это могут быть фамилии, адреса, просто номера (в этом случае выпавшие номера ставят в соответствие с людьми в списках) и т.д.), затем бумажки помещаются в барабан, перемешиваются и не глядя вытаскиваются.
 2. Принцип таблицы случайных чисел. Начиная с любого места таблицы, берем четыре следующих друг за другом числа. Эти числа и будут номерами людей в списке, которых следует отобрать в выборку (числа, превышающие численность генеральной совокупности, опускаются) [1, 101].
 3. Принцип генератора случайных чисел. Это то же самое, что и таблицы случайных чисел, только числа вырабатываются компьютером (для этого существует специальная программа).
  Различают повторную и бесповторную выборку. При повторном отборе каждый выбранный элемент возвращается в ГС. При бесповторном отборе выбранный элемент не возвращается в ГС2.
  Также используются различные методы моделирования случайности.
 1. Механическая выборка требует список характеристик респондентов (фамилии, адреса, телефоны и т.д.). Из этого списка через равные промежутки люди отбираются в выборку. Этот промежуток называется шагом выборки.
  [3, 19].
 Начало отбора выбирается случайным образом в пределах шага выборки. Например, если шаг выборки равен 20, то начинать отбор надо с любого числа от 1 до 20.
 2. Территориальный отбор используется, когда нет основы выборки или ее составление сопряжено с большими трудностями [9, 104-111].
 3.1.3 Вычисление ошибки репрезентативности для собственно случайной выборки.
  Пусть нам необходимо оценить средний возраст некоторой группы людей по ограниченному числу наблюдений n. Оценкой среднего значения непрерывной случайной величины является математическое ожидание:
  .
  Естественной оценкой математического ожидания является среднее арифметическое:
  .
  От оценки необходимо потребовать следующие свойства:
  1. состоятельность - оценка называется состоятельное, если при увеличении числа опытов оценка сходится по вероятности с искомым параметром,
  2. несмещенность - оценка называется несмещенной, если выполнялось условие
 ,
  3. эффективность - оценка называется эффективной, если ее дисперсия минимальна по сравнению с другими.
  Среднее арифметическое обладает этими свойствами3.
  Оценка параметра является функцией от случайных величин , , ... ,, поэтому сама является случайной величиной. Другими словами, мы можем сделать множество выборок, для каждой из которых значение оценки будет различно. По закону больший чисел распределение оценки является нормальным с математическим ожиданием
 
 и дисперсией
  4,
 где - генеральная дисперсия.
  Тогда можно рассчитать вероятность того, что попадет в интервал . Поскольку нам неизвестна величина , то мы будем говорить о вероятности, с которой интервал накроет . Эта которая равна площади под графиком функции распределения случайной величины (см. рис. 2):
  .
 
 
 Рисунок 2. Распределение выборочной оценки среднего.
  Приведем это распределение к стандартному виду.
 
 
 
  Произведем замену переменной:
  .
  Справа получили функцию Лапласа, которая табулирована (см. Приложение):
  .
 
 
  Нам не известно значение , поэтому заменим его на . Но в этом случае нужно использовать не нормальное распределение, а распределение Стьюдента.
  ,
 где
  При больших объемах выборки вид распределения Стьюдента приближается к виду нормального распределения, поэтому для больших выборок также можно использовать функцию Лапласа.
  Для повторной выборки
  (1).
  Для бесповторной выборки необходимо внести поправку на конечность ГС
  (2).
  Для большой ГС (объем ВС составляет менее 5% от ГС) поправкой на конечность совокупности можно пренебречь.
  Про коэффициент доверия следует сказать отдельно. Этот коэффициент исследователь выбирает сам. Чем меньше , тем меньше доверительный интервал, но тем меньше и вероятность того, что оценка не выйдет за пределы доверительного интервала.
  Пример 1. Пусть была произведена выборка 1600 человек. Средний возраст по выборке - 30 лет, среднеквадратическое отклонение - 10 лет. Необходимо найти доверительный интервал.
  Прежде всего, необходимо задать надежность оценки. Возьмем 95% надежность. Поскольку выборка большая, воспользуемся таблицей значений функции Лапласа и найдем коэффициент доверия - 1,96.
  Тогда
  .
  С вероятностью 95% истинное средний возраст по ГС находится в интервале от 29,51 лет до 30,49 лет.
  Для биномиального распределения
  ,
 где - доля признака, .
  Тогда для повторной выборки из (1)
  (3),
 для бесповторной выборки из (2)
  (4).
  Пример 2. Из 200 опрошенных 55% - женщины. Действуем аналогично примеру 1. Выборку также можно считать большой. Тогда =1,96 для 95% надежности.
  .
  С вероятностью 95% доля женщин в ГС находится в интервале от 48% до 62%.
 Таблица 1.
  Формулы ошибки репрезентативности для собственно случайного отбора.[3, 16]
 Предмет изучения. Повторный отбор. Бесповторный отбор. Среднее значение признака. Доля признака.
  Где:
  z - коэффициент доверия,
  n - объем выборки,
  - выборочная дисперсия,
  N - объем генеральной совокупности,
  - доля признака в выборочной совокупности.
 3.1.4 Определение объема выборки.
  Определение объема выборки - это задача, обратная решенной выше задачи вычисления ошибки выборки.
  Формулы для вычисления объема выборки при случайном отборе - просто преобразованные формулы ошибки репрезентативности. Они представлены в таблице 4.
 Таблица 2.
  Формулы для определения объема выборки при собственно случайном отборе.
 Предмет изучения. Повторный отбор. Бесповторный отбор. Среднее значение признака. Доля признака.
  Из (1) легко получить искомое n
 .
 Для нахождения объема выборки необходимо знать выборочное значение дисперсии признака. Его можно оценить несколькими способами [6, 95].
 1. Отобрать некоторое количество единиц из ГС. Рассчитать по полученной ВС . Рассчитать необходимый объем ВС и добрать недостающее число элементов .
 2. Воспользоваться результатами предыдущих исследований (если таковые проводились).
 3. Для биномиального распределения , где - доля признака, . Тогда из (3)
 
  .
  Произведение максимально, когда . Таким образом, мы получаем выборку с некоторым запасом [10]:
 
  Точность и надежность выборки мы задаем, исходя из целей исследования. Например, насколько важное управленческое решение будет принято на основе результатов исследования.
 3.1.5 Плюсы и минусы собственно случайной выборки.
  Плюсом данного метода является полное соблюдения принципа случайности и, как следствие - избежание систематических ошибок.
  Случайная выборка обладает рядом недостатков, которые затрудняют ее применение на практике. Эти недостатки можно представить в трех пунктах:
  1. Необходимость наличия списка элементов генеральной совокупности. Обычно элементами генеральной совокупности являются люди; в этом случае в качестве списка могут выступать адреса, телефоны и т.д. Трудность здесь заключается в том, что получить такой список далеко не всегда представляется возможным. Следовательно, в тех случаях, когда невозможно получить список элементов генеральной совокупности, невозможно проводить и случайный отбор.
  2. Сложность проведения опроса. Процедура опроса при случайном отборе является очень громоздкой и требующей много времени. Ведь в результате случайного отбора исследователь получает на выходе список фамилий респондентов (телефонов, адресов и т.д.), которых необходимо опросить. Иными словами, интервьюерам приходится "бегать" за каждым респондентом и добиваться от него согласия ответить на "парочку вопросов".
  Осложняет дело и то, что респондентов порой бывает не так просто достать; в случае отсутствия респондента его приходится посещать по нескольку раз (по крайней мере не менее трех раз).
  Все вышеперечисленное ведет к повышенным временным затратам на проведение опроса. Временные затраты можно уменьшить только благодаря привлечению дополнительных интервьюеров, т.е. только за счет дополнительных денежных расходов. Помимо этого возникает еще так называемая проблема неответивших.
  3. Сравнительно большой объем выборки. Для получения результатов со сравнительно высокой степенью точности собственно случайный отбор требует достаточно большого объема выборки по сравнению с другими видами отбора. Другими словами, случайный отбор обладает меньшей степенью точности, что в конечном счете является причиной его меньшей эффективности5.
  Существует два способа повышения эффективности выборки, которые :
 1. корректировка выборочных показателей,
 2. использование методов построения выборки с внедрением элемента неслучайности [6, 34].
 Рассмотрим их.
 3.2 Корректировка выборочных показателей.
  Как было сказано выше, корректировка выборочных показателей является одним из способов повышения эффективности выборки.
  В данном параграфе кратко проиллюстрируем принцип корректировки выборочных показателей. Корректировка применяется для повышения точности выборки при существующей методике отбора в выборочную совокупность. Это возможно только за счет привлечения дополнительной информации о генеральной совокупности за предыдущие периоды времени6.
  Необходимо отметить, что исследователю важно не столько, чтобы средняя всех выборочных показателей была равна генеральному показателю (т.е. была несмещенной), сколько, чтобы стандартная ошибка (дисперсия) всех возможных выборок была наименьшей, т.е., чтобы риск ошибиться в отдельной выборке был как можно меньше [6, 35].
  Следующий пример продемонстрирует возможность применения корректировки результатов выборки7.
  Пример [6, 36-39]: Допустим, что нам необходимо выяснить средний доход на этот год. В качестве генеральной совокупности выступают 12 человек, представленные в таблице 3.
 Таблица 3.
  Распределение дохода гипотетических респондентов [6, стр.13].
 Респондент. Доход. A. 1300 B. 6300 C. 3100 D. 2000 E. 3600 F. 2200 G. 1800 H. 2700 I 1500 J. 900 K. 4800 L. 1900 Общий доход. 32100 Средний доход. 2675
  Пусть выборочная совокупность составляет 3 человека. Задача, таким образом, сводится к тому, чтобы по этим 3 людям оценить средний доход всей генеральной совокупности.
  Допустим, что в нашу выборку, проведенную случайным методом, попали респонденты B,C,J. Средний доход в этом случае (равный 3433) оказывается намного выше аналогичного показателя в генеральной совокупности (2675). Это говорит о том, что в нашу выборку попали в основном богатые люди.
  Применяя упомянутый принцип корректировки выборочных показателей, можно скорректировать результат расчета средней по случайной выборке. Для этого необходимо иметь информацию об уровне доходов за прошлый период (например, за прошлый год). Если предположить, что уровни доходов данного и предыдущего периодов коррелированы, то можно скорректировать выборочный показатель на показатель прошлого периода8.
  Для этого нам необходимо знать средний доход всей генеральной совокупности за прошлый год и доходы респондентов B,C и J за прошлый год. Допустим, что эти доходы оказались соответственно 5500, 3500, 1200 (средняя соответственно = 3400), а генеральная средняя = 2883.
  Корректировка, следовательно, будет выглядеть следующим образом:
  2883*3433/3400 = 2911.
  2911 и будет скорректированным средним доходом всей генеральной совокупности в этом году согласно рассматриваемому принципу корректировки выборочных показателей. Как видно, он гораздо более "похож" на истинное значение средней.
  Данную операцию можно провести для всех возможных выборок из 3 человек и получить среднюю и ошибку выборки. Эти данные представлены в следующей таблице.
 Таблица 4.
 Показатели случайной выборки и скорректированные показатели.
 Показатель. Случайная выборка. Скорректированные показатели. Средняя. 2675 2658 Стандартная ошибка. 786 240
  Как видно из таблицы, средняя скорректированных средних является смещенной (не совпадает с генеральной средней), но зато ошибка выборки намного меньше. Это значит, что шанс получить "хорошую" выборочную оценку повышается.
  Однако необходимо отметить, что в данном случае корректировку можно применять только в случае сохранения структуры доходов за данный и предыдущий годы. В противном случае данный метод может дать искаженные результаты.
  И здесь опять происходит знакомый парадокс. Дело в том, что для того, чтобы узнать, пропорционально или непропорционально изменилась эта структура, нам нужно иметь данные о генеральной совокупности за этот год. А это как раз то (и даже больше), что мы хотим выяснить нашим исследованием. Иными словами, мы не можем достоверно узнать, насколько связаны структуры доходов за данный и прошлый год. Мы можем только предполагать (на основании статистических данных за много лет и тому подобным показателям), что структура доходов не претерпела значительных изменений за год.
 4. Выборочные методы с внедрением элемента неслучайности.
  Итак, рассмотрев вкратце один из методов корректировки, можно перейти непосредственно к рассмотрению типов (модификаций) собственно случайного отбора.
  Использование различных типов случайного отбора позволяет несколько сгладить некоторые из вышеупомянутых трудностей, возникающих при проведении собственно случайного отбора. Например, некоторые типы случайного отбора позволяют упростить организацию опроса, но главное - это то, что они увеличивают эффективность выборки.
  Так при случайном отборе ошибка выборки контролируется только за счет изменения объема выборки. В рассматриваемых же нами типах случайного отбора эффективность выборки можно повысить за счет моделирования выборки без увеличения ее объема.
  Под моделированием выборки понимается проведение случайного опроса с учетом информации о генеральной совокупности. Это означает, что по некоторым параметрам составляется модель генеральной совокупности для того, чтобы уже на стадии, предшествующей стадии случайного отбора, повысить соответствие этих параметров в выборке и генеральной совокупности9.
  Однако модификации случайного отбора не могут преодолеть всех трудностей, связанных со случайной выборкой. Это связано с тем, что все они являются разновидностями именно случайного отбора и в них используется принцип случайности.
  Из этого следует, что проводить любой случайный отбор невозможно без списка элементов генеральной совокупности. Более того, большинство типов случайного отбора приводят к тем же трудностям при организации опроса, что и при собственно случайной выборке. Главное, чего достигают эти модификации случайного отбора, так это увеличения точности выборки.
  Однако при формальном сходстве с собственно случайной выборкой, любая ее вариация есть все же некоторое отклонение от принципа случайности. Эти отклонения могут приводить к систематическим ошибкам, которые невозможны при собственно случайной выборке. Теперь непосредственно перейдем к рассмотрению типов случайного отбора.
 4.1 Механическая выборка.
  Наиболее близкой к собственно случайной выборке является механическая выборка. Однако даже она может приводить к систематическим ошибкам.
 4.1.1 Практическая реализация.
  Проведение механической выборки требует список характеристик респондентов (фамилии, адреса, телефоны и т.д.). Из этого списка через равные промежутки люди отбираются в выборку. Этот промежуток называется шагом выборки.
  [3, 19], где
  N - объем генеральной совокупности
  n - объем выборочной совокупности.
  Начало отбора выбирается случайным образом в пределах шага выборки. Например, если шаг выборки равен 20, то начинать отбор надо с любого числа от 1 до 20.
 4.1.2 Вычисление ошибки выборки.
  При определении ошибки репрезентативности используются те же формулы, что и при случайной выборке.
 4.1.3 Определение объема выборки.
  Как следствие, при определении объема выборки так же используются те же формулы, что и при случайной выборке.
 4.1.4 Плюсы и минусы механического отбора.
  Процедура проведения механической выборки менее громоздка, чем проведение случайной выборки. Хотя применение компьютеров практически нивелирует это преимущество.
  Механическая выборка может быть как более точной, так и менее точной по сравнению со случайной выборкой. Это продемонстрирует следующий пример.
  Пример: [6, 51-52]. Воспользуемся данными таблицы 1. Из всех респондентов проведем механическую выборку путем отбора каждого четвертого респондента, начиная с первого. В таблице 5 представлены четыре возможные выборки.
 Таблица 5.
  Возможные выборки при механическом отборе.
 № группы. Респонденты, попавшие в группу. 1. A,E,I. 2. B,F,J. 3. C,G,K. 4. D,H,L.
  Если посчитать стандартное отклонение для этих четырех выборок и для всех возможных выборок при случайном отборе, то механическая выборка окажется точнее (510 против 786)10.
  Если же отбирать каждого третьего человека, то число возможных выборок окажется равным трем. Они представлены в следующей таблице.
 Таблица 6.
 Возможные выборки при механическом отборе.
 № группы. Респонденты, попавшие в группу. 1. A,D,G,J. 2. B,E,H,K. 3. C,F,I,L.
  Здесь механическая выборка оказывается менее точной, чем случайная (1216 против 642).
  Механическая выборка может обнаружить систему, что может привести к систематическим ошибкам. Возможности допущения систематической ошибки проиллюстрированы следующими примерами.
  Пример: Если неправильно выбрать шаг выборки, то можно получить серьезные искажения полученных результатов. Например, если мы имеем список жителей г. Москвы в алфавитном порядке, то маленький шаг выборки приведет к перебору людей с фамилиями, начинающимися на букву "А" если мы начинаем отбор с начала списка. А если принять во внимание, что среди армян часто встречаются фамилии, начинающиеся на букву "А", то налицо смещение выборки (т.е. число армян в выборке будет завышенным).
  Отсюда следует, что шаг выборки нельзя брать произвольно, а надо рассчитывать по указанной выше формуле. В нашем случае это обеспечит пропорциональное попадание в выборку людей с фамилиями, начинающимися на любую букву. Однако даже при правильно рассчитанном шаге выборки нельзя гарантировать невозможность систематической ошибки, т.к. уже в одной процедуре механического отбора заложена система. Это проиллюстрирует следующий пример.
  Пример: Например, у нас есть списки всех жителей какого-то города по избирательным участкам. Тогда, делая механическую выборку из каждого списка, мы опять набираем слишком много людей с фамилией на букву "А", т.к. по обыкновению начинаем отбор с начала списка. [2, 169].
  Чтобы исправить это обстоятельство, необходимо четко определить начало отбора на каждом избирательном участке. Начало отбора, например, может быть рассчитано по формуле: (к+6)/7, где к-номер избирательного участка (в данном примере от 1 до 700).
  Таким образом, по мере роста номера избирательного участка, начало отбора будет сдвигаться "вглубь" списка.
  Пример: Допустим, мы имеем город, состоящий из микрорайонов, и у нас есть адреса жителей микрорайонов, причем в списках адреса упорядочены по микрорайонам. Вроде бы ничто не мешает нам сделать механическую выборку.
  Однако если предположить, что микрорайоны неоднородны (состоят из центра с элитными квартирами и окраин), объем выборки не очень большой и микрорайоны невелики, то механический отбор может привести к систематической ошибке.
  При таких допущениях шаг выборки может "перескакивать" из центрального адреса одного микрорайона в центральный адрес другого, что приведет к тому, что в выборку попадут лишь состоятельные люди (возможен и противоположный вариант).
  Из этого следует основной вывод о том, что при отклонении от принципа случайности необходимо четко отслеживать любую возможность возникновения систематической ошибки.
 4.2 Стратифицированная (районированная) выборка.
 4.2.1 Практическая реализация.
  При проведении стратифицированного отбора, генеральная совокупность сначала разбивается на группы (страты) по какому-либо признаку. Далее уже в этих выделенных группах проводится случайная или механическая выборка.
  Стратифицированная выборка может быть пропорциональной объему группы (в этом случае каждая страта имеет одинаковую долю в выборке) или непропорциональной (в этом случае доля страты в выборке зависит от доли этой страты в генеральной совокупности); также она может проводиться пропорционально колебанию признака в группах11.
  Например, всех представителей генеральной совокупности можно разделить по полу, и затем провести случайный отбор среди мужчин и женщин.
  Если мы отберем 50% мужчин и 50% женщин, то это будет пропорциональный отбор. В данном случае мы исходим из того, что мужчин и женщин в генеральной совокупности примерно поровну, а большей точности для нашего исследования не требуется.
  Если же мы отберем такой же процент мужчин и женщин, как в генеральной совокупности (например, 49% мужчин и 51% женщин), то это будет непропорциональный отбор.
  А если мы знаем, что рассматриваемый нами признак (например, количество выкуриваемых за день сигарет), среди мужчин колеблется несильно, т.е. среди мужчин достаточно мало совсем не курящих и злостных курильщиков, в то время как у женщин наблюдается обратная ситуация, то, чтобы добиться необходимой точности оценки количества выкуриваемых за день сигарет при тех же затратах на проведение опроса, можно опросить меньше мужчин, и за счет этого увеличить число опрашиваемых женщин. Это делается потому, что в данном случае получить оценку количества выкуриваемых за день сигарет у женщин с необходимой точностью является более трудной задачей (из-за сильного колебания признака), чем для мужчин. Этот пример - иллюстрация отбора пропорционально колебанию признака в группах.
 4.2.2 Вычисление ошибки выборки.
  Формулы для расчета ошибки репрезентативности при пропорциональном стратифицированном отборе даны в таблице 7.
 Таблица 7.
 Формулы ошибки репрезентативности для стратифицированной выборки (пропорциональный отбор). [3, 22]
 Предмет изучения. Повторный отбор. Бесповторный отбор. Среднее значение признака. Доля признака.
  Где:
  - средняя из внутригрупповых дисперсий, где - дисперсия в группе i, а - численность группы i.
  - средняя величина доли признака,
  - доля признака в группе i,
 
  Ясно, что доверительный интервал при стратифицированной выборке будет меньше (выборка точней), чем при случайной выборке, т.к. средняя из внутригрупповых дисперсий меньше общей дисперсии12.
  Строгое математическое доказательство того, почему при стратифицированной выборке мы имеем право вместо общей дисперсии ставить среднюю внутригрупповых дисперсий и тем самым уменьшать величину доверительного интервала при сохранении той же надежности, можно найти в [5, 104-107].
  На "качественном" же уровне можно сказать следующее. Если представить доверительный интервал как дисперсию средней или как ошибку оценки этой средней (), то при стратифицированном отборе эта ошибка оценки может быть выражена как "взвешенное среднее ошибок, сделанных при оценивании по отдельным слоям" [5, 106], что и будет средней из внутригрупповых дисперсий.
  То есть нам достаточно обеспечить несмещенную оценку всех групповых средних, чтобы обеспечить несмещенную оценку общей средней. А точность оценки групповых средних зависит только от дисперсии внутри наших групп и количества опрошенных.
  Другая составляющая общей дисперсии (межгрупповая дисперсия) не играет здесь никакой роли, т.к. если мы обеспечим попадание групповых средних в свои доверительные интервалы (которые зависят от внутригрупповых дисперсий), то мы автоматически добиваемся попадания общей средней в свой доверительный интервал.
  Иными словами, за счет моделирования выборки мы "покрываем" межгрупповую дисперсию (исключаем возможность случайной ошибки в оценке межгрупповой дисперсии). Если же наше конструирование не будет соответствовать реальности, либо группы в самой генеральной совокупности окажутся размытыми13, то величина межгрупповой дисперсии будет минимальной, что сводит на нет преимущества стратифицированной выборки.
  Таким образом, получаем, что дисперсия средней и, значит, величина доверительного интервала зависит лишь от внутригрупповых дисперсий.
  При пропорциональном отборе вместо общей дисперсии берется средняя внутригрупповых дисперсий, а при непропорциональном отборе - сумма взвешенных по объему всей генеральной совокупности внутригрупповых дисперсий.
  Теперь перейдем к непропорциональной выборке, т.е. выборке с неодинаковой удельной долей страт. В следующей таблице даны формулы ошибки репрезентативности для такой выборки.
 Таблица 8.

<< Пред.           стр. 1 (из 2)           След. >>

Список литературы по разделу