<<
>>

2.8. Расчет объема выборки30

Из всех вопросов, которые задают сотрудникам знаменитого Института опросов общественного мнения Гэллапа, самым популярным является такой: как вы можете, проинтервьюировав 1000 человек, судить о том, что думают 250 млн американцев?

Для ответа на этот вопрос нужно упомянуть не только высокую квалификацию и огромный практический опыт сотрудников, но и использование ими статистики и математики.

Если методы опроса не основаны на науке, результаты могут ввести вас в заблуждение.

В статистике приняты следующие разграничения объемов вы-борки. Объем выборки, достаточный для взаимопогашения случайностей и получения статистических характеристик закономерного характера, равен 30. Выборка такого объема называется малой. Характер распределения значений признака в малых выборках приближается к нормальному с ростом числа испытаний. Минимальный объем выборки, позволяющий получить средние значения признака с указанием доверительных вероятностей, равен 5. Выборки такого объема называются сверхмалыми.

Распределение значений признака в таких выборках характеризуется распределением Стьюдента. Но чаще всего в социологии имеют дело с гораздо большим объемом выборки.

При планировании выборочного обследования наступает момент, когда нужно решить, сколько человек опрашивать, т.е. каким должен быть объем выборки. Это решение чрезвычайно важ-но, поскольку слишком большая выборка потребует излишних затрат, а слишком маленькая понизит качество результатов.

Объем выборки — общее число единиц наблюдения, включенных в выбо-рочную совокупность.

Поскольку выборочная совокупность — это часть генеральной совокупности, отобранная с помощью специальных методов, — важно, чтобы эта часть не искажала представления о целом, т.е. репрезентировала его. Социологов, часто проводящих эмпирические исследования, постоянно волнует вопрос о том, как много надо опрашивать человек, чтобы получить достоверную информацию? Институт Гэллапа в США проводит регулярные опросы по национальной выборке объ

122

1,5%).

Центр «Социо-Экспресо Института социологии РАН проводит исследования на выборке объемом в 2 тыс. человек, при этом ошибка выборки не превышает 3%31.

Специалисты считают, что наилучшая выборка — не обязательно большая. Конечно, чем больше объем выборки, тем выше точность ее результатов. Однако даже огромная выборка не гарантирует успеха, если генеральная совокупность «плохо перемешана», т.е. является неоднородной. Однородной считается такая совокупи ность, в которой контролируемый признак распределен равномер-но, не образует пустот или сгущений. В этом случае, опросив нескольких человек, можно получить точную информацию о распределении этого признака в генеральной совокупности.

Таким образом, на репрезентативность данных влияют не количественные характеристики выборочной совокупности (ее объем), а качественные характеристики генеральной совокупнос-ти — степень ее однородности.

В социологии еще не придумано единой и четкой формулы, используя которую можно рассчитать оптимальный объем выборочной совокупности, — такой формулы просто не существует в природе. И объясняется это весьма просто. Дело в том, что опре-деление объема выборочной совокупности — проблема не столько статистическая, сколько содержательная. Иными словами, объем выборочной совокупности зависит от множества факторов, в том числе от целей и задач, теоретической модели, гипотез и методов исследования, степени однородности генеральной совокупности наконец, требующейся точности получаемой информации.

Надо всегда помнить, что каждый процент прироста точности ин-формации в исследовании приводит к резкому увеличению расходов на его проведение. Знаменитый институт Гэллапа, на протяжении многих десятилетий проводящий опросы в США, выявил, что при общенациональной выборке в 100 человек — ошибка выборки будет в пределах ±11%; 200 человек - ±8%; 400 - ±6%; 600 - ±5%; 750 — ±4%; 1000 - ±4%; 1500 - ±3%; 4000 человек - +2%. Именно поэто-му он проводит общенациональные опросы в США на выборке в 1500-2000 человек.

Как видно, он предпочитает увеличение ошибки на 1% многократному увеличению стоимости исследования.

Практика показывает, что для многих социологов обоснование объема выборки является камнем преткновения, несмотря на зна- чительное количество литературы, посвященной выборочным

методам и, в частности, расчету объема выборки. Причин несколько: 1) дефицит специальной литературы на периферии; 2) нехватка времени для самообразования; 3) неумение пользоваться матема-тическим аппаратом. В связи с этим возникает необходимость без сложных математических формул изложить стратегию и тактику обоснования объема выборки.

123

Процедура расчета объема выборки — цепь бесконечных компромиссов между стремлением к точности и ограниченностью ресурсов, дефицитом времени и неполнотой сведений об изучаемом явлении. Вместе с тем это наука и искусство, познание которых доступно каждому человеку. Однако для этого нужно знать стратегии расчета объема выборки (предварительного расчета, последовательной и комбинированной стратегии), а также факторы, влияющие на объем выборки (объем генеральной совокупности, варьирование ответов респондентов, точность оценивания, характер предполагаемого рас-пределения ответов, метод исследования, процедура обработки).

Стратегия предварительного расчета состоит в том, что объем выборки определяется до проведения основного исследования. В наиболее простом случае можно воспользоваться уже наработан-ным опытом, например, института Гэллапа, где используется объем выборки приблизительно в 1500—2000 человек. Для среднестатистического отечественного исследования объема выборки — примерно 400—600 человек.

Для расчета объема случайной выборки надо знать желаемую точность оценивания, величину риска получаемого ответа и степень изменчивости ответа. Традиционно точность оценивания принимают за 5%, а величину риска — за 0,95. Иными словами, если по данным выборочного исследования 60% опрошенных удовлетворены работой, то можно утверждать, что в генеральной совокупности доля удовлетворенных составит от 55 до 65% в 95% случаев, а в 5% случаев такая доля может выйти за этот интервал.

Если исходить из 5%-ной точности и величины риска в 0,95, объем выборки будет следующим (табл. 2.4).

Таблица 2.4 Зависимость объема выборки от объема генеральной совокупности Объем генеральной совокупности 500 1000 2000 3000 4000 5000 10000 100000 Бесконечная Объем выборки 222 286 333 350 360 370 385 398 400 Результаты, приведенные в табл. 2.4, свидетельствуют против Распространенного заблуждения, будто бы объем выборки — же-

124

стко фиксированный процент от генеральной совокупности, рав-ный 10. На самом же деле эта величина — не постоянная, а пере-менная, изменяющаяся в конкретных условиях. Объем выборки зависит также от того, какие вопросы используются в анкете. Цифры в табл. 2.4 действительны только для одного случая — ког-да речь идет о дихотомическом вопросе, у которого максималь- ный разброс ответов — 50 на 50%. Не имея предварительной ин-формации о разбросе оценок, социолог как бы заранее страхуется и считает, что этот разброс составит 50 на 50%. Если же такая информация имеется, то объем выборки будет следующим..

Таблица 2.5 Зависимость объема выборки от распределения дихотомического ответа Распределение ответов,

% 50 40 30 20 10

50 60 70 80 90 Объем выборки 384 369 323 246 139 В табл. 2.5 показано распределение ответов на качественные вопросы. Расчет объема выборки для количественных вопросов, включающих вопросы типа «возраст» и «заработная плата», строится исходя из коэффициента вариации (табл. 2.6), который по-казывает, какой процент составляет среднее квадратическое откло-нение от средней арифметической, и позволяет сравнивать межч-ду собой (по степени варьирования) любые признаки.

Таблица 2.6

Зависимость объема выборки от коэффициента вариации

Коэффициент вариации, % 10 20 30 40 50 60 70 80 90 100 110 I 120 Объем выборки 15 61 138 246 384 553 753 984 1245 1537 1860|2213 Если изучаются условия труда, взаимоотношения в коллективе, заработная плата и т.д. с помощью пятичленной шкалы,то коэффициент вариации изменяется здесь от 27 до 62%, а при ис-пользовании семичленной — от 78 до 113%.

Стало быть, чем длиннее шкала, тем выше коэффициент вариации и больше должен быть объем выборки. Если социолог хочет обойтись неболь-шой выборкой, то и вопросы должен формулировать проще. Иногда думают, что чем длиннее шкала, тем точнее измерение Но преимущества семибалльных шкал над пятибалльными не доказаны.

Среди социологов распространено мнение, согласно которому чем больше объем выборки, тем точнее результат, и это заставля-ет их непомерно увеличивать количество опрошенных. В реаль-

125

ности дело обстоит иначе: табл. 2.7, составленная по данным Института Гэллапа, показывает зависимость между объемом выборки и точностью оценивания в процентах. Из нее следует, что с увеличением объема выборки точность возрастает, но до определенного порога. Уже при 600 опрошенных достигается желанный для всех 5%-ный уровень точности. Стало быть, 600 человек — приемлемый объем выборки.

Между цифрами 400 и 600 человек противоречия нет. В первом случае объем выборки рассчитывался, исходя из положения о нормальном распределении ответов респондентов, а во втором — из практики. Расхождение между теорией и практикой обусловлено тем, что в реальной ситуации распределение оценок отличается от нормального, поэтому объем выборки надо рассчитывать с учетом именно этого обстоятельства; наиболее эффективным способом уменьшения объема выборки является снижение коэффициента вариации оценок.

Таблица 2.7 Зависимость между объемом выборки и точностью оценивания Количество интервью Точность оценивания,% 100 ±11 200 ±8 400 ±6 600 ±5 750 ±4 1000 ±4 1500 ±3 4000 ±2 При расчете объема выборки социологи часто совершают такую ошибку: рассчитав по существующим формулам необходимый объем выборки в целом для совокупности, в дальнейшем пропорционально размещают его по отдельным подразделениям выборки, например по цехам, предприятиям, районам, городам, типам семей. После чего на этапе обработки данных — анализируют уже сами различия между подразделениями. Однако правильнее вычислить объем выборки отдельно для каждого подразделения, а затем суммировать отдельные объемы.

Допустим, расчеты объема выборки по трем цехам (с учетом размерности шкалы, численности работающих, характера предполагаемого распределения оценок) позволили установить, что в первом цехе необходимо спросить 384 человека, во втором — 222, а в третьем — 600. Тогда общий объем выборки составит 384 + 222 + 600 = 1206 человек

126

Если социологу необходимо опросить какую-либо катего- рию работников (допустим, водителей автобусов), о которой из- вестно лишь, что к ней принадлежит, например, десятый работник предприятия, и он решил спросить 139 водителей автобусов, а общий объем выборки для предприятия составит 1390 человек, т.е. иными словами, отбирая случайным образом 1390 респондентов на предприятии, мы в соответствии с теорией выборки надеемся выявить 139 человек интересующей нас специальности.

При расчете квотной выборки социологи часто произвольно определяют ее объем в 1000 человек, исходя из удобства вычисления квот. Но с таким же успехом можно взять любое другое круглое число. Более обоснованным является подход, при котором, объем квотной выборки рассчитывается как для случайной. Дру-гим вариантом расчета объема квотной выборки является исполь-зование теории малых выборок. Ее суть: если не ставится цель дать дифференцированный анализ по группам работников, то умножа-ют количество градаций вопросов, подлежащих изучению, на 25 (минимальный статистический значимый размер группы). Напри-мер, изучают три переменные: пол — две категории, возраст — две категории (до 30 лет и свыше 30 лет), удовлетворенность трудом — измеряется пятибалльной шкалой. Тогда необходимый объем вы- борки для данного примера составит 2x2x5x25 = 500 человек. Объем выборки увеличивается в 2,5 раза. Ясно, что с расширени- ем числа переменных и числа градаций объем выборки может стать катастрофически большим. Выход только один: детальная проработка исходной проблемы, которая позволит отбраковать лишние вопросы в анкете, оставив самые важные. Если в иссле-довании проверяется несколько гипотез, то объем выборки для проверки каждой гипотезы вычисляется отдельно. Таким образом, при использовании выборки количество вопросов в анкете и гипотез должно быть минимальным.

Итак, мы рассчитали требуемый объем выборки. Теперь, и только теперь необходимо проверить, совместима ли полученная величина с выделенными ресурсами. Типичная ошибка многих социологов-прикладников состоит в том, что при расчете объема выборки во главу угла ставятся наличные ресурсы или, хуже того, социолог пассивно принимает все условия, диктуемые заказчиком.. Это в корне неверно по нескольким причинам. Во-первых, расчет объема выборки позволяет глубже проникнуть в суть изучаемого предмета и специфику методов исследования, а значит, ар- гументированно требовать получения больших ресурсов или при-нять правильное решение о снижении объема выборки. Если администрация отказала в дополнительных ресурсах, а цели ис-

127

следования не позволяют сократить объем выборки (т.е. социолог не может принять решение администрации), то надо переходить к другой схеме исследования. Во-вторых, обоснованный расчет объема выборки показывает профессионализм социолога и заставляет заказчика относится к нему более уважительно.

Стратегия последовательного расчета объема выборки. При расчете объема выборки желательно знать разброс оценок и некоторые другие параметры. Однако они-то, как правило, неизвестны. Для того чтобы не допустить ошибки, лучше предполо-жить, что они максимальны. Плата за наше незнание — разбухание объема выборки сверх необходимого и дополнительные финансовые и временные затраты (приходится опрашивать большее число людей). Для сохранения затрат применяется последовательная стратегия — объем выборки не рассчитывается заранее, а ставится в зависимость от конечных результатов исследования. Например, опрашивают 100 человек, затем устанавливают вели-чину разброса оценок и уже в зависимости от этого рассчитывают необходимый объем выборки. Если оказывается, что 100 человек достаточно, то исследование заканчивается. В противном случае добирается необходимое количество респондентов, но не до бесконечности. Известен пример из практики Дж. Гэллапа, который в начале своей карьеры активно экспериментировал с объемами выборки. В 1936 г. американцам был задан вопрос: «Хотели бы вы возобновления закона о восстановлении национальной промышленности?» Выяснился странный парадокс: Дж. Гэллап вначале опросил 500 человек и замерил ошибку выборки, а затем последовательно наращивал число респондентов до 30 тыс. К своему сожалению, он обнаружил, что прибавление 29,5 тыс. опрошенных увеличило точность информации менее чем на 1%. Следовательно, опрос можно было прекращать уже при 500 опрошенных. Этот пример показывает, что, применяя последовательную стратегию, можно добиваться значительного снижения необходимого числа наблюдений по сравнению с пред-варительным расчетом объема выборки.

Однако стратегия последовательного расчета объема выборки приносит желаемый результат лишь в том случае, если социолог может производить необходимые расчеты в ходе самого опроса, например телефонного, с применением компьютерных систем. Социолог вводит ответы респондента в свой персональный компьютер, с него результаты сразу поступают на компьютер руководителя исследования, обрабатываются, и на экране дисплея выдается информация не только об одномерных частотах, распределенных по тому или иному вопросу, но и о требуемом объеме выборки..

128

Если существует опасность, что объем выборки может оказаться катастрофически большим, надо совместить оба вида стратегии — предварительную и последовательную, т.е. применить комбиниро- ванную стратегию. Рассчитывая выборку по предварительной стратегии, получаем верхние допустимые значения для последовательной стратегии или, иначе говоря, ту величину объема выборки, при достижении которой прекращается опрос по последователь- ной стратегии.

Наиболее обоснованный и корректный подход к определению объема выборки основан на расчете доверительных интервалов, в: основе которого лежит ряд базовых понятий математической статистики (вариация, среднее квадратическое отклонение, довери-тельный интервал, средняя квадратическая ошибка).

Для расчета необходимого размера выборки в количественном исследовании чаще всего используют два статистических поня-тия — доверительный интервал и доверительную вероятность. Доверительный интервал представляет собой заранее задаваемую вами погрешность выборки. Например, если вы задаете доверй-тельный интервал в 3% и конкретный ответ на конкретный воп-рос исследования составит 48%, это значит, что даже при прове- дении опроса всей генеральной совокупности реальное значение попадет в интервал между 45 (48-3) и 51% (48 + 3). Доверитель-ная вероятность показывает, насколько вы можете быть уверены в полученных результатах, в том, что характеристики выборки со-ответствуют характеристикам всей генеральной совокупности -иными словами, с какой вероятностью случайный ответ попадет в доверительный интервал. Обычно используют доверительную вероятность 95 и 99%. Чаще всего используется 95% — этого впол-не достаточно в подавляющем большинстве исследований. Если объединить доверительную вероятность и доверительный интер-вал, то можно сказать, что ответы на вопрос с 95%-ной вероятно-стью попадут в интервал между 45 и 51%.

Весьма полезна следующая приблизительная оценка надеж-ности результатов выборочного обследования. Повышенная на-дежность допускает ошибку выборки до 3%, обыкновенная — от 3 до 10% (доверительный интервал распределений на уровне 0,03-0,1), приближенная — от 10 до 20%, ориентировочная — от 20 до 40%, а прикидочная — более 40%33.

На основе этих понятий с учетом ряда предположений выводятся формулы расчета объема выборки, которые предполагают,

129

что репрезентативность гарантируется путем использования корректных вероятностных процедур формирования выборки.

В ряде случаев в качестве главного аргумента при определении объема выборки используется стоимость проведения обследования. Так, в бюджете маркетинговых исследований предусматриваются затраты на проведение определенных обследований, которые нельзя превышать, и очевидно, что ценность получаемой информации не принимается при этом в расчет. Однако в ряде случаев и малая выборка может дать достаточно точные результаты.

Исследовательская практика подсказывает следующее правило: объем выборки должен обеспечивать не менее 100 наблюдений для каждой первостепенной и не менее 20—50 наблюдений для каждой второстепенной классификационной составляющей. Первостепенные классификационные составляющие соответствуют наиболее критичным, а второстепенные — наименее критичным ячейкам перекрестной классификации, принятой в данном исследовании34. Теоретические расчеты и практика доказывают, что для получения достоверных данных о мнении и предпочтениях населения такого крупного города, как Санкт-Петербург, достаточно опросить 700—800 человек. Однако большинство опросов населения здесь проходят на выборках объемом до 1,5 тыс. человек.

<< | >>
Источник: В.И. Добреньков, А.И. Кравченко. МЕТОДЫ СОЦИОЛОГИЧЕСКОГО ИССЛЕДОВАНИЯ. 2004

Еще по теме 2.8. Расчет объема выборки30:

  1. ВНИМАНИЕ: ОБЪЕМ
  2. Тест «ОБЪЕМ ВНИМАНИЯ»
  3. Определение объема выборки.
  4. Определение объема выборки.
  5. Определение объема выборки.
  6. Объем анкеты.
  7. 3. Объемы понятий альтернатив
  8. Определение объема выборки.
  9. ПАМЯТЬ: ОБЪЕМ
  10. 3. Объем ответственности перевозчика.
  11. ПАМЯТЬ КРАТКОВРЕМЕННАЯ: ОБЪЕМ
  12. Статья 482. Объем правовой охраны рационализаторского предложения
  13. Статья 514. Объем прав, которые переходят к новому кредитору в обязательстве
  14. Статья 26. Объем гражданской правоспособности физического лица
  15. 2. Объем дисциплины, виды учебной работы, формы контроля
  16. 2. Объем дисциплины, виды учебной работы, формы контроля
  17. 2. Объем дисциплины, виды учебной работы, формы контроля
  18. 2. Объем дисциплины, виды учебной работы, формы контроля