Введение в методы выборки из популяции
Пожалуйста, обратите внимание: в настоящее время мы обновляем эту главу и ценим ваше терпение в процессе завершения.
Обычно было бы непрактично исследовать всю популяцию, например, при проведении опроса. Выборка — это метод, который позволяет исследователям делать выводы о популяции на основе результатов подмножества популяции, не исследуя каждого отдельного человека. Снижение числа участников в исследовании уменьшает затраты и рабочую нагрузку, что может облегчить получение качественной информации, но это нужно сбалансировать с достаточным размером выборки, чтобы иметь возможность обнаружить истинную ассоциацию.
Если выборка будет использоваться, независимо от выбранного метода, важно, чтобы выбранные участники были репрезентативными для всей популяции. Это может потребовать целенаправленного обращения к труднодоступным группам. Например, если для определения участников использовался электоральный реестр города, некоторые люди, такие как бездомные, не были бы зарегистрированы и, следовательно, были исключены из исследования по умолчанию.
Существует несколько различных методов выборки, которые можно подразделить на две группы: выборка с вероятностью и выборка без вероятности. В выборке с вероятностью (случайной) вы начинаете с полного списка всех подходящих участников, из которого выбираете свою выборку. Таким образом, все подходящие участники имеют шанс быть выбранными для выборки, и вы сможете более точно обобщить результаты вашего исследования. Методы выборки с вероятностью, как правило, более трудоемкие и дорогостоящие, чем выборка без вероятности. В выборке без вероятности (неслучайной) вы не начинаете с полного списка, поэтому некоторые участники не имеют шанса быть выбранными. Следовательно, вы не можете оценить эффект ошибки выборки и существует значительный риск получить нерепрезентативную выборку, которая дает неуниверсальные результаты. Однако методы выборки без вероятности, как правило, дешевле и удобнее, и они полезны для исследовательских и гипотезных целей.
Методы выборки с вероятностью
1. Простая случайная выборка
В этом случае каждый участник выбирается совершенно случайно, и каждый член популяции имеет равные шансы быть выбранным. Один из способов получения случайной выборки — дать каждому участнику номера, а затем использовать таблицу случайных чисел, чтобы определить, каких участников включить.
Например, если у вас есть список из 1000 участников, пронумерованных от 0 до 999, используйте группы из трех цифр из таблицы случайных чисел, чтобы выбрать свою выборку. Если первыми тремя числами из таблицы случайных чисел были 094, выберите участника с номером «94» и так далее.
Как и во всех методах выборки с вероятностью, простая случайная выборка позволяет рассчитать ошибку выборки и снижает отборочный bias. Специфическое преимущество заключается в том, что это самый простой метод выборки с вероятностью. Недостаток простой случайной выборки заключается в том, что вы можете не выбрать достаточное количество участников с интересующей вас характеристикой, особенно если эта характеристика редка. Также может быть трудно определить полный список участников и неудобно связаться с ними, особенно если требуются различные способы контакта (электронная почта, телефон, почта), и ваши единицы выборки разбросаны по большой географической площади.
2. Систематическая выборка
Участники выбираются через регулярные интервалы из списка выборки. Интервалы выбираются для обеспечения достаточного размера выборки. Если вам нужен размер выборки n из популяции размером x, вы должны выбрать каждого x/n участника для выборки. Например, если вам нужна выборка размером 100 из популяции 1000, выберите каждого 1000/100 = 10 участника из списка выборки.
Систематическая выборка часто удобнее простой случайной выборки и легко администрируется. Однако она также может привести к bias, если в порядке участников в списке выборки есть скрытые закономерности, которые совпадают с периодичностью этих закономерностей. Например, если группа студентов выбирается для получения их мнений о колледже, но список студентов организован так, что пол студентов чередуется между мужчинами и женщинами, выбор каждого четного интервала (например, каждого 20-го студента) приведет к выборке всех мужчин или всех женщин. В этом примере bias очевиден и его должно быть легко исправить, но это не всегда так.
3. Стратифицированная выборка
В этом методе популяция сначала делится на подгруппы (или страту), которые все имеют схожую характеристику. Он используется, когда мы могли бы разумно ожидать, что измерение будет варьироваться между различными подгруппами, и мы хотим обеспечить представительство от всех подгрупп. Например, в исследовании исходов инсульта мы можем стратифицировать популяцию по полу, чтобы обеспечить равное представительство мужчин и женщин. Выборка исследования затем получается путем взятия равных размеров выборки из каждой страты. В стратифицированной выборке также может быть уместно выбирать неравные размеры выборки из каждой страты.
Например, в исследовании исходов здоровья медсестер в округе, если есть три больницы, каждая с разным количеством медсестер (больница A имеет 500 медсестер, больница B имеет 1000 и больница C имеет 2000), то было бы уместно выбрать количество выборки из каждой больницы пропорционально (например, 10 из больницы A, 20 из больницы B и 40 из больницы C). Это обеспечивает более реалистичную и точную оценку исходов здоровья медсестер по округу, тогда как простая случайная выборка переоценит медсестер из больниц A и B. Об этом, что выборка была стратифицирована, следует помнить на этапе анализа.
Стратифицированная выборка улучшает точность и репрезентативность результатов, снижая bias выборки. Однако она требует знания соответствующих характеристик списка выборки (подробности которого не всегда доступны), и может быть трудно решить, по каким характеристикам стратифицировать.
4. Кластерная выборка
В кластерной выборке подгруппы популяции используются в качестве единицы выборки, а не отдельные участники. Популяция делится на подгруппы, известные как кластеры, которые случайно выбираются для включения в исследование. Кластеры обычно уже определены, например, отдельные практики врачей общей практики или города могут быть определены как кластеры. В одностадийной кластерной выборке все участники выбранных кластеров затем включаются в исследование. В двухстадийной кластерной выборке случайным образом выбирается выборка участников из каждого кластера. Кластеризация должна учитываться в анализе. Общенародное обследование, которое проводится ежегодно в Англии, является хорошим примером одноэтапной кластерной выборки. Все участники выбранных домохозяйств (кластеров) включаются в обследование.
Кластерная выборка может быть более эффективной, чем простая случайная выборка, особенно если исследование проводится на большой географической территории. Например, легче связаться с большим количеством участников в нескольких практиках врачей общей практики, чем с несколькими участниками в многих различных практиках. Недостатки включают повышенный риск bias, если выбранные кластеры не являются репрезентативными для популяции, что приводит к увеличению ошибки выборки.
Методы выборки без вероятности
1. Удобная выборка
Удобная выборка, возможно, является самым простым методом выборки, поскольку участники выбираются на основе доступности и готовности участвовать. Полезные результаты могут быть получены, но результаты подвержены значительному bias, поскольку те, кто добровольно соглашается участвовать, могут отличаться от тех, кто выбирает не участвовать (bias волонтеров), и выборка может не быть репрезентативной для других характеристик, таких как возраст или пол. Примечание: bias волонтеров является риском всех методов выборки без вероятности.
2. Квотная выборка
Этот метод выборки часто используется рыночными исследователями. Интервьюерам дается квота субъектов определенного типа, чтобы попытаться их набрать. Например, интервьюеру может быть приказано выбрать 20 взрослых мужчин, 20 взрослых женщин, 10 девочек-подростков и 10 мальчиков-подростков для интервьюирования об их просмотре телевизора. В идеале выбранные квоты будут пропорционально представлять характеристики основной популяции.
Хотя это имеет преимущество в том, что относительно просто и потенциально репрезентативно, выбранная выборка может не быть репрезентативной для других характеристик, которые не были учтены (последствие нерANDOMной природы выборки).
3. Выборка по усмотрению (или целевая выборка)
Также известная как селективная или субъективная выборка, эта техника полагается на суждение исследователя при выборе, кого попросить участвовать. Исследователи могут неявно выбирать «репрезентативную» выборку, чтобы соответствовать их потребностям, или специально подходить к людям с определенными характеристиками. Этот подход часто используется СМИ при опросах общественного мнения и в качественных исследованиях.
Выборка по усмотрению имеет преимущество в том, что она является экономичной по времени и затратам, а также приводит к разнообразию ответов (что особенно полезно в качественных исследованиях). Однако, помимо bias волонтеров, она также подвержена ошибкам суждения исследователя, и результаты, хотя и могут быть широкими, не обязательно будут репрезентативными.
4. Снежная выборка
Этот метод часто используется в социальных науках при исследовании труднодоступных групп. Существующие участники просят назвать других участников, знакомых им, так что размер выборки увеличивается, как снежный ком. Например, при проведении опроса о рискованном поведении среди внутривенных наркозависимых участников могут попросить назвать других наркозависимых для интервьюирования.
Снежная выборка может быть эффективной, когда трудно идентифицировать список выборки. Однако, выбирая друзей и знакомых уже исследованных участников, существует значительный риск bias выбора (выбор большого количества людей с похожими характеристиками или взглядами на основе первоначально идентифицированного участника).
Bias в выборке
Существует пять важных потенциальных источников bias, которые следует учитывать при выборе выборки, независимо от используемого метода. Bias выборки может быть введен, когда:
- Отклоняются от любых заранее согласованных правил выборки
- Пропускаются люди из труднодоступных групп
- Выбранные участники заменяются другими, например, если с ними трудно связаться
- Низкие показатели отклика
- Используется устаревший список в качестве выборки (например, если он исключает людей, которые недавно переехали в район)
Дополнительные потенциальные проблемы с методами выборки рассмотрены в главе 8 этого раздела.
Список литературы
Ben-Shlomo Y, Brookes S, Hickman M. 2013. Записки лекций: Эпидемиология, основанная на доказательствах, и общественное здоровье (6-е изд.), Wiley-Blackwell, Оксфорд.