Вы здесь

Том13. Абсолютная точность и другие иллюзии. Секреты статистики

Том13. Абсолютная точность и другие иллюзии. Секреты статистики

Так как состав всех четыре групп схож и все испытуемые находились под влиянием одинаковых внешних условий, существенные различия в результатах групп, выходящие за рамки случайного отклонения, объясняются только разным действием принимаемых лекарств. Именно такова логика экспериментов, в которых сравнивается действие различных лекарств на случайной выборке.

Использовался двойной слепой метод, то есть ни пациенты, ни лица, наблюдающие за ними, не знали, какое лекарство принимает тот или иной пациент. Наблюдательный комитет анализировал результаты каждые полгода. Хотя изначально планировалось, что эксперимент продлится семь лет, спустя пять лет после его начала он был прекращен: положительный эффект аспирина оказался столь существенным, что было принято решение как можно скорее оповестить об этом и участников эксперимента, и всех врачей страны.

В группу, получавшую аспирин, входили те, кто принимал аспирин и бета-каротин, а также те, кто принимал аспирин и плацебо бета-каротина. Группа плацебо включала две оставшиеся подгруппы. Статистическое исследование показывает, что если бы аспирин не имел никакого положительного эффекта (вероятность инфаркта в обеих группах была бы одинаковой), то вероятность того, что подобная разница в результатах случайна, имела бы порядок 2 на 100000. Следовательно, разумно предполагать, что аспирин снижает вероятность инфаркта.

Новость о результатах эксперимента появилась на первой полосе газеты New York Times и привлекла большое внимание средств массовой информации. Эксперимент по анализу воздействия бета-каротина продолжался в течение запланированного времени. Автору не удалось найти информации о результатах этого эксперимента. Скорее всего, они были негативными. Согласно известной на данный момент информации, прием бета-каротина не только не снижает вероятность заболевания раком, но и увеличивает ее для курильщиков.

Однако аспирин — тоже не панацея. Считается, что он препятствует образованию скоплений тромбоцитов и образуется меньше сгустков крови. Но это тоже таит в себе опасность. Исследования показали, что в группе, принимавшей аспирин, наблюдался небольшой (не статистически значимый) рост случаев смертности от эмболии. Поэтому решение о регулярном приеме аспирина следует принимать взвешенно. Нужно следовать рекомендациям врача, который оценит индивидуальные особенности, преимущества и недостатки приема аспирина в каждом конкретном случае.

Табак и рак легких

С тем, что курение вредит здоровью, сегодня согласны практически все, но эта точка зрения была распространена не всегда. Теперь нам известно, какие именно вещества, содержащиеся в табачном дыме, могут вызвать рак. Также известно, как эти вещества превращают здоровые клетки в раковые, — это было показано с помощью опытов на животных. Но, как и во многих других случаях, статистические данные указывали, что ситуация не столь однозначна и требуются более подробные исследования.

Данные, которые были получены в 1950-х, свидетельствовали, что курильщики чаще болеют раком легких, чем некурящие. Но чтобы однозначно подтвердить это, требовались более тщательные исследования.

Чтобы подтвердить связь между курением и возникновением рака легких и других заболеваний, было проведено семь масштабных исследований (одно в Великобритании, одно в Канаде, пять в США). Число испытуемых составляло от 34000 до 448000 человек. По сути, все исследования проводились по одной и той же схеме: лицам, выбранным для участия в исследовании, высылались анкеты. Требовалось указать, сколько сигарет человек выкуривал сейчас и в прошлом, а также основные демографические данные. Была создана система, гарантирующая, что в случае смерти участника опроса этот факт регистрировался, а также указывалась причина смерти.

Эти исследования позволили узнать, какое влияние оказывает возраст, в котором человек начал курить, вид и число выкуриваемых сигарет, а также заболевания, которым подвержены те, кто бросил курить. Один из выводов исследования заключался в том, что частота заболевания раком легких среди курильщиков в 11–20 раз выше, чем среди некурящих.

Возможен встречный аргумент (его выдвинул в том числе Фишер): данные исследований показывают, что раком легких чаще болеют курильщики, но это не доказывает, что причиной этого заболевания является именно табак. Можно предположить, что курильщики в целом более нервные и беспокойные, и именно эти черты характера, из-за которых они начали курить, являются причиной определенных заболеваний. Быть может, те, кто подвержен табачной зависимости, имеют определенную генетическую особенность, из-за которой (а не из-за курения) они чаще болеют раком легких.

Эти аргументы можно выдвинуть потому, что проведенные исследования не являются экспериментами в полном смысле этого слова, как было в случае с испытаниями вакцины против полиомиелита или при изучении действия аспирина по профилактике сердечных заболеваний. В этих случаях участники эксперимента случайным образом делились на две группы, экспериментальную и контрольную, так чтобы все возможные различия между ними являлись следствием изучаемого явления. Считалось, что причиной любых существенных различий между двумя группами является именно изучаемое явление. Однако исследования воздействия табака не были экспериментальными: две группы, курильщики и некурящие, уже были сформированы, и ученые лишь наблюдали за развитием событий. Нельзя было заставить курить некурящих или уговорить заядлых курильщиков бросить курить. С теоретической точки зрения в идеальном исследовании курить должны все, но половина испытуемых, выбранная случайным образом, должна курить обычный табак, а другая половина — некое совершенно безвредное вещество, по вкусу и остальным свойствам идентичное табаку.

Производители сигарет могли бы заявить, что только такое исследование является корректным, и были бы правы. Однако оно настолько же корректно, насколько и нереализуемо на практике. Все же доступные данные однозначно указывают, что табак — важный фактор возникновения рака легких и мочевого пузыря, сердечно-сосудистых и других заболеваний. Связь между раком легких и употреблением табака была отмечена во множестве исследований, выполненных в различных странах и условиях. Это устраняет возможную предрасположенность к этим заболеваниям определенной группы людей. Кроме того, известно, какие именно вещества, содержащиеся в табачном дыме, могут вызывать рак. Гипотеза о генетической предрасположенности не объясняет роста числа заболеваний среди женщин, которые начали курить, и среди некурящих, постоянно находящихся рядом с курильщиками. Эти факты не всегда были очевидны, и обнаружить их помогла именно статистика.

Случайный отбор и влияние различных факторов

При разработке экспериментов для сравнения различных лекарств, катализаторов химической реакции и так далее наиболее важный момент — получить два множества данных, которые отличаются единственной переменной, изучаемой в эксперименте. При проведении подобных экспериментов в медицине могут сравниваться два лекарства или выясняться эффект от приема лекарства по сравнению с плацебо, как в случае с вакциной полиомиелита или при анализе действия аспирина по предотвращению инфарктов. Как вы уже видели, ключевой вопрос — как разделить участников исследования на две максимально похожие группы. Парадоксально, но наилучшие результаты достигаются при формировании групп случайным образом. В этом случае любые значимые различия между группами (то есть те, которые нельзя объяснить случайными событиями) объясняются различным воздействием изучаемого фактора на обе группы. Однако если помимо изучаемого фактора на группы действуют и другие факторы, то нельзя сказать, что именно является причиной различий в результатах групп.

Рассмотрим пример. Одной из классических книг по проведению экспериментов является Statistics for Experimenters Бокса, Хантера и Хантера, где объясняется, как нужно провести эксперимент, чтобы сравнить степень износа различных материалов, из которых изготавливается подошва молодежной обуви. Если в эксперименте участвует всего 10 молодых людей, их можно разделить случайным образом на две группы по 5 человек: члены одной группы получат обувь с подошвой из материала А, члены второй группы — обувь с подошвой из материала В. По прошествии определенного времени (например, полугода) нужно измерить износ подошв на всех парах обуви и провести соответствующий статистический анализ (в этом случае будет использоваться так называемый t-критерий Стьюдента для независимой выборки).

Естественно, что группы следует формировать случайным образом. Не стоит просить подростков выстроиться в шеренгу и выдавать первым пяти обувь с подошвой из материала А, последним пяти — обувь с подошвой из материала В: те, кто встал в шеренгу первыми, больше бегают и двигаются, поэтому быстрее износят обувь.

Однако этот способ сбора данных имеет один недостаток. Износ подошвы зависит не только от материала (именно это мы анализируем в ходе эксперимента), но и от самого подростка: некоторые из них больше бегают и будут даже играть в футбол в этой обуви, другие будут бегать меньше. Некоторые, возможно, почти не будут надевать выданную обувь, так как она им не понравится или они побоятся порвать ее, и подошвы не износятся.

Так как на износ подошвы влияет не только материал, из которого она изготовлена, но и другие факторы, то мы не сможем определить, какой именно фактор будет причиной возможных различий. Может случиться так, что по вине посторонних факторов различий наблюдаться не будет, но в действительности подошвы из анализируемых материалов будут изнашиваться по-разному.

Как справиться с этой проблемой? Нужно выдать каждому подростку один ботинок с подошвой из первого материала, другой — с подошвой из другого материала. В этом случае все возможные отличия в износе подошвы будут вызваны исключительно различными свойствами материалов и никаким другим фактором. В этом случае сравниваются не средние значения в обеих группах, а износ подошв обоих ботинок каждого подростка. Если одна подошва в среднем изнашивается больше другой (не имеет значения, насколько сильно они изнашиваются, важна лишь разница между ними), это вызвано различием в свойствах материалов.

Для сравнения средних значений выборок, сформированных таким образом, используется так называемый t-критерий Стьюдента для парных выборок.

Очевидно, что не следует изготавливать из материала А подошву только правых ботинок, а из материала В — подошву левых ботинок, так как, возможно, подошвы на одной ноге в среднем изнашиваются больше. Этого можно избежать, если чередовать материалы случайным образом (например, бросать монету для каждой пары обуви, и если выпадает решка, то из материала А изготавливается подошва правого ботинка).

Страницы


В нашей электронной онлайн библиотеке вы можете бесплатно и без регистрации прочитать «Том13. Абсолютная точность и другие иллюзии. Секреты статистики» автора Грима Пере на телефоне, андроиде, айфоне, айпаде. Сейчас вы находитесь в разделе „Глава 5Что лучше? Что эффективнее? Как формировать выборки для ответов на подобные вопросы“ на странице 3. Приятного чтения.