«Поиск идеальной статистической характеристики, – отметил в твиттере писатель Уилл Курт, – сродни стремлению поместить на обложку книги такой крутой отзыв, что читать саму книгу уже не понадобится».
Мы не ратуем за отказ от измерений. Они необходимы для оценки качества процессов: правительство – при многомиллионном-то населении страны – не может оценивать каждую школу и каждую больницу по отдельности. То же относится и к крупным компаниям. Внутри них измерения тоже оправданы: например, автодилер может премировать тех сотрудников, кто продает больше машин, стимулируя их работать еще усерднее, и тем самым повысить общую производительность. Измерения необходимы.
Как отмечала исследовательница в сфере образования Дейзи Христодулу, в 2013 году, когда в Великобритании количество оценок от C до A* стало целевым показателем, учителя стали хитрить, уделяя особое внимание ученикам с оценками между С и D, – ведь именно с их помощью можно было сильнее всего повысить показатели.
Подобные примеры есть и в области здравоохранения. В Орегоне рейтинги медучреждений учитывают среди прочего внутрибольничную смертность, то есть процент умерших среди госпитализированных. Но в 2017-м врачи пожаловались, что больничная администрация отказывается принимать некоторых тяжелобольных из опасения, что они умрут и тем самым испортят статистику. В 2006-м американская система Medicare начала проводить программу снижения повторной госпитализации, подсчитывая, сколько больных с сердечной недостаточностью были снова госпитализированы в течение 30 дней после выписки. Проведенное в 2018 году исследование показало, что на самом деле эта программа привела к повышению смертности, поскольку больницы, по-видимому, откладывали госпитализацию на 31-й день, стараясь не испортить свою статистику [36].
В экономике есть старая поговорка – закон Гудхарта, названный в честь бывшего экономического советника Банка Англии Чарльза Гудхарта: «Как только экономический показатель становится целевой функцией, он перестает работать». Формулировка может показаться абстрактной, но сам закон имеет серьезные последствия, и, разобравшись в нем, вы станете замечать примеры его действия повсюду. Он означает, что, какие бы параметры ни применялись для оценки деятельности в той или иной сфере, всегда найдется способ уйти из-под контроля.
Классический пример – образование. Представим, что некоторые ученики из некоторых школ достигают в жизни больших успехов, чем ученики других школ; они чаще поступают в университеты, чаще находят работу и вообще процветают и становятся высокообразованными гражданами. Вы присматриваетесь и замечаете, что ученики процветающих школ получают более высокий процент оценок от C до A* на экзамене GCSE (или еще каком-нибудь), чем остальные.[34][35]
Прекрасно, думаете вы. Вот показатель, по которому можно оценивать работу школ. Вы начинаете ранжировать их по проценту учеников, которые получают эти более высокие оценки. Школы с более высоким процентом будут награждаться; к школам с более низким процентом будут применяться специальные меры – увольнение директоров или другие наказания.
Вскоре вы видите, что школы массово повысили долю оценок от C до A*. И это хорошо! Но еще вы замечаете, что выпускники этих школ – несмотря на свои блестящие аттестаты – не кажутся такими высокообразованными гражданами, какими вы надеялись их увидеть.
Нетрудно догадаться, что произошло. Директора и органы управления образованием надавили на учителей, требуя увеличения процента высоких оценок. Несомненно, большинство педагогов искренне пытались подтягивать отстающих, но поняли, что невыполнение целевых показателей плохо скажется на их карьерном росте.
Тогда некоторые учителя постарались найти самый быстрый и простой способ достижения необходимых значений.
В случае с курением, отмечалось в статье, на раннем этапе пандемии тестировали не случайных людей. Часто это были медицинские работники. А медицинские работники курят меньше, чем население в целом.
Но другая категория часто тестируемых – люди с серьезными симптомами. Таким образом, тест на ковид делали медицинским работникам и людям с тяжелым течением ковида, и в случае положительного результата их госпитализировали. Но свойство «быть медицинским работником» связано со свойством «не курить», поэтому среди тех, кто получил положительный результат теста на ковид, был выявлен большой процент некурящих медицинских работников.
Помните пример с привлекательными или талантливыми актерами? Это очень похожая ситуация. Только теперь мы отбираем не тех, кто «стал известным актером», а тех, кто «получил положительный тест на ковид». Для получения положительного теста вам надо или 1) иметь очевидные симптомы ковида, или 2) быть медицинским работником (а потому, вероятно, некурящим). Если вы не обладаете ни тем, ни другим свойством, то останетесь без теста, поэтому, рассматривая только тех, кому сделали тест, можно сделать вывод, что эти два свойства связаны, даже если это не так.
Но если рассматривать голливудских актеров и только их, то обнаружится интересная закономерность: наиболее привлекательные из них обычно менее талантливы, чем менее привлекательные, хотя среди населения в целом эти характеристики не связаны.
Это происходит потому, что знаменитые актеры выбираются на основании этих двух характеристик. Если вы потрясающе привлекательны, от вас не требуют выдающегося таланта, и наоборот. Таким образом все непривлекательные плохие актеры удаляются из выборки немедленно, и диаграмма выглядит так, как на следующей странице.
Похожая ситуация с поступлением в американские колледжи, куда зачисляются способные ученики или хорошие спортсмены. Среди населения в целом эти характеристики не связаны или связаны очень слабо. Но поскольку для поступления в колледж достаточно одного из этих свойств, среди американских студентов спортивные таланты отрицательно связаны со способностями к учебе. (Отсюда стереотипы о тупых качках.)
Есть проявляющаяся время от времени статистическая аномалия под названием «ошибка коллайдера». Она выдает настолько странные результаты, что настоящие взаимосвязи кажутся исчезнувшими или же на пустом месте создаются воображаемые зависимости. Порой из-за нее реальность искажается с точностью до наоборот.
В главе 7 мы говорили о контролировании искажающих факторов. Представьте, что вы проводите исследование с целью определить, скорость, с которой бегают люди. И заметили такой феномен: в среднем чем больше у человека седых волос, тем медленнее он пробегает милю.
Возможно, седина замедляет бег. Или скорее оба фактора связаны с неким третьим – возможно, с возрастом. Видимо, чем человек старше, тем больше у него седых волос и тем медленнее он бегает.
Предположим, вы тестируете антидепрессант. На самом деле он бесполезен, но вы пока этого не знаете. Если провести десять исследований (особенно небольших), результаты могут слегка разниться: пять покажут отсутствие эффекта; в трех окажется, что препарат вызывает ухудшение, а два продемонстрируют небольшое улучшение. Фактически препарат не работает, но чисто случайно разные испытания дают разные результаты.
А теперь вспомним главу 15: поскольку новый, интересный (а для производителя и выгодный) результат – «лекарство работает», те исследования, в которых препарат окажется эффективным, скорее будут опубликованы в научном журнале. Поэтому может случиться так, что результаты восьми работ, в которых обнаружили отрицательный или нулевой эффект, исследователь отложит в долгий ящик. И если кто-то захочет сделать обзор, то найдет только две опубликованные статьи с выводом, что антидепрессант работает. И тогда врачи могут начать его прописывать, потому что его эффективность, по-видимому, подтверждена научно.
Так и бывает в реальности, и это приводит к реальным проблемам и убивает реальных людей. Одно исследование показало, что в 94 % опубликованных статей об испытаниях антидепрессантов обнаруживаются положительные результаты, но когда учитываются и неопубликованные результаты, процент снижается до 51.
У этой ошибки есть и второй уровень: если вы читаете о научном исследовании в СМИ, значит, его сочли достаточно интересным для новости. «Новое исследование показало, что подгоревший тост на самом деле не вызывает рака» или «Фейсбук не засоряет детям мозги, обнаружили ученые» – вряд ли вызовут большой ажиотаж. Если вы прочли в газете о научном исследовании, вспомните, что оно уже выполнило два боевых задания и вернулось на базу. Это не значит, что оно неверное, – это просто повод проявить бдительность: вы же не знаете, сколько других исследований на эту тему были сбиты.
Как только происходит массовая стрельба, СМИ смотрят на биографию стрелка и находят, что тот играл в жестокие видеоигры. Дональд Трамп делал такие заявления после инцидентов со стрельбой в Эль-Пасо (Техас) и в Дейтоне (Огайо) в 2019 году.
Но это столь же очевидный пример выбора по зависимой переменной, как и в случае с водой и артритом. Вопрос не в том, играют ли организаторы массовой стрельбы в жестокие видеоигры, а в том, играют ли они в эти игры больше других людей. (А еще надо посмотреть на направление причинной связи: становятся ли они жестокими, потому что играют в жестокие игры, или играют в такие игры, потому что жестоки. О причинно-следственной связи мы говорили в главе 8.)
Так как подавляющее большинство молодых людей играет в жестокие видеоигры и почти все школьные стрелки – молодые люди, крайне вероятно, что любой из них играл в Call of Duty или какой-то другой шутер от первого лица. Сообщения, что массовый убийца играл в жестокую видеоигру, удивляют немногим больше, чем утверждение, что он ел пиццу или носил футболку. На самом деле минимум одно исследование показало, что распространение таких видеоигр приводит к снижению числа убийств. Возможно, просто потому что люди, которые могли бы выйти из дома и выплеснуть агрессию, остаются у себя в комнате и играют в Grand Theft Auto V.
Ошибка выжившего – это пример более широкой проблемы – выбора по зависимой переменной. Звучит замысловато, но на самом деле идея проста: вы не можете понять, почему происходит Х, рассматривая только те случаи, когда Х происходит. В научном эксперименте независимая переменная – это то, что вы меняете (например, доза лекарства, которое выдается участникам эксперимента). Зависимая переменная – это то, что вы измеряете, чтобы проверить, меняется оно или нет (например, процент выживших).
Представьте: вы решили выяснить, ведет ли потребление воды к артриту (ваша зависимая переменная – наличие артрита). Посмотрев на всех больных артритом, вы быстро поймете: все они пили воду. Но поскольку тех, у кого нет артрита, вы не рассматриваете, вы не знаете, пьют ли больные артритом больше воды, чем все остальные.