Южная Америка

Ложные корреляции и странный случай связи между инфляцией в Аргентине и ледяными дождями

Ложные корреляции и странный случай связи между инфляцией в Аргентине и ледяными дождями
Если бы эта заметка была опубликована в День апрельского дурака, то в ней говорилось бы о том, что в работе Хадсонского университета только что найден Святой Грааль аргентинской инфляции: алгоритм искусственного интеллекта обнаружил очень высокую корреляцию между месячной инфляцией за последние 20 лет и интенсивностью поисковых запросов по фразе «ледяная ванна» в Google. И, как обычно в этот день, через положенное время шутка будет раскрыта. Очевидно, что такой статьи не существует (или более или менее), как и Гудзонского университета. Удивительно, но факт: существует очень высокая корреляция между цифрой, которая не дает аргентинцам спать по ночам, и ледяной баней - практикой, которая, как утверждается, вызывает состояние, способствующее творчеству и воображению. Под «корреляцией» мы понимаем статистику, измеряющую степень связи между двумя переменными: от нуля, когда связи нет, до единицы, когда связь идеальная и положительная. Скучая во время подготовки к выпускным экзаменам в Гарварде, молодой юрист Тайлер Виген создал алгоритм для решения следующей задачи: в базе данных из 26 379 переменных (любых, спортивных, социальных, культурных, экономических) вычислить все возможные корреляции и выделить те, которые очень высоки. «Результаты уморительны: алгоритм находит, среди прочих перлов, очень сильную связь между количеством смертей от утопления в бассейне и количеством фильмов, в которых снимается Николас Кейдж, или между появлением НЛО в Мексике и количеством патентов, выданных в США. В случае с Аргентиной и инфляцией, помня о том, что ноль - это не связь, а один ряд идеально предсказывает другой, корреляция между инфляцией и ледяной ванной дает (простите...) леденящий душу показатель 0,98. «Социальные сети устроили настоящий день в связи с этими нелепыми корреляциями. Виген написал уморительную книгу (Spurious Correlations) и ведет интересный сайт со своими «находками». Более того, алгоритм Вигена, называемый «вычерпыванием данных», позволяет любому загрузить серию данных, и сайт возвращает ту, которая имеет наибольшую корреляцию с введенной. И поэтому было просто неотразимо загрузить в него «ту самую» серию, которая открывает президента Хавьера Милея и с которой начинается эта заметка. В «сервис» Вигена (совершенно бесплатный) входит механизм искусственного интеллекта, который пишет (псевдо)научную статью о любой найденной ерунде. Почему возникают эти ложные корреляции? Начнем с того, что Виген первым указывает на грязную природу своего проекта, созданного с единственной целью - подчеркнуть опасность безответственного копания в данных: «Понятие ложной корреляции, похоже, связано с двумя концепциями. С одной стороны, оно относится к числовым ассоциациям, которые не соответствуют причинно-следственным связям. Например, люди, сидящие на диете, тяжелее людей, не сидящих на диете, потому что тем из нас, кто страдает избыточным весом, сказали отказаться от десертов, а не потому, что диета делает нас толстыми. В этом случае корреляция является ложной, поскольку противоречит интуиции, согласно которой диета должна делать вас стройнее. Таким образом, этот источник причинно-следственной бессмысленной корреляции связан с неправильным использованием данных: если бы они хотели изучить влияние диеты, им следовало бы провести эксперимент, чтобы не путать причины, по которым люди садятся на диету, с ее последствиями. «Аналогично, тот факт, что у госпитализированных хуже здоровье, чем у остальных, не подтверждает идею о том, что больницы оказывают негативное влияние. А тот факт, что те, кто говорит по-английски, добиваются успеха, не говорит о преимуществах изучения языка Шекспира». Именно этот источник ложных корреляций скрывается за мантрой «корреляция не подразумевает причинно-следственной связи», которую все повторяют, но, насколько можно судить на практике, мало кто понимает. «Второй источник бессмысленных корреляций - совпадения. То есть пробелы в статистике, через которые проскальзывают поддельные результаты, как следствие пределов погрешности дисциплины, которая не может их избежать. Не потому, что она бездействует, а потому, что в условиях неопределенности их невозможно устранить и остается только договариваться. Алгоритм, утверждающий, что каждый фильм - паршивый, устраняет одну ошибку (никто не попадает впросак), но гарантирует другую: те, кто не смотрит ни одного фильма, пропускают все хорошие. Иначе обстоит дело с рекомендательной системой, которая говорит, что каждый фильм - отличный. На практике алгоритмы согласовывают эти ошибки, чтобы система работала, потому что в противном случае, аллегорически, единственный способ избежать авиакатастроф - это подавить авиацию. Такова неизбежная погрешность статистики, систем рекомендаций, авиации, лекарств, правосудия. Работа науки, техники и статистики заключается не в устранении ошибок, а в их минимизации. С 26 379 переменными можно вычислить почти 320 миллионов корреляций, где почти наверняка появятся эти «случайные корреляции». Именно этим и воспользовался Виген: из всего этого чудовищного количества корреляций на своем сайте он показывает только те 10 974, которые оказались значимыми. Это напоминает старую шутку о том, как стать асом на рынках: разослать 1000 писем, в половине из которых говорится, что доллар растет, а в другой половине - что падает. На следующей неделе тем, кто получил письмо, в котором все было верно, снова разошлите письма под тем же лозунгом. Через месяц найдется 30 человек, которые скажут: «Есть парень, который уже месяц бьет доллар». В этой шутке на каждого человека, который считает вас гением, приходится 33, которые знают, что вы фальшивка. На сайте Vigen на каждую удивительную корреляцию приходится почти 30 миллионов тех, кто ничего не дает. Это азбука финансовых пирамид: говорит только победитель. Пока что это два наиболее часто упоминаемых источника ложных корреляций, настолько, что люди говорят о «случайности против причинности», когда речь заходит об этом вопросе. Но есть и третий, который экономика прячет в рукаве и который объясняет, почему в экономике опасно легко столкнуться с этими миражами анализа данных. «В 1974 году Клайв Грейнджер и Пол Ньюболд зафиксировали явление, которое „чуяли“ уже более века: когда статистические ряды имеют „слишком много памяти“, классический инструмент для вычисления корреляций (»корреляция Пирсона», которую использовал Виген и почти все остальные) не работает. То есть он склонен находить взаимосвязи между сериями даже тогда, когда их нет, что значительно превышает допустимую погрешность. Поэтому, если в базе данных Vigen много таких серий, шансы найти бессмысленные корреляции значительно возрастают. Здесь дело не в случайности против причинности, а скорее в том, что инструмент не работает. Разработка соответствующих методов для связи рядов в этом контексте и принесла Грейнджеру Нобелевскую премию в 2003 г. Проблема с искусственным интеллектом и большими данными заключается в том, что в конечном итоге тот, кто ищет, тот находит. Именно естественный интеллект отличает релевантные закономерности от совпадений, потому что он знает, что одно дело, когда человек беременный, а другое - когда алгоритм говорит, что он беременный. История покажет, оказал ли полярный холод, случившийся несколько дней назад, какое-либо влияние на инфляцию, потому что, хотя облакам все равно, что говорят метеорологи, рынки восприимчивы к тому, что делают и говорят аналитики».