Что говорят опросы о выборах в Мексике? Шейнбаум имеет 86% шансов на победу
Мексика 2024-05-09 01:17:41 Телеграм-канал "Новости Мексики"
По средним данным опросов, подготовленных EL PAÍS, Клаудия Шейнбаум остается главным кандидатом на пост президента Мексики с 56 % голосов, опережая Ксочитля Гальвеса (36 %) и Хорхе Альвареса Майнса (7 %). За месяц до голосования кандидат от Морены является твердым фаворитом. Но каковы ее шансы? Чтобы ответить на этот вопрос, мы используем модель прогнозирования, подобную той, которую EL PAÍS применял на десятках выборов, включая мексиканские в 2018 году. Модель работает в три этапа, которые подробно описаны в методологии: (1) мы начинаем со среднего значения опросов; (2) мы добавляем неопределенность вокруг исторической ошибки опросов и времени, оставшегося до голосования; и (3) мы моделируем выборы 20 000 раз, чтобы назначить вероятности победы. После этого мы прогнозируем, что Клаудия Шейнбаум имеет 86 % шансов на победу, а ее соперник Ксочитль Гальвес - 14 %: важно правильно интерпретировать эти вероятности. Шейнбаум - явный фаворит. Но не исключено, что победит и Гальвес, ведь события с вероятностью 14 % иногда случаются. Удивляться этому так же легко (или трудно), как наблюдать за тем, как элитный стрелок вроде Криштиану Роналду промахивается с пенальти. По сути, мы моделируем вероятность того, что опросы ошибутся или сдвинутся настолько, чтобы произошел сюрприз. Шаг 1. Усредните данные опросов. Для повышения точности усреднения мы учитываем десятки опросов. Данные были собраны в основном с сайта Oraculus.mx. Среднее значение взвешивается, чтобы придать разный вес каждому опросу в зависимости от двух факторов: организатора опроса (фирмы без послужного списка имеют меньший вес; исключаются те, которые не публикуют свои данные в INE) и даты. Мы хотим придать больший вес недавним опросам при расчете среднего значения, и чтобы в последний день имели значение только последние, опубликованные каждым опросчиком. Для этого мы присваиваем веса опросам по экспоненциально убывающему закону. Мы также определяем полосу исключения, в которой игнорируются опросы старше 30 дней. Кроме того, мы наказываем повторные опросы от одного и того же опроса. При вычислении среднего значения по дате ближайший опрос каждого дома имеет вес один, но остальные их опросы практически игнорируются. Средние показатели, подобные нашим, можно рассматривать как консенсусную оценку. Вместо того чтобы полагаться на одного опросчика, они объединяют суждения и предположения многих. Средние показатели снижают уровень шума, не позволяя тенденциям скакать вверх-вниз по воле случая. И самое главное: доказано, что они повышают точность. Шаг 2. Учет неопределенности опроса. Это самый сложный и самый важный шаг. Нам нужно оценить ожидаемую точность опросов в Мексике. Насколько велики общие ошибки? Насколько вероятны ошибки в 3, 5 или 15 пунктов? Чтобы ответить на эти вопросы, были изучены десятки опросов в Мексике и тысячи в других странах. Калибровка ожидаемых ошибок. Сначала я оценил погрешность опросов в Мексике. Я создал базу данных с опросами по семи выборам с 2000 года. Средняя абсолютная ошибка (MAE) средних показателей опросов в Мексике по кандидатам или партиям, учитывая тех, кто набрал более 10 % голосов, составила около 3,8 пункта на президентских выборах и 2,2 пункта на выборах в законодательные органы. Иными словами, отклонения в четыре-пять пунктов были обычным явлением, а погрешность (95 %) составляла около девяти пунктов. Поскольку семь выборов - слишком мало, чтобы делать серьезные выводы, мы также проанализировали около двадцати голосований в других странах Латинской Америки, где ошибка MAE составила 4,1 пункта. В итоге, следуя принципу предосторожности, я решил, что наша модель предполагает MAE в 3,8 пункта в Мексике. Более того, эта неопределенность модулируется с учетом двух дополнительных факторов: размера партии-кандидата (потому что легче оценить голоса партии, если они составляют около 5 %, чем если они близки к 50 %) и близости выборов (потому что опросы в конце срока почти всегда более точны). Для подгонки этой части модели я использовал базу данных Дженнингса и Влезиена, опубликованную в журнале Nature, и проанализировал ошибки 4 100 опросов на 241 выборах в 19 западных странах. Выбор типа распределения. Чтобы учесть неопределенность в голосовании за каждого кандидата от партии в каждой симуляции, я использую многомерное распределение. Вместо нормального распределения я использую t-распределение Стьюдента, так как у него более длинные хвосты (эксцесс): это повышает вероятность возникновения экстремальных событий. Преимущества такого предположения объяснил Нейт Сильвер. Я оцениваю уровень эксцесса с помощью вышеуказанной базы данных. Затем я определяю ковариационную матрицу этих распределений так, чтобы сумма голосов не превышала 100 % (идея Криса Ханретти). Наконец, я масштабирую ширину ковариационных матриц так, чтобы полученные распределения голосов имели ожидаемые MAE и стандартное отклонение в соответствии с калибровкой. Шаг 3. Моделирование. Последний шаг состоит в запуске модели 20 000 раз. Каждая итерация представляет собой симуляцию выборов с процентами голосов, изменяющимися в соответствии с распределением, определенным на предыдущем шаге. Результаты этих симуляций позволяют рассчитать вероятности того, что каждый кандидат наберет наибольшее количество голосов и станет президентом. Почему именно опросы. Эта модель полностью основана на опросах. Бытует мнение, что опросы ненадежны, но на самом деле опросы работают. Опросы редко бывают идеальными, но альтернативы, которая оказалась бы лучше, не существует. Подпишитесь на рассылку EL PAÍS Mexico и избирательный канал WhatsApp и получайте всю самую важную информацию о текущих событиях в этой стране.