Выборки и совокупность: что необходимо знать

В понедельник, 8 сентября, ранним утром мы узнаем «точные» результаты парламентских выборов в провинции Буэнос-Айрес. Но есть люди, которые не могут дождаться и хотят «сразу же» узнать имена победителей и проигравших. Не доверяя своим предчувствиям, они обращаются к социологам, которые основывают свои утверждения на опросах. Возможно, из-за незнания, а скорее всего из-за давления со стороны своих клиентов и журналистов, они публикуют точные оценки (да еще и с десятичными знаками!), тогда как должны были бы публиковать диапазоны, чтобы отразить неизбежную погрешность, присущую любой выборке. Как мы должны интерпретировать выводы социологов? «По этому поводу я проконсультировался с французом Огюстеном Луи Коши (1789-1857), которого друзья его отца Пьер Симон Лаплас и Жозеф Луи Лагранж убедили посвятить себя математике. Он учился в Политехнической школе Парижа и в Школе мостов и каналов. В 1830 году он был сослан в Турин и Прагу, где работал репетитором. Восемь лет спустя он вернулся в Париж и с тех пор преподавал в Сорбонне. Его полное собрание сочинений было опубликовано в 27 томах. Существуют условие, гипотеза, неравенство, закон, проблема, последовательность и теорема Коши. «С его фамилией связано распределение вероятностей». Да, верно. Распределение вероятностей — это функция, которая связывает каждое возможное значение определенной переменной с соответствующей вероятностью. Нормальная кривая, изобретенная Карлом Фридрихом Гаусом, также известная как колоколообразная кривая, настолько популярна, что многие люди ассоциируют этот продукт с брендом. Это идеал рекламщиков, когда потребители говорят «Geniol» вместо «анальгетик» или «Xerox» вместо «фотокопия». Существуют также биномиальное, равномерное, распределение Симеона Дени Пуассона или Лапласа, среди прочих. «Чем отличается ваше распределение?» «Оно похоже на нормальное распределение, но с более длинными и толстыми крайними точками. Оно используется в основном для иллюстрации патологических ситуаций, таких как те, что описаны Нассимом Николасом Талебом в книге «Черный лебедь». «Вернемся к нашему делу. Что вы можете сказать тем, кто грызет ногти, потому что не может дождаться результатов выборов?» – Давайте разграничим понятия «вселенная» и «выборка». Вселенная – это совокупность: например, все болельщики Велес Сарсфилд. Выборка – это часть вселенной: например, все члены упомянутого клуба. Я говорю во множественном числе, потому что может существовать много выборок одной и той же вселенной. В случае провинции Буэнос-Айрес, окончательные результаты будут известны только после подсчета всех голосов. –Что могут сделать нетерпеливые? –Провести опрос всех избирателей и молиться, чтобы респонденты говорили правду и не изменили своего намерения проголосовать между моментом ответа на опрос и моментом голосования. –Это явно очень дорого. –Именно поэтому были придуманы выборки, по поводу которых существует много теорий и также много опыта. В случае голосования опрос всего населения очень дорого стоит. В других случаях это совершенно контрпродуктивно. Представьте, что для того, чтобы убедиться в состоянии вашей крови, врач взял бы не небольшой образец, а всю кровь из вашего тела. Диагноз был бы лишен ошибки выборки, но вы бы умерли. «–Ошибка выборки, о чем вы говорите?»–Я имею в виду, что, даже если опрос проводится случайным и стратифицированным образом, нет абсолютной уверенности в том, что значение, полученное в выборке, совпадает с соответствующим значением во вселенной».–И что же?»–Что значения, полученные в выборках, не должны публиковаться в виде отдельных чисел, тем более с десятичными знаками, а в виде диапазонов. Пример: социолог не должен говорить, что намерение проголосовать за кандидата X составляет 32,8%, а должен сказать, что оно составляет, например, от 30% до 34% с погрешностью выборки Y%. «Как оценивается погрешность выборки?» — По размеру выборки, а также по распределению вероятностей, которое, как считается, существует в совокупности. Такой способ представления результатов может быть менее впечатляющим, но он более уместен. Кстати: когда после выборов СМИ поздравляют опросника, который угадал, он – про себя, хотя и не говорит этого публично – знает, что в этом была значительная доля случайности. – Ошибка выборки неизбежна. – Да, важно понимать конфликт, который существует между точностью, требуемой от оценки выборки, и соответствующей ошибкой выборки. Тот, кто требует точной оценки, причем с десятичными знаками (как упомянутые 32,8%), должен знать, что погрешность выборки будет очень высокой. Напротив, социолог, который скажет, что намерение голосовать за определенного кандидата составляет от 0% до 100%, наверняка не ошибется, но этот результат бесполезен. – В случае выборов проблема еще хуже, потому что хочется знать, какой кандидат победит другого. – Верно. Профессионально ответственный социолог должен сказать, что намерение голосовать за кандидата J находится в диапазоне от 40% до 44%, а за кандидата K — от 39% до 43%; все с погрешностью выборки X%. И, следовательно, согласно опросу, невозможно достоверно предсказать результат выборов. –Ситуация была бы иной, если бы в целом намерение голосовать было очень разным, например, если бы один кандидат набрал 85% голосов, а другой – остальные 15%. –Конечно, потому что в этом случае даже технически несовершенный опрос, скорее всего, позволил бы предсказать результат, который в конечном итоге был бы получен на выборах. Но это не похоже на ситуацию в провинции Буэнос-Айрес между кандидатами от Frente La Libertad Avanza и Fuerza Patria. – Мы обречены на самоубийство. – Ни в коем случае. Нужно просто понять, чтобы не покупать почтовые ящики. Вселенную нельзя подделать, она такая, какая есть (несмотря на то, что в случае выборов намерение голосовать может измениться). А когда в вселенной намерение голосовать очень похоже, очень трудно что-то узнать до 7 сентября. «Несмотря на это, до дня выборов некоторые радиостанции и телеканалы будут посвящать большую часть своего эфира прогнозированию результатов и предположениям о возможных последствиях». Ну, чем-то же нужно развлекаться, пока избирательные урны «не заговорили». Но давайте не будем требовать от теории опросов и от тех, кто профессионально ее использует, того, чего они не в состоянии дать. Потому что сложность заключается в вселенной, а не в выборках. –Спасибо большое, дон Августин.