CoderCastrov logo
CoderCastrov
Data Science - Анализ данных

Как я проверил выборы в Венгрии на предмет фальсификации, используя закон Бенфорда

Как я проверил выборы в Венгрии на предмет фальсификации, используя закон Бенфорда
просмотров
7 мин чтение
#Data Science - Анализ данных

Я проверил несколько наборов данных с помощью закона Бенфорда и узнал о его преимуществах и ограничениях.

Распределение первых цифр согласно закону Бенфорда. Все изображения, если не указано иное, принадлежат автору

Недавно я наткнулся на концепцию, называемую законом Бенфорда. Я слушал датский подкаст — и ведущий представил концепцию, что если сложить первую цифру каждого числа в наборе данных, то распределение каждой цифры должно следовать определенному закону. Он сказал, что это можно использовать для обнаружения налоговых мошенничеств и для выявления фальшивых профилей в социальных сетях.

Здесь красным цветом обозначено, что подразумевается под первой цифрой числа.

Что такое закон Бенфорда?

Этот закон в основном утверждает, что сумма первых цифр любого естественно возникающего набора данных должна следовать такому распределению: большинство чисел, 30%, начинаются с единицы, 17% начинаются с двойки и так далее, как показано на первом изображении.

"Это не звучит правдоподобно", подумал я сначала. Я учился о центральной предельной теореме в школе, и интуитивно это кажется неправильным.

Сразу после окончания подкаста я протестировал закон Бенфорда на годовых военных расходах всех стран мира с 1970 года (так как в то время я изучал эти данные по другим причинам). Взятые из политического контекста эти числа кажутся случайными и, следовательно, должны быть идеальным набором данных для тестирования. И оказалось, что это работает!

Распределение первых цифр по закону Бенфорда в сравнении с распределением первых цифр военных бюджетов мира

По крайней мере, распределения первых цифр выглядят довольно похожими на приведенной выше диаграмме. Чтобы дополнительно проверить это, я провел тест хи-квадрат на соответствие.

При уровне значимости α = 0,05 сравнение с распределением Бенфорда подтверждает нулевую гипотезу о отсутствии различий между предсказанным и наблюдаемым распределениями (χ 2 = 0,970, df = 8, p = 0,9984).

Это означает, что первая цифра военных бюджетов всех стран мира с 1970 года следует закону Бенфорда. Я все равно считал это странным, поэтому я углубился в логику, лежащую в его основе.

Оказывается, это простая математика, такой тип данных обычно соответствует логнормальному распределению, и вероятности первых цифр могут быть выражены следующим образом:

Формула вероятности первых цифр по закону Бенфорда

Я не собираюсь объяснять более глубокие математические причины, по которым это работает, но если вас интересует, вы можете прочитать об этом здесь, здесь и здесь.

Как это может обнаружить мошенничество?

Хорошо, ведущий подкаста сказал, что закон Бенфорда можно использовать для обнаружения мошенничества. Как это работает?

Одно из условий, чтобы набор данных соответствовал закону Бенфорда, заключается в том, что данные должны быть случайно сгенерированы, что они и являются, если 1) они не ограничены максимальным и минимальным значениями и 2) им не назначаются числа.

Я предполагаю, что длины рек в мире распределены случайным образом. То же самое, кажется, справедливо для военных бюджетов мира.

Данные выборов

Что насчет данных выборов? Мы ожидаем, что они будут случайными, если определенный кандидат получает 1000 или 999 голосов в определенном избирательном участке. Это означает, что данные выборов должны соответствовать закону Бенфорда, если не произошло никакой манипуляции.

Сначала я хотел проверить законный выбор, чтобы сравнить его с выборами в Венгрии. В Дании я предполагаю очень низкую вероятность фальсификации выборов, поэтому я протестировал числа с последних датских выборов в 2019 году. Данные были свободно доступны здесь.

Взяв все голоса за каждую партию со всех избирательных участков в стране, я получил список из 18714 голосов.

Распределение первых цифр по закону Бенфорда и распределение первых цифр данных датских избирательных участков в сравнении

При уровне значимости α = 0,05 сравнение с распределением Бенфорда подтверждает нулевую гипотезу о отсутствии различий между предсказанным и наблюдаемым распределениями (χ 2 = 0,046, df = 8, p = 0,9999).

Таким образом, данные выборов на избирательных участках определенно соответствуют закону Бенфорда.

Давайте на минуту подумаем о том, что это означает. Мы ожидаем, что случайное распределение чисел будет соответствовать закону Бенфорда, но, конечно же, эти числа могут быть манипулированы согласно закону Бенфорда, и мошенничество или несправедливость также могут происходить таким образом, что это не затрагивает первые цифры. Поэтому закон Бенфорда не может доказать отсутствие мошенничества**.**

Так что в датских выборах нет явного мошенничества — как и ожидалось — но что насчет венгерских выборов?

Данные венгерских выборов

Член ЕС Венгрия только что переизбрала своего премьер-министра Виктора Орбана 3 апреля 2022 года. Некоторые предполагали недовольство избирателей из-за войны в Украине и близких отношений Орбана с президентом России Путиным, но коалиция Орбана Fidesz/KDNP одержала ошеломляющую победу, получив 135 из 199 мест в парламенте.

Хотя Орбан, конечно, действительно пользуется поддержкой большой группы венгерской общественности, несколько организаций высказывали опасения по поводу состояния демократии в Венгрии: предвзятость СМИ и фальсификация выборов.

Эта огромная победа и все опасения о демократии в Венгрии делают выборы отличным объектом для изучения выборов.

Я не нашел общедоступного набора данных с избирательных участков для загрузки, но нашел данные о голосовании по округам на официальном сайте венгерского референдума. Чтобы получить данные, я написал небольшой скрипт парсера, который можно найти на моей странице GitHub вместе с блокнотом анализа, использованным для создания показанных в этой статье графиков. Почувствуйте себя свободными попробовать это сами! Скрипт дал мне набор данных по голосам округов из 663 точек данных.

Распределение первых цифр по закону Бенфорда и распределение первых цифр венгерских данных о голосовании по округам в сравнении

На этот раз мы видим существенные различия, и нулевая гипотеза отвергается (значение p равно 0,004 `< 0,05).

Таким образом, в этом случае данные не соответствуют распределению Бенфорда. Я был так взволнован, когда увидел этот результат. Это показывает, что победа Виктора Орбана была неискренней. Или что?

Критика закона Бенфорда в отношении изучения выборов

После того, как я обнаружил, что данные венгерских выборов не соответствуют закону Бенфорда, я провел еще некоторые исследования. В 2020 году тестирование выборов с помощью закона Бенфорда получило серьезную критику от нескольких экспертов, когда интернет-люди, подобные мне, использовали его для "доказательства" фальсификации президентских выборов в США. Тяжелая критика, вероятно, была также связана с тем, что в это время бывший президент Дональд Трамп пытался оспорить результаты выборов, поэтому все были настороже, чтобы все сделать правильно.

В этой статье команда проверки фактов Reuters связалась с несколькими экспертами по закону Бенфорда и изучению выборов. Они все согласны в том, что закон Бенфорда нельзя использовать в качестве доказательства, а только в качестве сигнала, который может побудить к дальнейшему исследованию. В конкретном случае президентских выборов в США в 2020 году малый размер избирательных участков нарушает правило о том, что данные охватывают несколько порядков величины. Они также сказали, что если вы хотите использовать закон Бенфорда, вам нужно провести анализ второй цифры, так как он менее чувствителен к размеру округа.

Узнав это, я проверил 2BL, то есть закон Бенфорда для вторых цифр, на венгерских выборах. 2BL работает так же, как и закон Бенфорда, но с немного другим распределением цифр. Оказалось, что анализ 2BL очень хорошо соответствует данным о голосовании в Венгрии.

Распределение вторых цифр по закону Бенфорда и распределение вторых цифр венгерских данных о голосовании по округам в сравнении`

Таким образом, если посмотреть на это, выборы в Венгрии вполне соответствуют закону Бенфорда, и это указывает на то, что нет причин поднимать красные флаги в этом случае.

Причина неработы первой цифры

Так почему тест на закон Бенфорда не сработал для первой цифры? Посмотрев на распределение голосов между тремя партиями, получившими места в парламенте, мы видим, что есть много голосов между 20 тыс. и 40 тыс., что объясняет перепредставленность цифр 2 и 3 в качестве первых цифр. В следующий раз это будет первый график, который я сделаю, чтобы узнать, возможен ли тест на закон Бенфорда.

Распределение номеров голосования для трех партий, получивших места в парламенте. Очевидно, что есть много чисел с первой цифрой 2 и 3 — что и дает смещенный тест на первую цифру по закону Бенфорда

Вывод:

Закон Бенфорда — это интересное и удивительное понятие, но при использовании его для обнаружения избирательного мошенничества нужно быть осторожным — наборы данных могут отклоняться от распределения Бенфорда по другим причинам, кроме манипуляции, и даже в этом случае он может использоваться только как метод поднятия красных флагов — а не для доказательства мошенничества.

Мне было интересно и я многое узнал по пути! Не стесняйтесь связаться со мной в LinkedIn и GitHub, чтобы поговорить больше о избирательном мошенничестве, науке о данных или о чем-то другом!