Законом бенфорда

Блог

Вероятность обнаружить величину G в таком состоянии, что её первая цифра равна n, равна длине n-ого отрезка:

Закон Бенфорда был открыт вовсе не Бенфордом, а американским астрономом Шимоном Ньюкомбом. Примерно в 1881 г. Ньюкомб заметил, что страницы тетради с логарифмическими таблицами, на которых числа начинались с 1, гораздо сильнее захватаны и истрепаны, чем страницы, на которых числа начинались с 2 и так далее до 9 – те выглядели чистыми, как будто их вообще не открывали. Ньюкомб предположил: те страницы, которые больше всего истрепались, чаще всего и открывали, и на основании своих наблюдений заключил: те ученые, которые до него брали тетрадь, работали с данными, отражавшими подобное распределение цифр. Закон же был назван по фамилии Франка Бенфорда, который в 1938 г. заметил то же самое, что и Ньюкомб, когда просматривал логарифмические таблицы в научно-исследовательской лаборатории «Дженерал Электрик» в г. Скенектади, штат Нью-Йорк. Он обнаружил, что частота появления цифры в качестве первой падает по мере того, как цифра увеличивается от одного до девяти. То есть &#171-1&#8243- появляется в качестве первой цифры примерно в 30,1% случаев, &#171-2&#8243- появляется около 17,6% случаев, &#171-3&#8243-?—?примерно в 12,5%, и так далее до &#171-9&#8243-, выступающей в качестве первой цифры всего лишь в 4,6% случаев.

Закону Бенфорда подчиняются числа из многих областей, к примеру, из области финансов. В действительности, закон как нельзя лучше подходит для обработки большого массива финансовых показателей на предмет мошенничества.

В одном таком случае был замешан молодой предприниматель Кевин Лоуренс – он умудрился собрать 91 млн. долларов на создание сети клубов здоровья, оборудованных по последнему слову техники. Набив карманы наличными, Лоуренс развил бурную деятельность, нанял тучу исполнительных директоров и спустил деньги инвесторов так же быстро, как и собрал. И все бы ничего, за исключением одного: Лоуренс со своей когортой большую часть денег тратили не на развитие дела, а на личные нужды. А так как приобретение нескольких домов, двадцати личных яхт, сорока семи автомобилей (в числе которых пять «хаммеров», четыре «феррари», три спортивных «доджа», два шикарных «форда» и «ламборгини дьябло»), двух часов «Ролекс», браслета с бриллиантами в 21 карат, самурайского меча за 200 тыс. долларов и машины для коммерческого производства сладкой ваты едва ли можно было списать как деловые расходы, Лоуренс с дружками попытались увести деньги путем перечисления их по сложной банковской схеме со счета на счет как средства то одной подставной компании, то другой – все с целью создания видимости активно расширяющегося бизнеса. На их несчастье, заподозривший неладное бухгалтер-криминалист Даррелл Доррелл составил список из более чем 70 тыс. номеров (счета и переводы) и, опираясь на закон Бенфорда, сравнил, как распределяются цифры. А распределялись они вразрез с законом. Это, конечно же, было только началом расследования, однако дальше история развивалась по известному сценарию, а развязка наступила за день до Дня благодарения 2003 г., когда Кевин Лоуренс, окруженный своими адвокатами и облаченный в светло-голубую тюремную робу, был приговорен к двадцати годам заключения без права досрочного освобождения. Налоговое управление США также изучило закон Бенфорда как способ обнаружения случаев налогового мошенничества. Один исследователь даже применил закон к данным налоговых поступлений от Билла Клинтона за тринадцать лет. Цифры распределились в соответствии с законом.

Для того чтобы установить явный вид функции F(n), удовлетворяющей закону Бенфорда, рассмотрим переменную величину G(t), растушую по показательному (экспоненциальному) закону. Время, за которое G(t) возрастает от 1 до 10, примем за единицу времени- тогда G(t) = 10 t . Разделим интервал [0, 1] на отрезки, внутри которых значения G(t) заключены между последовательными целыми числами. Их границами служат точки lg1 = 0, lg2, lg3…..lg9, lg10 = 1 (рис. 3).

Если же вы посмотрите на реальные цифры, то заметите, что &#171-9&#8243- встречается гораздо реже, чем в 11% случаев. Также куда меньше цифр, чем ожидалось, начинается с &#171-8&#8243-, зато колоссальные 30% чисел начинаются с цифры &#171-1&#8243-. Эта парадоксальная картина проявляется во всевозможных реальных случаях, от количества населения до цен на акции и длины рек.

Закон обычно не действует для распределений с заданными минимальными или максимальными значениями (список компаний с доходом от 50 000 до 100 000 долларов). Также не подходит нормальное распределение и распределения, охватывающие только один или два порядка величин (IQ взрослых). Закон Бенфорда не применим к множеству букв. Объём данных должен быть достаточен для применения статистических методов.

Когда G(t) нарастёт до 10, примем эту десятку за новую единицу измерения, а текущее время – за новое начало отсчета- при этом процесс нарастания G(t) в следующем разряде от новой единицы до новой десятки каждый раз будет описываться одной и той же формулой.

Каков шанс, что случайное число начнётся с цифры &#171-1&#8243-? Или с цифры &#171-3&#8243-? Или с &#171-7&#8243-? Если вы немного знакомы с теорией вероятности, то можете предположить, что вероятность?—?один к девяти, или около 11%.

Закон Бенфорда

Когда G(t) нарастёт до 10, примем эту десятку за новую единицу измерения, а текущее время – за новое начало отсчета; при этом процесс нарастания G(t) в следующем разряде от новой единицы до новой десятки каждый раз будет описываться одной и той же формулой.

Но ни Ньюкомб, ни Бенфорд не доказали справедливость закона. Это произошло только в 1995 г., и автор доказательства – Тед Хилл, математик из Технологического института Джорджии.

Для того чтобы установить явный вид функции F(n), удовлетворяющей закону Бенфорда, рассмотрим переменную величину G(t), растушую по показательному (экспоненциальному) закону. Время, за которое G(t) возрастает от 1 до 10, примем за единицу времени; тогда G(t) = 10t. Разделим интервал [0, 1] на отрезки, внутри которых значения G(t) заключены между последовательными целыми числами. Их границами служат точки lg1 = 0, lg2, lg3…..lg9, lg10 = 1 (рис. 3).

Форма Закона Бенфорда может быть объяснена, если предположить, что равномерно распределены логарифмы чисел; например, вероятность нахождения числа между 100 и 1000 (логарифм между 2 и 3) является такой же, как и между 10 000 и 100 000 (логарифм между 4 и 5). Для множества чисел, особенно имеющих экспоненциальный рост, таких как доходы или цены на бирже, это разумное предположение.

Чтобы понять это, представьте себе, что вы последовательно нумеруете лотерейные билеты. Когда вы пронумеровали билеты от одного до девяти, шанс любой цифры стать первой составляет 11,1%. Когда вы добавляете билет № 10, шанс случайного числа начаться с «1″ возрастает до 18,2%. Вы добавляете билеты с № 11 по № 19, и шанс того, что номер билета начнётся с «1″, продолжает расти, достигая максимума в 58%. Теперь вы добавляете билет № 20 и продолжаете нумеровать билеты. Шанс того, что число начнётся с «2″, растёт, а вероятность того, что оно начнётся с «1″, медленно падает.

Закон Бенфорда применим к множествам чисел, которые могут расти экспоненциально (другими словами, темп роста величины пропорционален её текущему значению). Например, счета за электричество, остатки товаров на складах, цены на акции, численность населения, смертность, длины рек, площади стран, высоты самых высоких сооружений в мире.

Закон Бенфорда был открыт вовсе не Бенфордом, а американским астрономом Шимоном Ньюкомбом. Примерно в 1881 г. Ньюкомб заметил, что страницы тетради с логарифмическими таблицами, на которых числа начинались с 1, гораздо сильнее захватаны и истрепаны, чем страницы, на которых числа начинались с 2 и так далее до 9 – те выглядели чистыми, как будто их вообще не открывали. Ньюкомб предположил: те страницы, которые больше всего истрепались, чаще всего и открывали, и на основании своих наблюдений заключил: те ученые, которые до него брали тетрадь, работали с данными, отражавшими подобное распределение цифр. Закон же был назван по фамилии Франка Бенфорда, который в 1938 г. заметил то же самое, что и Ньюкомб, когда просматривал логарифмические таблицы в научно-исследовательской лаборатории «Дженерал Электрик» в г. Скенектади, штат Нью-Йорк. Он обнаружил, что частота появления цифры в качестве первой падает по мере того, как цифра увеличивается от одного до девяти. То есть «1″ появляется в качестве первой цифры примерно в 30,1% случаев, «2″ появляется около 17,6% случаев, «3″?—?примерно в 12,5%, и так далее до «9″, выступающей в качестве первой цифры всего лишь в 4,6% случаев.

Тем не менее, закон распространяется на многие типы данных. В результате власти могут использовать закон для выявления фактов мошенничества: когда предоставленная информация не следует закону Бенфорда, власти могут сделать вывод, что кто-то сфабриковал данные.

Закон Бенфорда не распространяется на все случаи распределения чисел. Например, наборы чисел, диапазон которых ограничен (человеческий рост или вес), под закон не попадают. Он также не работает с множествами, которые имеют только один или два порядка.

Каков шанс, что случайное число начнётся с цифры «1″? Или с цифры «3″? Или с «7″? Если вы немного знакомы с теорией вероятности, то можете предположить, что вероятность?—?один к девяти, или около 11%.

В этом видео мы обсудим число 16, квадратные числа и увлечение Мэтта Паркера. Перевод и озвучка: Максим Лёвин.

Задачки, история о Карле Гауссе и сумма цифр всех чисел от 1 до 1 000 000 В главное роли — Джеймс Грайм .

В этом видео раскрываются тайны закона Бенфорда. Это видео — русская версия видео «Vi and Sal Talk About the Mysteries .

Чем отличается миллиард от биллиона? Оригинальное видео: http://www.youtube.com/watch?v=C-52AI_ojyQ Автор — Brady .

Единица и Закон Бенфорда Numberphile

О том, почему углы и часы делятся на 60. Оригинал: https://www.youtube.com/watch?v=R9m2jck1f90 NUMBERPHILE Website: .

Джеймс Грайм показывает трюк для проверки вычислений. Избавляйтесь от девяток! Продолжение: .

Что получится если сложить все числа? Смотрим последнее видео в этом году и до встречи в новом! Оригинал.

В этом видео приводится одно из возможных объяснений закона Бенфорда. Это видео — русская версия видео «Benford.

Website: http://www.numberphile.com/ Numberphile on Facebook: http://www.facebook.com/numberphile Numberphile tweets: .

Почти все натуральные числа содержат цифру 3 Смотрим и благодарим автора: .

Закон Бенфорда masterok Feb 02, 2018 11 00 Каков шанс, что случайное число начнётся с цифры 1 Или с цифры 3 Или с 7 .

О вероятности появления единицы, как первой значащей цифры. Продолжение без перевода: .

Чтобы понять это, представьте себе, что вы последовательно нумеруете лотерейные билеты. Когда вы пронумеровали билеты от одного до девяти, шанс любой цифры стать первой составляет 11,1%. Когда вы добавляете билет № 10, шанс случайного числа начаться с «1″ возрастает до 18,2%. Вы добавляете билеты с № 11 по № 19, и шанс того, что номер билета начнётся с «1″, продолжает расти, достигая максимума в 58%. Теперь вы добавляете билет № 20 и продолжаете нумеровать билеты. Шанс того, что число начнётся с «2″, растёт, а вероятность того, что оно начнётся с «1″, медленно падает.

Когда G(t) нарастёт до 10, примем эту десятку за новую единицу измерения, а текущее время – за новое начало отсчета; при этом процесс нарастания G(t) в следующем разряде от новой единицы до новой десятки каждый раз будет описываться одной и той же формулой.

Давайте узнаем подробнее, что это за теория …

Закон Бенфорда был открыт вовсе не Бенфордом, а американским астрономом Шимоном Ньюкомбом. Примерно в 1881 г. Ньюкомб заметил, что страницы тетради с логарифмическими таблицами, на которых числа начинались с 1, гораздо сильнее захватаны и истрепаны, чем страницы, на которых числа начинались с 2 и так далее до 9 – те выглядели чистыми, как будто их вообще не открывали. Ньюкомб предположил: те страницы, которые больше всего истрепались, чаще всего и открывали, и на основании своих наблюдений заключил: те ученые, которые до него брали тетрадь, работали с данными, отражавшими подобное распределение цифр. Закон же был назван по фамилии Франка Бенфорда, который в 1938 г. заметил то же самое, что и Ньюкомб, когда просматривал логарифмические таблицы в научно-исследовательской лаборатории «Дженерал Электрик» в г. Скенектади, штат Нью-Йорк. Он обнаружил, что частота появления цифры в качестве первой падает по мере того, как цифра увеличивается от одного до девяти. То есть «1″ появляется в качестве первой цифры примерно в 30,1% случаев, «2″ появляется около 17,6% случаев, «3″?—?примерно в 12,5%, и так далее до «9″, выступающей в качестве первой цифры всего лишь в 4,6% случаев.

Но ни Ньюкомб, ни Бенфорд не доказали справедливость закона. Это произошло только в 1995 г., и автор доказательства – Тед Хилл, математик из Технологического института Джорджии.

Если же вы посмотрите на реальные цифры, то заметите, что «9″ встречается гораздо реже, чем в 11% случаев. Также куда меньше цифр, чем ожидалось, начинается с «8″, зато колоссальные 30% чисел начинаются с цифры «1″. Эта парадоксальная картина проявляется во всевозможных реальных случаях, от количества населения до цен на акции и длины рек.

Для того чтобы установить явный вид функции F(n), удовлетворяющей закону Бенфорда, рассмотрим переменную величину G(t), растушую по показательному (экспоненциальному) закону. Время, за которое G(t) возрастает от 1 до 10, примем за единицу времени; тогда G(t) = 10 t . Разделим интервал [0, 1] на отрезки, внутри которых значения G(t) заключены между последовательными целыми числами. Их границами служат точки lg1 = 0, lg2, lg3…..lg9, lg10 = 1 (рис. 3).

Этот эффект впервые обнаружил американский астроном Саймон Ньюкомб в 1881 году, а более детально в нем разобрался и описал физик Фрэнк Бенфорд в 1938 году. В честь последнего и был назван этот закон первой цифры. Конечно, далеко не все последовательности подпадают под это правило. Закон обычно не действует для распределений с заданными минимальными или максимальными значениями. Также не подходят распределения, охватывающие небольшое количество порядков (например, только единицы и десятки). Выборка чисел должна быть достаточно большой и репрезентативной.

На первый взгляд кажется, что в ранее приведенных примерах все величины ведут себя случайным образом, и частота первых цифр 1, 2, 3 должна быть такой же, как и частота появления цифр 7, 8 и 9. Но это не так. Разгадка кроется в том, что многие процессы протекают не линейно, а экспоненциально.

В современном мире закону Бенфорда нашли применение аудиторские компании. Они анализируют большой массив сумм в финансовых документах и если первые цифры не подчиняются закону Бенфорда, а распределены более-менее равномерно, то это вызывает подозрение. В некоторых штатах США несоответствие данных закону Бенфорда даже является формальной уликой в суде.

Применение закона Бенфорда

С помощью моей программы Вы можете проверить финансовые данные организации, например:

Если Вы думаете, что никто кроме математиков-теоретиков не пользуется такой шкалой, то мне придется Вас удивить. Любой музыкант, когда играет по нотам, смотрит на логарифмическую шкалу частоты звуков. Шкала кислотности pH, интенсивности землетрясений Рихтера, экспозиций в фотографиях также имеет логарифмический масштаб. Интересно, что знаменитый самобытный физик-теоретик Лев Ландау использовал такую шкалу для классификации ученых. По его представлениям физик первого класса сделал в 10 раз больше физика второго класса, а тот, в свою очередь, сделал в 10 раз больше физика третьего класса и т. д. Пятый класс был отведён «патологам», то есть тем, чьи работы Ландау считал «патологическими».

В идеальном случае первые цифры в таких наборах чисел встречается с такой частотой, как показано на диаграмме.

Можно попытаться объяснить эффект небольшой первой цифрой и более простым способом: маленьких вещей в природе больше, чем больших. Например, коротких рек больше, чем длинных; тонких книг больше, чем толстых; дешевых товаров больше, чем дорогих и т.д. Количественное выражение маленьких вещей в километрах, страницах, деньгах будет меньшим, чем больших вещей.

  • суммы выставленных счетов;
  • суммы в бухгалтерских проводках;
  • суммы страховых выплат;
  • суммы в налоговых декларациях;
  • суммы гарантийных выплат и т.д.

Расстояние между красными точками остается всегда постоянным. Это значит, что ряд чисел идеально подпадает под процесс c экспоненциальным ростом. Однако обратите внимание, что на такой шкале расстояние между 1 и 2 больше расстояния между 2 и 3, а расстояние от 3 до 4 больше расстояния от 4 до 5. Такая же закономерность будет наблюдаться и в расстояниях между десятками, сотнями, тысячами и т.д. Таким образом, шансов на то, что число попадет в более широкий интервал больше, чем в более узкий. Соотношение длин этих интервалов и дает то распределение, которому подчиняются приведенные ранее примеры.

Несколько лет назад я узнал о чудесной по красоте математической закономерности. Мало кто обращает внимание на то, что у половины стран мира численность населения начинается с единицы или двойки. Тот же эффект наблюдается и с длинами крупнейших рек, площадями озер, высотами зданий и т.д. Когда в следующий раз Вы пойдете в магазин за продуктами, обратите внимание на первую цифру на ценниках. Примерно на половине из них первой цифрой будет либо единица, либо двойка. Можно это проверить и на номерах домов, в которых живут Ваши родные и близкие, количестве страниц в книгах домашней библиотеки и т.д.

Это значит, что величина тем быстрее растет, чем больше её текущее значение. Наглядным примером процесса с экспоненциальным ростом является увеличение численности населения Земли. По оценкам ученых, в 1500-м году людей было около 500 млн., в 1820-м – 1 млрд., в 1960-м – уже 3 млрд., а сегодня – больше 7 млрд. Экспоненциальный рост проявился и на развитии технологий. Сначала человечество изобрело телегу, и она прослужила без существенных изменений тысячи лет, далее — карету, и она проездила сотни лет. Конструкция паровоза менялась через десятки лет (паровоз, тепловоз, электровоз, монорельсовая железная дорога). С изобретением автомобиля обновление пошло уже через годы. Другими словами, скорость протекания таких процессов меняется с геометрической прогрессией.

Для изображения протекания экспоненциальных процессов математики пользуются шкалой с логарифмическим масштабом. Возьмем простую последовательность с экспоненциальным ростом, образованную целыми степенями двойки, и отобразим ее на логарифмической шкале.

Рис. 3. Номінальний ВВП України: частотний розподіл першої цифри

Закон Бенфорда зарекомендував себе як якісний інструмент для виявлення маніпуляцій з даними бухгалтерського обліку. Нещодавні дослідження вказують на те, що його також можна застосовувати й до макроекономічних даних. У цьому дослідженні ми показуємо, що компоненти номінального ВВП України мають одне з найменших відхилень від розподілу Бенфорда серед семи країн, які ми включили до нашого аналізу (Греція, Угорщина, Румунія, Словаччина, Росія, Україна та Молдова). Водночас статистика Греції найбільше відхиляється від теоретичних показників, що підтверджує факт маніпулювання даними, виявлений Європейською комісією.

У 2011 році Раух, Гьоттше, Брелєр та Енгель опублікували досить відому статтю «Факти та вигадки урядових економічних даних ЄС», у якій проаналізували макроекономічні дані держав Європейського Союзу (ЄС) за допомогою закону (феномену) першої цифри чи Закону Бенфорда. Вони виявили, що серед країн Євросоюзу, дані Греції найсильніше відхиляються від розподілу Бенфорда. Такий висновок вказує на аномалію в грецькій статистиці, що узгоджується зі скандалом про маніпулювання статистичними даними – якщо коротко, щоб відповідати вимогам ЄС Греція фальсифікувала свою статистику. Таким чином закон першої цифри виявився хорошою перевіркою доброчесності не лише облікових даних, але й макроекономічної статистики. У цій статті ми застосовуємо це відкриття і досліджуємо номінальний ВВП України стосовно підозрілих відхилень.

Таким чином, номінальний ВВП України успішно пройшов перевірку законом першої цифри, що вказує на те, що дані не зазнали зовнішнього впливу чи маніпуляції (принаймні, ґрунтуючись на описаному вище тесті).

Можливо, розумінню явища першої цифри сприятиме знайомство з історією його відкриття. Як Ньюком, так і Бенфорд помітили, що перші сторінки логарифмічних таблиць, що починаються з одиниці, потріпані сильніше ніж інші сторінки, що свідчить про те, що цифра 1 зустрічається «у природі» набагато частіше. Логарифмічна шкала (Рисунок 1) добре ілюструє чому так трапляється.

Рис. 2. Розподіл перших цифр згідно з Законом Бенфорда

Один із можливих методів перевірки макроекономічних даних на маніпуляції та шахрайство

VoxUkraine — унікальний контент, який варто читати. Підписуйтесь на нашу e-mail розсилку, читайте нас в Facebook і Twitter, дивіться актуальні відео на YouTube.

Benford, F. (1938), ‘The Law of Anomalous Numbers’, Proceedings of the American Philosophical Society 78, 551–572.

Newcomb, S. (1881), ‘Note on the Frequency of Use of the Different Digits in Natural Numbers’, American Journal of Mathematics 4, 39–40.

У даних Греції спостерігається найбільше відхилення від розподілу Бенфорда, тоді як Україна має один з найнижчих X 2 серед аналізованих країн.

ВВП України: Перевірка на маніпуляції

Частотний розподіл першої цифри номінального ВВП досить сильно відрізняється від розподілу Бенфорда. Однак причиною цього може бути невелика вибірка (52 одиниці спостереження). Використання компонентів ВВП вирішує проблему малої вибірки (Рисунок 4).

Как проверить честность выборов не выходя из дома.

такому графику довольно сложно тогда исследователи обвели точки синими линиями теперь легче увидеть как отличалась друг от друга голосование на соседних участках таким же способом построили отпечатки только для небольших избирательных участков это красные линии

на маленьких выше явка и большая доля голосов отдано за победителя николаса мадуро по мнению ученых это может быть признаком принудительного голосования грубо говоря людей заставляли идти на участке и голосовать за кого надо, а вот картинки с выборов в россии в 2011 и в

правда как полное, да проценты совпадения тоже должно вызывать подозрений для каждого избирательного участка ученые рассчитали насколько голосование на нем отличалась от соседних участков и поместили данный виде точек на ось

голосов получилось схема с довольно плотным центром из тех избирательных участков где не было больших отличий от соседей чем больше отличий тем дальше точки удаляются от центра, но понять что-то по

это называется закон бенфорда сравнивать можно не только первые цифры в числах, но и другие допустим вы поспорили с другом что он измерить высоту всех деревьев в лесу друг принес кучу замеров как, но вдруг он наврал

исследование в москве на думских выборах 2011 года и оказалось что на участках с наблюдателями результат единой россии куда ниже другой способ сравнить участке где бюллетени опускают в урны и считают вручную и те где их вставляют

выборами он сделал много громких заявлений например пообещал полностью искоренить бедность и стал очень популярным большой разницы между голосованием на больших и маленьких участках нет так бывает на честных выборах, а вот картинка с выборов после

законы можно использовать и в более важных состязаниях например на выборах и вот как выборы дают аналитиком огромное количество данных для анализа в россии 97000 избирательных участков и по каждому известно явка процент голосов

Как проверить честность выборов не выходя из дома

отданных за каждого кандидата еще много всего возьмем участке где были наблюдатели и те где наблюдатели не было по идее результаты не должны сильно отличаться правильно, но это только если голосование было честным группа российских учёных провела такое

координат на пересечении осей попали участки которые вообще не отличаются от соседей и левее и правее участке где явка была соответственно ниже или выше чем у соседей ниже или выше участке где победитель получил меньший или больший процент

специальный аппарат и считают автоматически если на участках с аппаратами результат кандидата от власти оказался сильно ниже это повод задуматься, а если начальство принуждает своих подчиненных голосовать за определенно

Этот закон может быть альтернативно объяснён тем фактом, что если действительно верно, что первая цифра имеет особое распределение, то оно должно не зависеть от величин, в которых оно измеряется. Это значит, что при переводе, к примеру, футов в ярды (умножение на константу), распределение должно остаться неизменным — это масштабная инвариантность, и единственное непрерывное распределение, которое выполняет это требование — то, в котором логарифм равномерно распределён.

Это в точности расстояние между d и d+1 на логарифмической шкале.

Это явление было повторно обнаружено физиком Фрэнком Бенфордом в 1938 году. Бенфорд проанализировал около 20 таблиц, среди которых были данные о площади бассейна 335 рек, удельной теплоёмкости и молекулярном весе тысяч химических соединений и, в том числе, номера домов первых 342 лиц, указанных в справочнике. Анализ чисел показал, что единица является первой значащей цифрой с вероятностью не 1/9 , как следовало ожидать, а около 1/3.

Этот пример делает вероятным, что таблицы данных, которые включают измерения экспоненциально растущих величин, будут согласовываться с законом Бенфорда. Однако этот закон выполняется также для многих случаев, когда экспоненциальный рост не очевиден.

Впоследствии закон Бенфорда получил своё объяснение — он применим ко множествам чисел, которые могут расти экспоненциально (другими словами, темп роста величины пропорционален её текущему значению, ). Например, в их число входят счета за электричество, остатки товаров на складах, цены на акции, численность населения, смертность, длины рек, площади стран, высоты самых высоких сооружений в мире.

Для равномерного распределения, если вы имеете цифры 1, 2, 3, 4 ,5 ,6 ,7, 8, 9, 0 (=10), то у вас есть 10 отрезков (от 0 до 1,…, от 8 до 9, от 9 до 10). Обратите внимание, все отрезки лежат в отрезке [0, 10]. Для отрезка [d, d+1] равномерное распределение должно быть пропорционально его длине, то есть длине отрезка [d, d+1], то есть (d+1)-d, поделённое на длину отрезка [0, 10], которая равна 10.

Закон Бенфорда, или закон первой цифры, описывает вероятность появления определённой первой значащей цифры в распределениях величин, взятых из реальной жизни. Закон верен для многих таких распределений, но не для всех.

Закон обычно не действует для распределений с заданными минимальными или максимальными значениями (список компаний с доходом от 50000 до 100000 долларов). Также не подходят распределения, охватывающие только один или два порядка величин (IQ взрослых). Закон Бенфорда не применим ко множеству букв (рис.). Объём данных должен быть достаточен для применения статистических методов.

Для чисел, взятых из определённого распределения, к примеру, значений IQ, ростов людей или других переменных, подчиняющихся нормальному распределению, закон не выполняется. Однако, если «перемешать» числа из этих распределений, к примеру, взяв числа из газетных статей, закон Бенфорда снова проявится. Это также может быть доказано математически: если неоднократно «случайно» выбирать распределение вероятностей и потом случайно выбрать число согласно этому распределению, получившийся список будет подчиняться закону Бенфорда [1] [2] .

Точная форма Закона Бенфорда может быть объяснена если предположить, что равномерно распределены логарифмы чисел; к примеру, вероятность нахождения числа между 100 и 1000 (логарифм между 2 и 3) является такой же, как и между 10 000 и 100 000 (логарифм между 4 и 5). Для многих множеств чисел, особенно имеющих экспоненциальный рост, таких как доходы или цены на бирже, это разумное предположение.

Закон Бенфорда может быть объяснён разными путями.

К примеру, первая (не нулевая) цифра длины или расстояния объекта должна иметь такое же распределение независимо от того проводится ли измерение в футах, ярдах или чём-то другом. Но в ярде есть три фута, поэтому вероятность, что первая цифра длины в ярдах будет 1, должна быть такой же, как вероятность, что первая цифра длины в футах 3, 4 или 5. Применяя это ко всем возможным шкалам измерений даёт логарифмическое распределение, и учитывая что log10(1) = 0 и log10(10) = 1 даёт закон Бенфорда. То есть если есть распределение первой цифры, которое не зависит от единиц измерения, единственным распределением первой цифры может быть то, которое подчиняется закону Бенфорда.