?

Log in

No account? Create an account
   Journal    Friends    Archive    Profile    Memories
 

Человек не умеет придумывать случайные числа - итоги - morfizm


Aug. 3rd, 2018 09:17 pm Человек не умеет придумывать случайные числа - итоги

В продолжение опроса: https://morfizm.livejournal.com/1215571.html
Конечно, хотелось бы более очевидного результата, но, видимо, 48 участников для этого недостаточны.
Тем не менее, результат есть, вот он:
polll1
Я написал симуляцию на питончеке, чтобы оценить вероятность, что в случае случайных 48 ответов распределение получится именно таким. Интересно было посмотреть на outlier'ы (числа, получившие меньше всего ответов, и числа, получившие больше всего), и оценить настолько возможно прийти к такому случайно.

Шанс, что найдётся хоть одно число, которое выберут не более 2 человек, равен 81%. Т.е. почти наверняка. А вот шанс, что таких чисел найдётся хотя бы три, уже намного меньше - 8.4%. В нашем случае таких чисел три.

Шанс, что найдётся хоть одно число, которое выберут не менее 8 человек, равен 75%. Опять же, не впечатлаяет. А вот шанс, что таких чисел найдётся хотя бы три, уже намного меньше - 2.4%. В нашем случае таких чисел тоже три.

Комбинированный шанс, что найдётся хотя бы три одних, и хотя бы три других, ещё меньше: около 1.1%.
Если ещё точнее оценить и добавить в условие , чтобы было хотя два числа, выбранные не менее 9 людьми, то получим улучшение: 0.45%
Были бы три девятки, было бы совсем клёво (0.1%), но у нас нет трёх девяток :)

Резюмируем... шанс, что такой расклад возможен исходя из чисто случайной выборки, составялет 0.45%. Другими словами, почти наверняка он неслучаен. Confidence interval считать лениво, но поверьте, что он там небольшой.

Есть разные интересные гипотезы, но, к сожалению, их нельзя проверить прямо сейчас, потому что результаты будут biased (вы видели ответы, читали этот пост, и т.п.). Может быть, сделаю опрос как-нибудь через год, когда это всё уже забудется! ;)

Гипотезы:

1. Почему так популярен 0? Целых 5 ответов из 48. Я ожидал, что "нормальные люди" не будут выбирать ноль. Но подозреваю, что это из-за того, что среди моих читателей много компьютерщиков и учёных (именно они и выбрали пять нулей). Гипотеза состоит в том, что если убрать ноль, то эффекты неслучайности будут ещё более ярко выражены, а ноль нам немного подпортил статистику.

2. Почему так популярна четвёрка? Рекордсмен, 9 ответов их 48. Одна гипотеза состоит в том, что потому что это середина интервала. Другая состоит в том, потому что люди любят четвёрку. Можно проверить, какая их низ верна, если предложить другой диапазон чисел (уменьшить или сдвинуть его).

Ещё из наблюдений:

*) избитое число 7 почему-то очень популярно, а вот не менее избитое число 3 такой популярностью не обладает. Есть ли в этом неслучайность? Подозреваю, что 3 непопулярно потому, что оно слишком избитое. Но может быть это потому, что семёрка в "хорошей" части интервала - выше середины, но не самое последнее число. Можно было бы проверить, сделав эксперимент с интервалом, заканчивающимся на 7.

*) "юбилейная" пятёрка почему-то является изгоем, причём похоже, неслучайным: всего 2 ответа, как и у шестёрки. Почему не выбирали пятёрку? Это был бы "слишком простой, слишком очевидный" ответ, а хотелось "посложнее, помудрёней", чтобы ответ казался более "случайным"? :) Но ведь тогда получается перекос в другую сторону: я могу делать денежные ставки на то, что пятёрку человек не назовёт, и в среднем, за очень много игр постепенно выигрывать! :)

В общем, интересная игра. Всем спасибо за участие! Если есть идеи по будущим играм, экспериментам и опросам подобного рода, пишите, может как-нибудь сделаем ещё. Как оказалось, у меня целых 50 человек активных читателей, а это уже статистическая сила, уже можно интересные вещи делать!

Upd.: думаю, что помимо симуляции, можно ещё поанализировать variance самой выборки, например, boostrap'ом. Но мне лениво разбираться в статистике, чтобы это сделать.

39 comments - Leave a commentPrevious Entry Share Next Entry

Comments:

From:rider3099
Date:August 4th, 2018 04:36 am (UTC)
(Link)
проведи еще опрос в ФБ, если там у тебя больше друзей, чем здесь, чисто для проформы
From:morfizm
Date:August 4th, 2018 04:38 am (UTC)
(Link)
Идея интересная, и, знаешь, вполне возможно там ответов будет больше, т.к. много френдов и они активнее репостят. Но моё отношение к фейсбуку - это типа записной книги, добавил человека, чтобы не потерять связь. Я туда не пишу, и особо не читаю (только изредка избранных, ну и фотки детей иногда смотрю), ну и группы почитываю. А вот ЖЖ это почти семья.

Edited at 2018-08-04 04:38 am (UTC)
From:morfizm
Date:August 4th, 2018 04:40 am (UTC)
(Link)
Кстати, меня удивило, что будет аж 50 ответов. Я думал, соберу 15-20.
Я понимаю, что круг читателей "за месяц" у меня большой. Но вот чтобы на отрезке в пару дней прочли и поучаствовали ~50 человек - весьма неожиданно! :)
From:spamsink
Date:August 4th, 2018 06:29 am (UTC)
(Link)
Теперь генерируешь 100 (а лучше 1000) случайных наборов из 48 чисел от 0 до 9 с помощью честного датчика случайных чисел (/dev/random) и тестируешь их своим скриптом.

Чему будет равно минимальное значение показателя "шанс, что такой расклад возможен исходя из чисто случайной выборки"?
From:morfizm
Date:August 4th, 2018 07:00 am (UTC)
(Link)
Взял 7500 случайных наборов из https://www.random.org/
(это исчерпало мою квоту за день, так что больше не смог)

Числа из поста поменялись таким вот образом (незначительно):
81% => 81%
8.4% => 8.6%
75% => 75%
2.4% => 2.6%
1.1% => 1.3%
0.45% => 0.65%
From:spamsink
Date:August 4th, 2018 06:30 am (UTC)
(Link)
Одна из гипотез популярности четверки - это https://xkcd.com/221/
From:morfizm
Date:August 4th, 2018 07:00 am (UTC)
(Link)
Да, возможно!
From:khulinich
Date:August 4th, 2018 07:48 am (UTC)
(Link)
Мне кажется, комментарии под постом во время эксперимента нарушают чистоту этого эксперимента. Я поэтому не стала голосовать.
From:morfizm
Date:August 4th, 2018 08:01 am (UTC)
(Link)
Если ты сначала прочла комменты, то ты правильно сделала, что воздержалась, спасибо. Было задумано, что человек сначала загадывает число, потом кликает открыть кат, чтобы проголосовать, а потом уже смотрит результаты голосования и комментарии.
From:saint_dragon
Date:August 4th, 2018 09:13 am (UTC)
(Link)
Опоздала, придумать рандомное число 0-9 мне кажется непосильным - ну есть же свои любимые числа у многих, мне нравится число 7, например ;-) Может надо было спрашивать 0-100 или 0-1000 и потом делить и округлять?
From:morfizm
Date:August 4th, 2018 09:19 am (UTC)
(Link)
Думаю, если не округлять, а вычислять хэш, будет лучше. В трёх знаках сгенерированных человеком вполне может быть достаточно энтропии, чтобы сгенерировать один знак с неплохим распределением. Впрочем, не уверен, что это решит проблему последовательностей
From:nechto_neg
Date:August 4th, 2018 10:17 am (UTC)
(Link)
я как "компьютерщик" выбрала единицу потому что она менее вероятна в выборе. так что мы вам статистику конечно испортили. с теми кто за 0 и за 1
обычно люди склонны выбирать большие цифры, 7,9, из первой половины 4 - да мне нравится ваша подводка.
From:anggva_ubervald
Date:August 7th, 2018 02:23 am (UTC)
(Link)
Почему четверка оказалась так популярна, я не знаю, но я ее выбрала, потому что у меня день рождения 4 апреля (404)
From:rezkiy
Date:August 7th, 2018 03:41 am (UTC)
(Link)
>> почти наверняка он неслучаен.

Конечно он не случаен. Это же не случайная величина, а какой-то функционал, посчитанный на основании кортежа чисел. Ты скорее всего хотел сказать, результат мало похож на выборку из дискретного равномерного распределения между 0 и 9.

Давай ты загуглишь критерий колмогорова-смирнова, применишьего к выборке, и если совсем ничего не поймёшь, я попробую объяснить что-то.
From:rezkiy
Date:August 7th, 2018 03:54 am (UTC)
(Link)