3 заметки с тегом

умножение на ноль

Вероятность — не вероятность

Главная проблема в индустрии визуализации данных: качество графики повышается, а понимание лежащих в основе процессов и их свойств — не особо.

Предыдущие заметки на эту тему:

Миф о криминальных иммигрантах
https://www.cashin.ru/blog/all/vis-fault-1/

Бессмысленные данные
https://www.cashin.ru/blog/all/times-zero/

* * *

Сегодня посмотрим на графику к чемпионату мира по футболу 2018 года.
https://projects.fivethirtyeight.com/2018-world-cup-predictions/matches/

Авторы ведут блог fivethirtyeight.com и периодически строят прогнозы разных событий.

Вот так выглядела оценка вероятностей в матчах по дням:

Вот такая графика появилась к финалу:

Такие вещи сходу нравятся. Как вписаны варианты исхода вничью. Как подобраны цвета. Разделительные линии между таймами. Перетекание команд в финале. В общем, техника визуализации. При забивании гола меняется график, это наводит на мысли о том, что прогноз учитывает ход игры.

Поначалу это внушает доверие. Чаще всего люди примерно с таким впечатлением и уходят, не вникая глубже. А если не уходят, появляются вопросы.

Что произошло вот здесь, в кружочке?

Испанцы забили гол. В самом начале матча. Прогноз стал показывать, что вероятность победы (WIN PROB.) команды Испании резко увеличилась примерно в два раза: с 25% до 48%.

Ладно. Матч только начался и продолжается. В середине тайма снова что-то происходит:

Теперь гол забивает Португалия. Вероятность победы Испании резко снижается более чем в два раза. Вероятность победы Португалии теперь в два раза выше.

Такое происходит еще 4 раза в течение матча — забили всего 6 мячей. Прогноз вероятности прыгает то в одну, то в другую сторону.

В конце происходит совершенно дикая вещь: незадолго до конца матча система показывала вероятность исхода «Португалия победит» как максимальную, на глаз более 80 %. Внезапно (!) испанцы забивают шестой гол. Прогноз вероятности победы Португалии рушится в ноль.

Внимание, вопрос. Почему «вероятность» так сильно прыгает при забивании голов? Вероятность ли это вообще? Авторы явно пишут — да, WIN PROB.

Как на самом деле ведёт себя вероятность? И чем вероятность отличается от текущего счета в игре?

* * *

Давайте так. Представим, начинается чемпионат, и на поле выходят две команды. На трибунах десятки тысяч зрителей, у экранов — миллионы.

Почему команды состязаются друг с другом? Потому что неизвестно, кто победит. Именно в этом интерес.

Иногда одна команда сильнее другой. И, типа, видно, кто победит наиболее вероятно. Но тогда зачем команды выходят на поле? Да потому что всё равно неизвестно! А что если кто-то выложится получше? Потому и состязаются. Шансы есть. Забивай на последней минуте, атакуй, даже проигрывая, никогда не сдавайся, и т. п. Неопределенность заложена в саму суть игры.

Рассмотрим процесс.
Для простоты исключаем ничью, как в финале.
Вот две команды, с какой-то оценкой относительного уровня.
Команда А оценивается как чуть более сильная, чем Б.
Вероятность победы А чуть выше:

Но когда начинается матч, мы не знаем наверняка результат «точно победит команда А». Результат этой игры зависит сейчас от действий конкретных людей на поле. Если хорошая команда будет плохо работать, она не победит. Быть сильной командой недостаточно.

Начинается матч, и менее сильная команда Б забивает гол. Как авторы нашего прогноза в такой ситуации корректируют прогноз? Они показывают резкое увеличение вероятности победы в матче забившей команды:

Вероятность резко повышается... Чувствуете, что здесь что-то не то?
Может ли команда забить гол? Ну, а зачем ей ещё выходить на поле, а-ха-ха! Конечно, может.

Окей. Может ли команда Б забить не один, а несколько голов? Вот так:

Опять же, почему нет? У них что, ноги отвалились после первого гола? Ноги есть, мяч по-прежнему круглый, всё зависит от действий людей. Напомню, что изначально мы рассматриваем ситуацию, когда командам действительно имеет смысл играть, их шансы изначально близки.

Рассмотрим теперь, что происходит с командой А. Проходит несколько минут, и они... тоже забивают гол.

Сколько голов ещё забьет команда А? Ну как сколько. Это неизвестно. Матч же только начался. Исходная картинка наглядно показывает вполне возможный разброс количества голов за игру: 1, 1, 6:

Потому, вполне может быть так:

Итого, возможности забивать есть у обеих команд:

А может забивать.
Б может забивать.
Как распределяются шансы?

Мы полагаем, что более сильная команда имеет больше шансов. Поэтому смещаем прогноз 50 на 50 (обе могут победить) в сторону сильных. 45 на 55, например.

Но смещаем не слишком далеко, потому что у менее сильной команды тоже есть шанс победить, мы не знаем исхода и поэтому наблюдаем за игрой.

И вот самая интересная деталь, ради которой вся история.
Прогноз вероятности исхода матча — это не то же самое, что счёт игры. Вероятность не прыгает по ходу игры так, как показывают авторы визуализации. Это разные процессы.

Природа счёта известна и проста. Это случайные дискретные события на оси времени:

Какая, в данном случае, природа вероятности победы в матче? Чем она обусловлена?

Начало матча: прогноз вероятности основан только на состоянии команд на момент начала. Игра команд не началась и не влияет на начальный прогноз:

Конец матча: один из пунктов достигает вероятности 100%.
Победа А, Победа Б, Ничья.
Например, победила команда Б:

Что происходило с вероятностью в процессе? Как она менялась? Вряд ли как-то так:

Вероятность менялась как-то нелинейно. Какова природа нелинейности?

В конце матча появляется больше определенности, потому что проигрывающей команде остается все меньше времени на проведение атаки. Возникают физические ограничения, которых не было в середине матча.

Вот тут в конце матча у Аргентины оставалось настолько мало времени, что люди просто не успели бы физически провести мяч в ворота три раза. В конце игры вероятность победы противника при таком счёте стремится к 100%.

В середине и в начале всё по-другому.

Прогноз должен меняться нелинейно. Но авторы предлагают вот такую странную нелинейность: прогноз скачет и в начале, и в середине, и в конце матча чуть ли не от нуля до ста процентов. На большинстве графиков. Их там 64 штуки, гляньте, повторяю ссылку:
https://projects.fivethirtyeight.com/2018-world-cup-predictions/matches/

За примером снова не нужно далеко ходить, всё та же картинка Португалии-Испании показывает, как резко меняется прогноз даже в конце матча:

Вероятность отражает неопределенность. Если даже в конце матча такая неопределенность, и прогноз настолько шумный, то какая же тогда неопределенность в середине матча?

Все эти прыжки «вероятности» говорят ровно следующее и о прогнозе, и о методике: мы не знаем, кто победит.

При такой высокой дисперсии данных ситуация «мы не знаем, кто победит» в числовом выражении сходится к 50 на 50. Или, точнее, с поправкой на оценку навыков команд. В нашем примере, 45 к 55.

Какой прогноз вероятности заслуживал бы больше доверия? Прогноз с корректировкой на неопределенность и высокий шум данных. Данные о забитых мячах — очень шумные случайные переменные.

Данные о пропущенных мячах важны, потому что влияют на моральное состояние команд, и на тактику. Победители часто встают в глухую оборону. Но это слова. Цифры матчей говорят о том, что оборону можно взломать, и именно в этом заключается работа другой команды. И поэтому сохраняется неопределенность, идет борьба, появляются новые победители.

К концу матча остается мало времени на взлом обороны. Когда ты физически не успеешь добежать до ворот три раза. Включается фактор времени. Но это ограничение появляется ближе к концу:

Накладываются другие факторы. Усталость, моральная нагрузка и т. д. Какие-то исзчезают позже других (время: добраться до ворот можно и на 87 минуте матча, поэтому красный график такой крутой в конце), какие-то раньше.

Но в целом история такая, как мы говорили в начале: у обеих команд есть шансы. Обе команды свежие и бодрые в начале матча. Поэтому более корректным будет прогноз с корректировкой по функции оставшихся возможностей. Любой забитый гол не должен приводить к сильным колебаниям вероятности в начале матча.

Если показатель высокодисперсный — вероятности на начальных этапах сходится к 50%. Проще говоря, данные содержат много шума, и вы не знаете, кто победит.

Такой прогноз показывает шум и текущий счёт, а не вероятность:

Более адекватный прогноз учитывает неопределенность и дисперсию входных данных. Первые голы меньше влияют на оценку вероятности. Определенность значительно увеличивается ближе к концу, когда отпадают варианты что-то исправить. Чем ближе к концу, тем сильнее прогноз отклоняется от середины:

Конечно, это проблема для авторов прогноза, которые рассчитывают на массовую популярность. Потому что более адекватный прогноз 1) выглядит не так драматично, 2) все прогнозы окажутся очень похожими друг на друга. А значит, люди не будут охать и пересылать ссылки. Проклятие медиа: нужно поддерживать волну!

Медиа закономерно чаще выбирают первый вариант, к сожалению.

* * *

Итоги

Показанная метрика больше похожа на входные данные, чем на функцию, которая должна строиться на основе этих данных.
x ≠ f(x)

Счет в игре — это x, а не f(x). Если вероятность так трясет в самом начале матча, это признак шума данных и высокой неопределенности. Высокая неопределенность в числовом выражении означает шансы 50 на 50. Графика не учитывает этого свойства вероятности.

Вероятность оказалась не вероятностью. Это какой-то другой показатель, но не вероятность.

* * *

У блога fivethirtyeight.com миллионы читателей. Популярность не означает правоту.

Умножение на ноль: хорошие навыки графического дизайна, аккуратная работа с цветом и типографикой, остроумный способ отображения пространства вариантов во времени матчей — всё это умножается на ноль понимания природы вероятности.

Хочется отдать должное тем, кто непосредственно руками создавал эти графики. Визуально графики так хороши, что их приятно скриншотить и комментировать. Но умножение на ноль даёт ноль.

2020   вероятности   визуализация   ошибки   умножение на ноль

Умножение на ноль

Сегодня встретил такое:

https://twitter.com/nytimes/status/1331277675869200389

Сложно придумать более бессмысленную тему для инфографики. А когда-то я следовал рекомендациям Тафти и смотрел Нью-Йорк Таймс. Наверное, ребятам сложно держать ритм. Проклятие медиа: каждый день нужно что-то говорить, а сказать нечего.

Умножение на ноль:
Хорошие графические навыки × громкое имя × ноль смысла = ноль.

f(x) = 0

Всё, что ты умножаешь на ноль, превращается в ноль.

(а эта заметка получает прикольный адрес: times-zero ;-)

2020   визуализация   данные   инфографика   умножение на ноль

Главная проблема в индустрии визуализации данных

Растущее качество графики в современной визуализации данных всё чаще скрывает сомнительные подходы работы с данными, неправильное понимание природы данных, а иногда и грубые математические ошибки.

Бывает, смотришь на историю и сразу веришь показанному, потому что история выглядит уверенно. Видно, что люди плотно поработали. Хочется доверять. Но…

С данными всегда есть проблемы: они многомерные, неоднородные, из разных источников. Они то полные, то неполные. Иногда кажется, что их много, а их мало. И наоборот. Их надо собирать, дополнять, искать в них порядок. Надо решать, как показывать историю. Надо решать, какую именно историю вообще стоит показывать и зачем.

Наименее вероятны проблемы с визуализацией в следующих ситуациях:

— Отображаемый процесс — установившийся. Например, доля бракованного товара в производстве.
— Процесс находится в прошлом, распределения известны. Результаты спортивных состязаний. Состоявшиеся продажи автомобилей по маркам и моделям.
— Распределение данных находится в классе гауссовых. Например, вес и рост людей.

Но всё усложняется, если система — открытая, нелинейная и многомерная (распределение богатства), если распределение процесса степенное, с толстым хвостом (эпидемии и войны), если в деле замешано прогнозирование (результаты будущих выборов).

Такие ситуации требуют критического мышления, логики, математики, понимания свойств. «Визуализировать» недостаточно. Увы, в реальном мире именно такие ситуации как раз наиболее интересны.

Часто в убедительной с виду истории можно найти провал в самом главном. В основном сообщении, в сути. Хочу разобрать пару примеров на эту тему.

В качестве первого примера — статья «Миф о криминальных иммигрантах»,

о связи между нелегальной иммиграцией и преступностью в США.

* * *

https://www.themarshallproject.org/2018/03/30/the-myth-of-the-criminal-immigrant

В статье автор делает вывод, вроде бы основанный на данных. Если копнуть глубже, выясняется, что статья говорит совсем о другом.

О чем говорит статья? Разберем по шагам.

Начинаем прямо с хэдера страницы:
Do immigrants lead to crime? A recent study says no. «Приводит ли иммиграция к преступности? Недавнее исследование говорит, что нет.»

Давайте посмотрим, о чем на самом деле говорит исследование.

Количество иммигрантов (в процентах 2016 г относительно 1980) увеличилось. Уровень преступности (тяжкие) за те же годы уменьшился.

Сходу бросается в глаза небольшое количество точек измерения. Меряли десятилетиями. Тут всего по 4 точки на график на огромный диапазон времени. Это мало для такого масштабного процесса. Просто технически, еще до того как пролистаем страницу ниже.

Непонятно, как собирались данные. Накапливались по 10 лет, или это точечные данные. Если накапливались, почему не показать промежуточные? Автор ссылается на исследование, доступное на платной основе:

https://tandfonline.com/doi/full/10.1080/15377938.2016.1261057?needAccess=true

Как я понимаю парный график: «смотрите, иммигрантов всё больше, а преступности становится меньше». Типа, корреляция.

Но тут проблема: обе переменные многофакторные и нелинейные, значит для выявления корреляции (если она вообще может быть) нужно гораздо больше данных, чтобы подтвердить гипотезу на исторических данных. Супер-мало данных!

Следующий сомнительный момент: статья критикует Трампа на тему «Стены» и нелегальной иммиграции (бандитов, буквально). Но статья разбирает просто иммиграцию, без выделения нелегальной. Не ясно, какая доля преступлений на правом графике совершена именно нелегальными иммигрантами.

Да и более того, справа вообще нет речи об иммигрантах, это общее количество тяжких преступлений.

Трамп в 2018 качал тему именно нелегальной иммиграции: https://twitter.com/realDonaldTrump/status/1086091478168993792

In 2018 alone, 20,000 illegal aliens with criminal records were apprehended trying to cross the Border, and there was a 122% increase in fentanyl being smuggled between ports of entry.

Из того, что снижается некий коэффициент преступности, не следует, что иммигранты совершают меньше преступлений. Технически автор статьи жонглирует множествами иммигрантов вообще, и нелегальных, совершивших тяжкие преступления.

Внизу стоит ссылка на данные ФБР. Но само ФБР предупреждает, что не стоит полагаться только на данные, и приводит список множества факторов, которые нужно учитывать. Только в этом списке 13 пунктов: https://ucr.fbi.gov/ucr-statistics-their-proper-use

В принципе, уже достаточно причин, чтобы забыть про статью:
множества не бьются, многофакторность не учитывается, корреляция ложная, никакой связи между исходными данными и выводами не показано. Но ниже тоже есть интересные моменты )

* * *

Изменение уровней преступности, 1986-2016 годы:

Мозг сразу рисует какую-то такую картинку. Но не торопитесь с выводами )

На графике куча проблем.
Слишком высокий уровень шума данных, чтобы нарисовать себе такой тренд.
Не видно абсолютных значений: в городах разная численность населения.
Графический ход вызывает вопросы: кружочки наслаиваются друг на друга, не видно что под ними.

Хорошо, что кружочки сделаны в векторе в СВГ. Ищем в инспекторе, гасим обводки и цвет, включаем альфу:

И тренд уже не такой явный, и по-прежнему не видно абсолютной численности.

Похожая штука про наслоение кружочков:
http://cashin.ru/blog/all/vizualizaciya-dannyh-na-yandeks-karte/

Ниже — графики по городам, но снова не показана связь между наборами данных. Что показывают, фактически: иммигрантов становится больше, а тяжких преступлений — меньше, и одно не связано с другим.

Данные разорваны больше, чем кажется. Не связаны атрибуты времени и места: преступления не обязательно совершаются сразу по прибытию и в том же месте, где зарегистрирован иммигрант. Ну и ни слова про нелегальных.

К многофакторности добавляется и то, что преступления не только совершаются, их еще и предотвращают. Это еще целая пачка процессов. В большинстве городов стали регистрировать меньше преступлений: лучше борются? Хуже регистрируют? Эти факторы не упоминаются.

Важно, какие города попали в выборку и по какому принципу эта выборка составлялась. В городах ситуация с преступностью может отличаться от пригородов. Городская полиция работает в высокой плотности, на более коротких расстояниях, с новыми техническими средствами, автоматизированным наблюдением и поиском. Такое быстрее внедряется в крупных городах. А на графике мы видим относительно мало мелких городов. Выборка вызывает вопросы.

Если все иммигранты реально оказались классными, графика этого не показывает.

One of the largest decreases in crime occured in MIAMI, where immigration increased:

График слева: «В Майами стало больше иммигрантов».
График справа: «В Майами совершается меньше тяжких преступлений».

Вообще-то, Майами одно из самых богатых мест в США. Полиция в самом богатом регионе поработала успешно? Причин может быть масса. И это ничего не говорит ни о доле участия иммигрантов в общем количестве преступлений, ни о доле нелегальных среди них.

В конце автор утверждает, что данное исследование показало, что иммиграция не приводит к увеличению преступности:

This is not the only study showing that immigration does not increase crime.

Но статья не показала связи между этими двумя явлениями.

2020   визуализация   иммиграция   США   умножение на ноль