50 заметок с тегом

визуализация

В жизни измерений больше, чем кажется

Я уже начитался мнений про эту визуализацию в духе «классная графика, показывающая, что маски почти не помогают». Графика говорит о диаметрально противоположном. Выходит, графика таки не настолько хороша, раз люди понимают главные идеи наоборот.

https://english.elpais.com/society/2020-10-28/a-room-a-bar-and-a-class-how-the-coronavirus-is-spread-through-the-air.html?fbclid=IwAR1dVlRklL3DYNXGlBGe3qj5ylHikR2og3OmRpWcZ2r4o97qR7xsluCuqbY

Важные моменты:
— Защита — штука многоуровневая и многомерная, работает лучше в комплексе.
— Маски необходимы, но не всегда достаточны. И это не означает, что они не помогают.

Важно понимать, что происходит какой-то сложный процесс с множеством скрытых параметров. При создании визуализации часто ставят многомерность как один из критериев качества: чем больше измерений показано, тем лучше. Опять же, не настолько буквально, но как один из критериев в составе других.

Но самое интересное — что в жизни измерений всегда больше, чем в визуализации. Визуализация — примитивная модель реальности. Жизнь всегда сложнее любой графики. Например, совершенно пальцем в небо: графика никак не затрагивает действия защиты на масштабе и на раундах заражения. Мультиплицирование свойств. Вследствие которого даже малейшая польза масок (или любого другого воздействия вроде проветривания) приводит к снижению передачи вируса по цепи к следующим людям — возникает каскадный эффект умножения свойств на большом масштабе с ходом времени.

30 октября   визуализация   исследование   многомерность

Главная проблема в индустрии визуализации данных

Растущее качество графики в современной визуализации данных всё чаще скрывает сомнительные подходы работы с данными, неправильное понимание природы данных, а иногда и грубые математические ошибки.

Бывает, смотришь на историю и сразу веришь показанному, потому что история выглядит уверенно. Видно, что люди плотно поработали. Хочется доверять. Но…

С данными всегда есть проблемы: они многомерные, неоднородные, из разных источников. Они то полные, то неполные. Иногда кажется, что их много, а их мало. И наоборот. Их надо собирать, дополнять, искать в них порядок. Надо решать, как показывать историю. Надо решать, какую именно историю вообще стоит показывать и зачем.

Наименее вероятны проблемы с визуализацией в следующих ситуациях:

— Отображаемый процесс — установившийся. Например, доля бракованного товара в производстве.
— Процесс находится в прошлом, распределения известны. Результаты спортивных состязаний. Состоявшиеся продажи автомобилей по маркам и моделям.
— Распределение данных находится в классе гауссовых. Например, вес и рост людей.

Но всё усложняется, если система — открытая, нелинейная и многомерная (распределение богатства), если распределение процесса степенное, с толстым хвостом (эпидемии и войны), если в деле замешано прогнозирование (результаты будущих выборов).

Такие ситуации требуют критического мышления, логики, математики, понимания свойств. «Визуализировать» недостаточно. Увы, в реальном мире именно такие ситуации как раз наиболее интересны.

Часто в убедительной с виду истории можно найти провал в самом главном. В основном сообщении, в сути. Хочу разобрать пару примеров на эту тему.

В качестве первого примера — статья «Миф о криминальных иммигрантах»,

о связи между нелегальной иммиграцией и преступностью в США.

* * *

https://www.themarshallproject.org/2018/03/30/the-myth-of-the-criminal-immigrant

В статье автор делает вывод, вроде бы основанный на данных. Если копнуть глубже, выясняется, что статья говорит совсем о другом.

О чем говорит статья? Разберем по шагам.

Начинаем прямо с хэдера страницы:
Do immigrants lead to crime? A recent study says no. «Приводит ли иммиграция к преступности? Недавнее исследование говорит, что нет.»

Давайте посмотрим, о чем на самом деле говорит исследование.

Количество иммигрантов (в процентах 2016 г относительно 1980) увеличилось. Уровень преступности (тяжкие) за те же годы уменьшился.

Сходу бросается в глаза небольшое количество точек измерения. Меряли десятилетиями. Тут всего по 4 точки на график на огромный диапазон времени. Это мало для такого масштабного процесса. Просто технически, еще до того как пролистаем страницу ниже.

Непонятно, как собирались данные. Накапливались по 10 лет, или это точечные данные. Если накапливались, почему не показать промежуточные? Автор ссылается на исследование, доступное на платной основе:

https://tandfonline.com/doi/full/10.1080/15377938.2016.1261057?needAccess=true

Как я понимаю парный график: «смотрите, иммигрантов всё больше, а преступности становится меньше». Типа, корреляция.

Но тут проблема: обе переменные многофакторные и нелинейные, значит для выявления корреляции (если она вообще может быть) нужно гораздо больше данных, чтобы подтвердить гипотезу на исторических данных. Супер-мало данных!

Следующий сомнительный момент: статья критикует Трампа на тему «Стены» и нелегальной иммиграции (бандитов, буквально). Но статья разбирает просто иммиграцию, без выделения нелегальной. Не ясно, какая доля преступлений на правом графике совершена именно нелегальными иммигрантами.

Да и более того, справа вообще нет речи об иммигрантах, это общее количество тяжких преступлений.

Трамп в 2018 качал тему именно нелегальной иммиграции: https://twitter.com/realDonaldTrump/status/1086091478168993792

In 2018 alone, 20,000 illegal aliens with criminal records were apprehended trying to cross the Border, and there was a 122% increase in fentanyl being smuggled between ports of entry.

Из того, что снижается некий коэффициент преступности, не следует, что иммигранты совершают меньше преступлений. Технически автор статьи жонглирует множествами иммигрантов вообще, и нелегальных, совершивших тяжкие преступления.

Внизу стоит ссылка на данные ФБР. Но само ФБР предупреждает, что не стоит полагаться только на данные, и приводит список множества факторов, которые нужно учитывать. Только в этом списке 13 пунктов: https://ucr.fbi.gov/ucr-statistics-their-proper-use

В принципе, уже достаточно причин, чтобы забыть про статью:
множества не бьются, многофакторность не учитывается, корреляция ложная, никакой связи между исходными данными и выводами не показано. Но ниже тоже есть интересные моменты )

* * *

Изменение уровней преступности, 1986-2016 годы:

Мозг сразу рисует какую-то такую картинку. Но не торопитесь с выводами )

На графике куча проблем.
Слишком высокий уровень шума данных, чтобы нарисовать себе такой тренд.
Не видно абсолютных значений: в городах разная численность населения.
Графический ход вызывает вопросы: кружочки наслаиваются друг на друга, не видно что под ними.

Хорошо, что кружочки сделаны в векторе в СВГ. Ищем в инспекторе, гасим обводки и цвет, включаем альфу:

И тренд уже не такой явный, и по-прежнему не видно абсолютной численности.

Похожая штука про наслоение кружочков:
http://cashin.ru/blog/all/vizualizaciya-dannyh-na-yandeks-karte/

Ниже — графики по городам, но снова не показана связь между наборами данных. Что показывают, фактически: иммигрантов становится больше, а тяжких преступлений — меньше, и одно не связано с другим.

Данные разорваны больше, чем кажется. Не связаны атрибуты времени и места: преступления не обязательно совершаются сразу по прибытию и в том же месте, где зарегистрирован иммигрант. Ну и ни слова про нелегальных.

К многофакторности добавляется и то, что преступления не только совершаются, их еще и предотвращают. Это еще целая пачка процессов. В большинстве городов стали регистрировать меньше преступлений: лучше борются? Хуже регистрируют? Эти факторы не упоминаются.

Важно, какие города попали в выборку и по какому принципу эта выборка составлялась. В городах ситуация с преступностью может отличаться от пригородов. Городская полиция работает в высокой плотности, на более коротких расстояниях, с новыми техническими средствами, автоматизированным наблюдением и поиском. Такое быстрее внедряется в крупных городах. А на графике мы видим относительно мало мелких городов. Выборка вызывает вопросы.

Если все иммигранты реально оказались классными, графика этого не показывает.

One of the largest decreases in crime occured in MIAMI, where immigration increased:

График слева: «В Майами стало больше иммигрантов».
График справа: «В Майами совершается меньше тяжких преступлений».

Вообще-то, Майами одно из самых богатых мест в США. Полиция в самом богатом регионе поработала успешно? Причин может быть масса. И это ничего не говорит ни о доле участия иммигрантов в общем количестве преступлений, ни о доле нелегальных среди них.

В конце автор утверждает, что данное исследование показало, что иммиграция не приводит к увеличению преступности:

This is not the only study showing that immigration does not increase crime.

Но статья не показала связи между этими двумя явлениями.

2020   визуализация   иммиграция   США

Избыточная смертность

Небольшая выписка из статьи об «избыточной смертности» во время пандемии коронавируса,
https://ourworldindata.org/excess-mortality-covid
(Excess mortality from the Coronavirus pandemic COVID-19)

Избыточная смертность (далее пишу без кавычек) = фактически фиксируемое количество смертей — (минус) ожидаемое количество в нормальных условиях в прежние годы.

Например, чтобы узнать количество избыточных смертей в мае, берем сумму всех смертей, зарегистрированных в мае и вычитаем среднее количество смертей в мае за предыдущие 5 лет.

Простыми словами: насколько чаще или реже стали умирать, по сравнению с предыдущими годами. Независимо от причин.

Почему в период пандемии имеет смысл смотреть на показатели избыточной смертности?

— Некоторые страны считают причиной вирус только у тех, кто скончался в больнице.
— Бывает, считают причиной вирус только в том случае, если получен результат теста на вирус. Если результата нет, то не протестированные пациенты не считаются.
— Могут быть проблемы с точностью подсчета смертей, в особенности, в бедных странах.
— Пандемия может приводить к увеличению смертности в сочетании с другими причинами, вследствие ослабления систем здравоохранения, недостатка внимания пациентам с другими болезнями, нехваткой финансовых ресурсов и др.
— Пандемия также может приводить к снижению смертности по определенным статьям.

Расчет избыточной смертности независимо от причины летальных случаев помогает посмотреть под новым углом на эффекты, оказываемые пандемией.

Данные по избыточной смертности доступны лишь для небольшого ряда стран. Эти данные доступны не везде, для сбора требуется точность подсчета и сбора данных в предыдущие годы.

Далее приводятся ссылки на несколько публикаций по избыточной смертности по разным источникам.

Файненшиал Таймс (Financial Times)

https://www.ft.com/content/a26fbf7e-48f8-11ea-aeb3-955839e06441
Статическая визуализация.
Более 10 стран, Европа, США, Израиль, Южная Африка. 10 городов.

* * *

Экономист (The Economist)

https://www.economist.com/graphic-detail/2020/04/16/tracking-covid-19-excess-deaths-across-countries
Интерактивная визуализация.
Европейские страны, несколько городов.
Европейские данные разбиты по возрастам.

* * *

Евромомо (Euromomo)

https://euromomo.eu/graphs-and-maps
Интерактивная визуализация.
Европейские страны.
с разбивкой по возрастам.

* * *

Нью-Йорк Таймс (New York Times)

https://www.nytimes.com/interactive/2020/04/21/world/coronavirus-missing-deaths.html
New York Times’ work
Статическая визуализация.
Более 10 стран, Европа, США, Эквадор, некоторые города.

«Очень плавный, медленный темп прироста»

На картинке количество стран, в которых ежедневный процент прироста инфицированных КОВИД-19 выше, чем в России, за неделю 10-16 апреля 2020, среди всех стран с 20000+ инфицированных.

Если вдруг не загрузилась картинка: 0 (ноль).

Визуализация иллюстрирует заявление главы Роспотребнадзора Анны Поповой: «Я бы хотела сказать, что РФ сохраняет очень плавный, медленный темп прироста, не уходя за 20% ежедневного прироста, и сохраняя его от 14% до 17% в день».

https://www.interfax.ru/russia/704740

Здесь на скриншоте страны, отсортированные только по общему количеству. Столбцы — дни слева направо. Последняя неделя — последние 7 столбцов.
https://www.cashin.ru/virus/confirmedgrowth/

Страны, отсортированные по индексу общего количества * процента роста:

Я, кажется, даже недооценил собственную находку: если проследить сглаженные по двум соседним дням траектории процентного роста, то у России не было конкурентов еще с 31 марта. Более двух недель, каждый день, если подвигать дату. Кажется, есть о чем подумать, даже если полагать, что существуют «стадии», которые другие страны уже «прошли»:
https://www.cashin.ru/virus/timingrate/
Графики показывают не поведение инфекции и не стадии инфекции.
Графики показывают поведение людей.

В статье еще такое:

https://www.interfax.ru/russia/704740
«Попова напомнила, что в эпидемиологии принято считать не абсолютным количеством случаев инфицированных, а относительными показателями в расчете на 100 тыс. населения.

Согласно приведенным ею данным, в РФ показатель на 100 тыс. населения составляет около 17. Это в пять раз ниже, чем в Канаде, в 10 раз ниже, чем в Германии. По словам Поповой, такое сравнение является более корректным.»

Почему я не показываю данные по пандемии из расчета на душу населения:
http://www.cashin.ru/blog/all/no-per-capita/

2020   визуализация   Коронавирус   Роспотребнадзор

Изолинии массы × ускорения

Я начал делать свой набор визуализаций о вирусе вот с этой таблицы, сочетающей количество заболевших и процент прироста по дням. Это было 19 марта. Сейчас она работает по адресу:
https://cashin.ru/virus/confirmedgrowth/

В на этой странице самое интересное — третий метод сортировки. Там всего 5 вариантов сортировки, третий называется Confirmed and growth %.

Что это? Технически это процент увеличения за день относительно вчерашнего, умноженный на общее количество на текущий день.

Я как-то об этом писал, но, наверное, не сделал достаточного акцента и не разъяснил. У этого метода сортировки есть физический смысл. Это сила: масса, умноженная на ускорение. Аналоги этих величин — общее количество заболевших и процент роста.

Почему количество играет роль массы: чем больше количество заболевших, тем большей нагрузкой приходится управлять, это инертность. Масса — мера инертности. Чем выше инертность, тем тяжелее менять ход процесса.

Процент как ускорение: почему не просто скорость? Скорость — это абсолютная величина прироста. Если к 1000 человек добавляется каждый день по 100, то 100 — это скорость. Но если прирост не 10 человек, а 10%, то следующие приросты будут увеличиваться. Если процент роста остается неизменным — это ускорение роста. Каждый день прирост больше предыдущего. Постоянный процент роста говорит об ускорении процесса.

Чтобы определить порядок стран при этом режиме сортировки (он сразу выбран по умолчанию), я перемножаю общее количество и проценты. Когда я придумал этот индекс, я называл его «индексом хреновости». Где ситуация хреновее всего.

Индекс хреновости = индекс силы, действующей на страну. Эта сила двигает страну в нехорошую сторону. В списке более 180 стран. Посмотрим на топ силы прямо сейчас. 8 место — Россия. Выше только Германия, Италия (!), Франция, Великобритания, Турция и США.

Геометрическое представление «индекса силы» — диаграмма процента роста к общему количеству, вот она:
https://cashin.ru/virus/timingrate/
Вертикаль — ежедневный процент, горизонталь — общая сумма.

* * *

Как сопоставить эти две визуализации? Они же показывают одинаковые данные (не считая того, что круги и линии на второй показывают больше данных). В таблице мы видим, что Россия на 8 месте по произведению двух показателей, ускорение × масса. А как сравнить произведения на плоскости в логарифмических шкалах?

Вот топ 8 стран в таблице и те же страны в тех же показателях на плоскости:

Да, мы залетели в эту группу страшных кругов. Наш круг пока небольшой и ещё есть шанс оттуда «упасть». Иран уже, как видите, не попадает — он на 9 месте. На плоскости можно провести линии, которые показывают, насколько далеко зашла страна. Процент роста может быть высоким, но при этом снижаться — скорость еще есть, но ускорение снижается, и точка пойдет вниз.

Если провести изолинии силы по точкам постоянного произведения, получается вот такая история. Несколько линий для примера. Страны, где это сочетание показателей снижается, ныряют вниз и не доходят до следующих изолиний. Здесь видно, что Россия залетела чуть дальше Ирана. И если с набранной массой уже ничего не поделаешь, то ускорение и скорость надо гасить.

Не показываю данные по пандемии из расчета на душу населения

http://www.cashin.ru/virus/timingrate/
Не показываю данные по пандемии из расчета на душу населения, потому что эта метрика может ввести в заблуждение. Имеет значение, сколько людей находится в непосредственном контакте со вспышкой эпидемии. Отображение числа случаев на единицу населения создаст ложное ощущение безопасности для больших стран, ситуация будет казаться лучше, чем на самом деле. Никто в здравом уме не скажет, что ситуация в Нью-Йорке сейчас лучше, чем в каком-нибудь итальянском городке, где вирус выкосил половину жителей.

Основной риск заключен в высокой скорости распространения инфекции. Для отображения скорости распространения знать общую численность населения не нужно.

Еще одна важная деталь: распространяющийся, растущий процесс с содержанием риска некорректно рассматривать так же, как установившийся процесс. Некорректно, например, сравнивать процесс распространения нового вируса с установившимися значениями риска от гриппа или автомобильных аварий.

Частотные распределения уже установившихся процессов известны и стабильны. Распределение нового процесса неизвестно. Но известно, что до принятия странами жестких мер по удержанию вируса распределение укладывалось в класс Парето, статистически демонстрируя «толстый хвост» и экспоненциальный рост с нелинейными эффектами: взрывной характер распространения, перегрузку систем (здравоохранения, в частности), неизвестное влияние на здоровье у выживших. Поэтому не важно, какая численность населения страны, когда мы смотрим на развивающийся, не устоявшийся процесс и хотим понять создаваемый им риск.

Имело бы смысл какое-то отображение числа случаев относительно медицинских ресурсов: как количество случаев соотносится со способностью страны переварить это количество. Но в реальности это было бы сочетанием разных групп данных, каждая из которых очень шумная и крайне ненадежная. Это уже «пережаренные» данные.

По той же причине не показываю ничего, связанного с плотностями населения по городам или как-то еще. Эти данные также были бы «пережаренными». Плотности можно считать и мерять по-разному, и потом будет непонятно, как сравнивать места, где разные формы распределения плотностей. Всё это — ненужное закапывание в болото данных.

Не нужно тонуть в числовой аналитике, когда ситуация очевидна и решения просты:
— вирус крайне заразный,
— заражение приводит к непредсказуемым эффектам второго порядка,
— нужно включить полную паранойю: избегать социальных контактов, носить маску, мыть руки и никого не слушать про то что «ничего страшного». Асимметрия риска: риск от паранойи несоразмерен риску отсутствия паранойи.

2020   per capita   визуализация   данные   Коронавирус   риск

Разрешаю использовать свою сборку данных по России

1) Разрешаю использовать свою сборку данных о вирусе по России для визуализации и анализа.
2) Нужна помощь по автоматизации сбора данных.

По пункту 1.
Я собираю данные по России и визуализирую здесь:
https://cashin.ru/virus/russia/
Меня спрашивают, можно ли использовать мою сборку данных — да, можно. Если кто-то хочет подключиться к этому источнику, подключайтесь. Спрашивать у меня отдельного разрешения не нужно. Но будет хорошо, если вы предупредите меня об использовании, чтобы я понимал, на что влияет источник. Напишите мне: cashin@yandex.ru.

Пункт 2.
Нужна помощь по автоматизации сбора данных.
Из того что я нашел, наиболее удобный и быстрый источник по России сейчас — телеграм-канал опер-штаба Москвы: https://t.me/COVID2019_official

Изначально я собирал по отчетам Роспотребнадзора, а сейчас захожу в телеграм-канал штаба. Вручную беру последнюю сводку. Прогоняю через нехитрые скрипты. Пара минут работы с контролем сумм — и данные попадают в общую таблицу:
https://docs.google.com/spreadsheets/d/e/2PACX-1vQxbLiOGzM5mC_lBFk3t3XWp_3ZMsoEObxiQErZAfEqx_DAu9l6Qe2FMdggwD3EVIIcB6m3VwUOH33Y/pub?gid=1542861087&single=true&output=csv

Ручной этап надо выпиливать из процесса.
Поэтому,
— если вы знаете полноценный табличный источник по России, или
— если вы можете помочь автоматизировать сам сбор, построить или раскопать какой-то способ делать это лучше — напишите мне: cashin@yandex.ru.

Пошарьте пост, пожалуйста.

Тем временем, у России траектория не очень, нужно усиливать карантин. Чем плотнее карантин, тем быстрее разберемся.

2020   визуализация   данные   Коронавирус   Россия

Группы риска не существует: мы все в одной лодке

Часть 8.

Читаю такое: в связи с риском заболевания вирусом предприятие переводится на удаленную работу. Или, в Москве 300 заболевших, мы считаем риск заболеть низким.

Это полная хрень. Риск не в заболевании кого-то на предприятии. Риск не в том, что лично вы подхватите вирус — это вообще не риск. 30-50 человек у нас каждый день гибнут в ДТП, но дороги никто не перекрывает. ДТП — ваш индивидуальный риск. Если кто-то попал в ДТП, это не вызывает еще тысячу ДТП в районе.

Вирус — риск не индивидуальный, а коллективный и нелинейный. Это значит, что произойдет что-то более масштабное, чем просто вы заболеете. Во-первых, не только вы, во-вторых, не только заболеете.

Посмотрим на процесс в США:
изначально было известно, что в медицинских учреждениях в наличии примерно 40 тысяч аппаратов искусственного дыхания. Казалось, что это много. Но, поскольку увеличивается сама скорость роста инфицированных, количество людей, которым требуются аппараты, растет нелинейно, взрывным образом.

http://www.cashin.ru/virus/confirmedgrowth/

В результате даже в США при такой экономической мощи появляются десятки оупен-сорсных проектов по самостоятельному изготовлению аппаратов искусственного дыхания. Гляньте хотя-бы сюда:

https://medium.com/@RobertLeeRead/analysis-of-open-source-covid-19-pandemic-ventilator-projects-27acf9075f7e

Это только один из примеров нелинейных эффектов второго порядка. На что это повлияет далее — нельзя предсказать. Но точно можно предсказать, что последствия будут невероятно плохими, если нелинейный рост продолжится.

Риск в том, что по мере распространения вируса масштаб увеличивается и это приводит к непредсказуемым последствиям. Вирус уже распространяется, и что люди полагают, что риска нет — больше ничего и не нужно. Этих двух составляющих достаточно.

Обычно, когда говорят про риск, имеют в виду нечто из будущего. А у нас это не будущее, а уже сработавший риск. Теперь это не риск, а реальный процесс.

Есть посев, есть высокий коэффициент передачи. Нужно снижать, иначе...

https://meltingasphalt.com/interactive/outbreak/

* * *
P. S.
С симуляторами нынче есть хорошая и плохая новости.

Хорошая — они наглядно показывают распространение инфекции в зависимости от коэффициента передачи и количества социальных контактов.

Плохая — все симуляторы, которые я видел, после достижения пика за каким-то хреном выводят все случаи в состояние «выздоровевших». Этот ход мне кажется безответственным — складывается впечатление, что если просто немного подождать, все станут выздоровевшими сами собой. Это глупость — никак не отображаются последствия. И их в принципе невозможно показать, потому что это непредсказуемые эффекты второго порядка.

Увы, хорошо «визуализировать» сегодня уже недостаточно.

Возможным решением для авторов таких симуляторов было бы вообще не показывать исход. Показывать только стадию роста. Потому что мы не знаем, что за ней последует.

* * *
Ранее:
Часть 1.
Мы путаем локальный риск с системным.
http://www.cashin.ru/blog/all/virus/

Часть 2.
Мы не понимаем сдвига во времени между причиной и следствием.
http://www.cashin.ru/blog/all/virus-2/

Часть 3.
Откуда данные?
http://www.cashin.ru/blog/all/virus-3/

Часть 4.
Ищи то, чего нет на виду.
http://www.cashin.ru/blog/all/virus-4/

Часть 5.
Риск срабатывает моментально
http://www.cashin.ru/blog/all/virus-5/

Часть 6.
Вирус распространяется по Москве
http://www.cashin.ru/blog/all/virus6/

Часть 7.
Действия каждого для общей безопасности
http://www.cashin.ru/blog/all/virus-7/

Часть 8.
Группы риска не существует: мы все в одной лодке
http://www.cashin.ru/blog/all/virus-8/

Все заметки на тему коронавируса
http://www.cashin.ru/blog/tags/koronavirus/

2020   визуализация   данные   Коронавирус   риск   симулятор

Симулятор Монте-Карло к задаче про дополнительные стрелы

Разминка выходного дня: дизайн + программирование + теория вероятностей.

Сын решает задачу по теории вероятностей:
«Есть 14 стрел. Вероятность попадания одной стрелы — 0,1. За каждое попадание стрелок получает ещё 3 стрелы. Нужно определить математическое ожидание количества выстрелов.»

Даня решил задачу на бумаге, а я взял себе на разминку — найти решение численным методом, наглядно показать задачу с процессом решения и результатом, параметризировать для возможности попробовать другие настройки.

Решение численным методом — симулятор Монте-Карло с настройкой параметров задачи:
https://observablehq.com/@realsergeykashin/monte-carlo-arrows-v1-0

График показывает результаты каждой серии выстрелов. Красные штрихи — отдельные выстрелы. Чем чаще стрелок попадает, тем больше дополнительных стрел получает и так же их выпускает:

Интересно наблюдать, как меняется результат при изменении входных параметров задачи:

Редактируется
— вместительность графика. При определенных настройках получается очень много стрел, осторожно!
— начальное количество стрел;
— вероятность попадания стрелы;
— сколько новых стрел выдают за каждое попадание.

Так что вот вам еще один симулятор.
https://observablehq.com/@realsergeykashin/monte-carlo-arrows-v1-0

2019   визуализация   дартс   Монте-Карло   симулятор   Талеб

Способ визуализации интервалов в R

Исходный код интервальных операторов на гитхабе автора, Питера Солимоса:
https://github.com/psolymos/intrval

Исходный дизайн представления интервалов:
https://twitter.com/psolymos/status/803628398954381312

Мой вариант визуального представления:
https://twitter.com/sergeykashin/status/805501566123966464

Лайк и ретвит Тафти — все ок.

Улучшения

Поставил моноширинный шрифт в интервалах.
Отсортировал по типам — общий принцип становится нагляднее.

А теперь еще поменял порядок расположения символов в неравенствах: всегда по возрастанию слева направо. Расположение символа (х) в неравенстве соответствует его расположению относительно границ интервалов. Использую операторы < и <= вместо > и >=.

Например,
хуже: x <= a | x >= b
лучше: x <= a | b <= x

2019   R   визуализация   дизайн   интервал   Солимос   Тафти

Диаграмма распределения выбросов в атмосферу

Чуть не забыл рассказать, как переделал диаграмму распределения выбросов в атмосферу.

Исходная статья:
http://science.sciencemag.org/content/360/6396/eaas9793

Исходная диаграмма, автор Глен Питерс (Glen Peters):

Обсуждение в Твитере:
https://twitter.com/sergeykashin/status/1036544638151208960

Авторы хотели подчеркнуть, какие виды выбросов сложно устранить.
Но у исходной диаграммы несколько проблем.

— Слева данные показаны в процентах, а справа — в абсолютных величинах (гигатонны). Это сбивает с толку, например, когда сравниваешь слева красное “Load-following electricity” 12 (процентов) с красным справа 4.0 (тут уже гигатонны). Читатель не понимает, как одно красное соотносится с другим, что во что входит. А ничего никуда не входит: это одно и то же, выраженное разными способами:

— Сам факт разделения данных на две диаграммы путает читателя: возникает ощущение, что это два разных набора данных. На самом деле один.
— Способ отображения с помощью круговой диаграммы неэффективен. Плохо расходуется пространство. Круговая не стыкуется с линейной справа. Не помогает сопоставлять числа. Нельзя нормально подписать мелкие значения.
— Далее к деталям. Странно удлинили подсвеченные сектора. Это плохой способ подсвечивания: человек воспринимает соотношение площадей, а удлинение секторов увеличивает их площадь.
— Не хватает заголовка.
— Шумит вертикальная ось, пользы не приносит.

Как переделать:

  1. Устранить разнобой единиц измерения.
  2. Не делить один набор данных на две диаграммы без необходимости.
  3. Перейти от кругового представления к линейному.
  4. Найти более подходящий способ подсветить выбросы, которые сложно устранить.
  5. Показать и проценты, и абсолютные числа.
  6. Добавить заголовок.
  7. Аккуратно сверстать. Не забыть указать источник.

Получилось так:

Перенес в заголовок общий абсолютный объем выбросов.
Подписал все составляющие в одном стиле, несмотря на сильные различия в масштабах чисел — всё помещается и читается.
Основные значения по категориям подписал в процентах, абсолютные в гигатоннах — «сложные» — дополнительно дописал к категориям.
«Сложные» обвел линией.

2018   визуализация   выбросы   дизайн

Визуализация миграции птиц

Великолепная статья Нэшнл Географик с картографической визуализацией миграции птиц в Северной и Южной Америках:

https://www.nationalgeographic.com/magazine/2018/03/bird-migration-interactive-maps/?beta=true

Сложно даже представить, какие данные и как надо было собрать и обработать, чтобы сделать статью с подобным уровнем детализации.

Плюсы: в статье интегрированы текст, звук пения птиц, координаты на картах, перемещения птиц, изменения окружающей среды во времени. Совмещены маршруты птиц, места проживания людей, насыщенность растительности. Красивые фотографии птиц, интересные факты. Например, птицы рискуют, прокладывая прямые маршруты над опасными местами.

Вызывает вопросы верстка. Хочется поставить тексты и мини-выноски про птиц с фотками параллельно картам. Сейчас тексты и фотографии отдалены от карт по вертикали. Мешает заигрывание с визуальными эффектами при скроллинге: хочется сказать «да дайте уже, наконец, спокойно посмотреть».

Там же: сбивает с толку, что в листалке периодов первый период — вовсе не период, а анимация всех периодов. Для бета-версии норм, но вообще вот это надо сделать получше:

2018   National Geographic   верстка   визуализация   дизайн   карты

Рассчитывают и показывают вероятности исхода матчей

https://projects.fivethirtyeight.com/2018-world-cup-predictions/matches/

Методология:
https://fivethirtyeight.com/features/how-our-2018-world-cup-predictions-work/

<Дополнение>

Оказалось, что данные в основе этой визуализации — полная шляпа.
Получился антипример.
Напишу отдельно про эту историю.

2018   вероятности   визуализация   дизайн

Как изучать трехмерные данные МРТ-сканирования

Планшет с определением положения в пространстве (по описанию я не уверен, что они используют акселерометр) помогает изучать трехмерные данные МРТ-сканирования:

Хорошо, что экранов два:
на одном — текущее сечение,
на другом — общий вид с отображением плоскости сечения.

2018   визуализация   дизайн   МРТ
2018   визуализация   дизайн   решение

Интересная визуализация футбольных голов на чемпионатах в «Экономисте»

https://www.economist.com/graphic-detail/2018/06/18/every-world-cup-goal-ever-scored

Опубликована в рубрике Daily Chart. Хорошо сделано для повседневной графики. Но если закрыть глаза на оперативность подготовки, можно немного покритиковать интерфейс.

При наведении курсора подсказка всплывает не у кружочка гола, а где-то непонятно в стороне:

Нужно ближе к выбранному элементу.
Всплывающая рамка часто перекрывает один из голов в игре, соединенных линией.

Если на отфильтрованной диаграмме кликнуть на гол, фиксируется вся игра. Чтобы снять фиксацию, нужно попасть курсором в один из немногих мелких кружочков. Можно было сделать отмену фиксации кликом на всей площади:

2018   визуализация   график   дизайн   футбол

Симуляция и визуализация человеческого тела

Суперкомпьютерный центр в Барселоне выпустил короткий фильм о программной симуляции и визуализации человеческого тела:
http://www.bsc.es/viz/virtualhumans/

Видео:

О фильме:
https://www.bsc.es/news/bsc-news/release-virtual-humans-film

Говорят о том, как симуляция не абстрактного, а конкретного человека поможет подбирать для него лекарства, тестировать варианты хирургического вмешательства, тестировать повышение нагрузки на суставы и мышцы.

Фантастика и рядом не стояла.

2018   визуализация   дизайн   симуляция   фантастика   фильм

Выбор школы в Чикаго

Про выбор школы для детей в Чикаго. Визуализация и интерфейс — без чудес, но интересно представлена история в целом. В самом начале нужно наугад кликнуть в кучу точек. Сайт пишет, какой выбран ребенок, и дальше строит историю именно про него.

https://gabriellelamarrlemee.github.io/thesis-simulation/

Если ребенок «белый», то у него могут быть сложности со сверстниками в школе: только 17 % детей в Чикаго — белые, 35 % темнокожие, и 43 % — латиноамериканцы.

2018   визуализация   дизайн   интерфейс   Чикаго

Визуализация головного мозга для исследований

Инструмент для визуализации головного мозга для исследований:
http://andrewgelman.com/2018/05/18/awesome-data-visualization-tool-brain-research/

Обалденно. Трехмерная схема нервных волокон с подсветкой групп и настройкой прозрачности, и еще куча крутых штук:
https://yeatmanlab.github.io/AFQBrowser-demo/

2018   визуализация   дизайн   мозг   нейроны

Тач-интерфейс и временные ряды

Несколько подходов для организации пользовательского взаимодействия с графиками на тач-интерфейсе опубликовали на сайте Университета Баухауза в Веймаре.

Страница:
https://www.uni-weimar.de/de/medien/professuren/medieninformatik/vr/research/infovis/touch-the-time/

Видео:
https://www.uni-weimar.de/projekte/vr-scratch/videos/TTT.mp4

Подходы не новые, но хуже они от этого не становятся.

Синхронизация разных панелей. при уточнении времени на одной из панелей выбранное время подсвечивается и на остальных:

Скоординированный выбор временного диапазона. Выбираем диапазон на одной панели, отображается на всех:

А вот кое-что поинтереснее.
Выделение диапазона для просмотра на отдельной панели:

В видеоролике перетаскивают кусок графика с одной панели на другую, круто:

Пересечение строк данных и диапазона:

Еще несколько технически интересных штук, но сомнительных с точки зрения визуализации.

Растягивание панели. Бывает полезно при сборке панели, но для пользователей сомнительно — искажает привычный масштаб:

Ну ладно, это же про принципы тач-взаимодействия, а не про конкретные графики.
Растяжение части диапазона четырьмя пальцами:

Не очень универсальная штука, есть же нормальный зум. Но выглядит интересно.
Гляньте там видео:
https://www.uni-weimar.de/projekte/vr-scratch/videos/TTT.mp4

2018   визуализация   график   дизайн   интерфейс   тач
2018   визуализация   дизайн   Лондон   мониторинг

Графический интерфейс для задач марсохода

В Лаборатории интерактивных данных (Interactive Data Lab) рассказали, как делали графический интерфейс для марсохода для определения оптимальных условий передачи данных по радиосвязи. Заказчик — Лаборатория реактивного движения НАСА (NASA Jet Propulsion Laboratory).

https://idl.cs.washington.edu/papers/meridian/

ПДФ публикации:
https://idl.cs.washington.edu/files/2018-Meridian-CHI.pdf

В публикации перечислили несколько полезных принципов представления данных в визуальной аналитике и мониторинге:

— Показывать данные в контексте.
— Показывать взаимосвязи, а не просто данные.
— Предоставлять пользователям возможность перемещать точку обзора в наиболее важных данных.
— Обеспечивать гибкость интерфейса.
— В первую очередь показывать проблемные места, сохраняя возможность посмотреть детали в случае необходимости.
— Не терять данные из виду, не удалять их, даже если кажется, что они не нужны.
— Предоставлять данные в разрешении, соответствующем задаче.

Было бы интересно посмотреть кликабельный прототип, но опубликовали только пару скриншотов.

Редкий случай, когда оправдано применение круговой диаграммы, полярных координат:

Из телеграм-канала https://t.me/sergeykashin
19 апреля 2018

2018   визуализация   дизайн   круговая диаграмма   марсоход   НАСА
2018   визуализация   дизайн   иллюстратор данных

Повернули систему координат

Интересный способ применения прямоугольной системы координат. На одной оси — насколько люди довольны жизнью, на другой — валовый внутренний продукт на душу населения.

Но плоскость показана под углом, и автор обращает внимание на еще одно значимое направление: снизу вверх на повернутой плоскости.

В таком ракурсе наверху оказываются «бедные, но счастливые»:

Источник:
http://www.visualcapitalist.com/relationship-money-happiness/#comment-3830619155

В конце страницы смешной комментарий:

ag303 • 12 hours ago
I find the angled presentation of this graphic confusing. It implies that the variables represented on the x and y axes are not the usual vertical and horizontal, but in fact they are, right? X is wealth and Y is happiness? Seems to me the More satisfied arrow should really point up, and the Richer arrow should point to the right.

Люди думают, что нужно показывать данные так как они думают, а не как-то иначе. На самом деле данные можно показывать как угодно. Вообще всё можно показывать как угодно. Исходя из цели и кучи разных причин. Автор исходит из того, какая у него цель. Это может быть просто желание.

2018   визуализация   дизайн   цель

Параллельное отображение относительно одной даты

Интересный подход к параллельному отображению. При наведении мыши график показывает изменения относительно выбранной даты. Плюс не так часто встречающийся ступенчатый прием отображения финансовых данных.

Перейдите по ссылке и подвигайте мышью над графиком:
https://beta.observablehq.com/@mbostock/d3-index-chart

2018   D3   Observable   визуализация   дизайн

Визуализация бросков в баскетболе

Веб-виар (Web VR):
https://bball.surge.sh/golden-state-warriors/anderson-varejao

С технической точки зрения круто. А с точки зрения представления данных — добавить бы даты и время. Мячи летят, но непонятно, как это распределено во времени.

Сходу непонятно значение цвета. Красные — мимо, синие — попали, но в начале сбивает с толку плавное повышение яркости от белого.

На полу поверх (или вместо) деревяшек можно разместить в виде текстуры точки, откуда бросали мяч.

Ну, так себе.

Двухмерное отображение мест бросков, количества попыток и успешности давно хорошо сделали в Нью-Йорк Таймс:
http://www.nytimes.com/interactive/2012/06/11/sports/basketball/nba-shot-analysis.html

Но на этой прекрасной графике не отражалось время броска.
Забивали равномерно?
Отжигали в конце игры?

Анимация в веб-виаре могла как раз показывать в такой истории время бросков. Но в 3д это выглядело бы, наверное, странно. Мяч ведь один. Не очень понятно, что в данном случае дает трехмерность.

Из телеграм-канала https://t.me/sergeykashin
17 марта 2018

2018   3d   баскетбол   виар   визуализация   дизайн
2018   Sparks   визуализация   дизайн   микрографики   шрифт
2018   Observable   анимация   визуализация   дизайн   обзёрвэбл
2018   D3   Observable   визуализация   обзёрвэбл
Ctrl + ↓ Ранее
Коронавирус