6 заметок с тегом

данные

Избыточная смертность

Небольшая выписка из статьи об «избыточной смертности» во время пандемии коронавируса,
https://ourworldindata.org/excess-mortality-covid
(Excess mortality from the Coronavirus pandemic COVID-19)

Избыточная смертность (далее пишу без кавычек) = фактически фиксируемое количество смертей — (минус) ожидаемое количество в нормальных условиях в прежние годы.

Например, чтобы узнать количество избыточных смертей в мае, берем сумму всех смертей, зарегистрированных в мае и вычитаем среднее количество смертей в мае за предыдущие 5 лет.

Простыми словами: насколько чаще или реже стали умирать, по сравнению с предыдущими годами. Независимо от причин.

Почему в период пандемии имеет смысл смотреть на показатели избыточной смертности?

— Некоторые страны считают причиной вирус только у тех, кто скончался в больнице.
— Бывает, считают причиной вирус только в том случае, если получен результат теста на вирус. Если результата нет, то не протестированные пациенты не считаются.
— Могут быть проблемы с точностью подсчета смертей, в особенности, в бедных странах.
— Пандемия может приводить к увеличению смертности в сочетании с другими причинами, вследствие ослабления систем здравоохранения, недостатка внимания пациентам с другими болезнями, нехваткой финансовых ресурсов и др.
— Пандемия также может приводить к снижению смертности по определенным статьям.

Расчет избыточной смертности независимо от причины летальных случаев помогает посмотреть под новым углом на эффекты, оказываемые пандемией.

Данные по избыточной смертности доступны лишь для небольшого ряда стран. Эти данные доступны не везде, для сбора требуется точность подсчета и сбора данных в предыдущие годы.

Далее приводятся ссылки на несколько публикаций по избыточной смертности по разным источникам.

Файненшиал Таймс (Financial Times)

https://www.ft.com/content/a26fbf7e-48f8-11ea-aeb3-955839e06441
Статическая визуализация.
Более 10 стран, Европа, США, Израиль, Южная Африка. 10 городов.

* * *

Экономист (The Economist)

https://www.economist.com/graphic-detail/2020/04/16/tracking-covid-19-excess-deaths-across-countries
Интерактивная визуализация.
Европейские страны, несколько городов.
Европейские данные разбиты по возрастам.

* * *

Евромомо (Euromomo)

https://euromomo.eu/graphs-and-maps
Интерактивная визуализация.
Европейские страны.
с разбивкой по возрастам.

* * *

Нью-Йорк Таймс (New York Times)

https://www.nytimes.com/interactive/2020/04/21/world/coronavirus-missing-deaths.html
New York Times’ work
Статическая визуализация.
Более 10 стран, Европа, США, Эквадор, некоторые города.

Не показываю данные по пандемии из расчета на душу населения

http://www.cashin.ru/virus/timingrate/
Не показываю данные по пандемии из расчета на душу населения, потому что эта метрика может ввести в заблуждение. Имеет значение, сколько людей находится в непосредственном контакте со вспышкой эпидемии. Отображение числа случаев на единицу населения создаст ложное ощущение безопасности для больших стран, ситуация будет казаться лучше, чем на самом деле. Никто в здравом уме не скажет, что ситуация в Нью-Йорке сейчас лучше, чем в каком-нибудь итальянском городке, где вирус выкосил половину жителей.

Основной риск заключен в высокой скорости распространения инфекции. Для отображения скорости распространения знать общую численность населения не нужно.

Еще одна важная деталь: распространяющийся, растущий процесс с содержанием риска некорректно рассматривать так же, как установившийся процесс. Некорректно, например, сравнивать процесс распространения нового вируса с установившимися значениями риска от гриппа или автомобильных аварий.

Частотные распределения уже установившихся процессов известны и стабильны. Распределение нового процесса неизвестно. Но известно, что до принятия странами жестких мер по удержанию вируса распределение укладывалось в класс Парето, статистически демонстрируя «толстый хвост» и экспоненциальный рост с нелинейными эффектами: взрывной характер распространения, перегрузку систем (здравоохранения, в частности), неизвестное влияние на здоровье у выживших. Поэтому не важно, какая численность населения страны, когда мы смотрим на развивающийся, не устоявшийся процесс и хотим понять создаваемый им риск.

Имело бы смысл какое-то отображение числа случаев относительно медицинских ресурсов: как количество случаев соотносится со способностью страны переварить это количество. Но в реальности это было бы сочетанием разных групп данных, каждая из которых очень шумная и крайне ненадежная. Это уже «пережаренные» данные.

По той же причине не показываю ничего, связанного с плотностями населения по городам или как-то еще. Эти данные также были бы «пережаренными». Плотности можно считать и мерять по-разному, и потом будет непонятно, как сравнивать места, где разные формы распределения плотностей. Всё это — ненужное закапывание в болото данных.

Не нужно тонуть в числовой аналитике, когда ситуация очевидна и решения просты:
— вирус крайне заразный,
— заражение приводит к непредсказуемым эффектам второго порядка,
— нужно включить полную паранойю: избегать социальных контактов, носить маску, мыть руки и никого не слушать про то что «ничего страшного». Асимметрия риска: риск от паранойи несоразмерен риску отсутствия паранойи.

Разрешаю использовать свою сборку данных по России

1) Разрешаю использовать свою сборку данных о вирусе по России для визуализации и анализа.
2) Нужна помощь по автоматизации сбора данных.

По пункту 1.
Я собираю данные по России и визуализирую здесь:
https://cashin.ru/virus/russia/
Меня спрашивают, можно ли использовать мою сборку данных — да, можно. Если кто-то хочет подключиться к этому источнику, подключайтесь. Спрашивать у меня отдельного разрешения не нужно. Но будет хорошо, если вы предупредите меня об использовании, чтобы я понимал, на что влияет источник. Напишите мне: cashin@yandex.ru.

Пункт 2.
Нужна помощь по автоматизации сбора данных.
Из того что я нашел, наиболее удобный и быстрый источник по России сейчас — телеграм-канал опер-штаба Москвы: https://t.me/COVID2019_official

Изначально я собирал по отчетам Роспотребнадзора, а сейчас захожу в телеграм-канал штаба. Вручную беру последнюю сводку. Прогоняю через нехитрые скрипты. Пара минут работы с контролем сумм — и данные попадают в общую таблицу:
https://docs.google.com/spreadsheets/d/e/2PACX-1vQxbLiOGzM5mC_lBFk3t3XWp_3ZMsoEObxiQErZAfEqx_DAu9l6Qe2FMdggwD3EVIIcB6m3VwUOH33Y/pub?gid=1542861087&single=true&output=csv

Ручной этап надо выпиливать из процесса.
Поэтому,
— если вы знаете полноценный табличный источник по России, или
— если вы можете помочь автоматизировать сам сбор, построить или раскопать какой-то способ делать это лучше — напишите мне: cashin@yandex.ru.

Пошарьте пост, пожалуйста.

Тем временем, у России траектория не очень, нужно усиливать карантин. Чем плотнее карантин, тем быстрее разберемся.

Группы риска не существует: мы все в одной лодке

Часть 8.

Читаю такое: в связи с риском заболевания вирусом предприятие переводится на удаленную работу. Или, в Москве 300 заболевших, мы считаем риск заболеть низким.

Это полная хрень. Риск не в заболевании кого-то на предприятии. Риск не в том, что лично вы подхватите вирус — это вообще не риск. 30-50 человек у нас каждый день гибнут в ДТП, но дороги никто не перекрывает. ДТП — ваш индивидуальный риск. Если кто-то попал в ДТП, это не вызывает еще тысячу ДТП в районе.

Вирус — риск не индивидуальный, а коллективный и нелинейный. Это значит, что произойдет что-то более масштабное, чем просто вы заболеете. Во-первых, не только вы, во-вторых, не только заболеете.

Посмотрим на процесс в США:
изначально было известно, что в медицинских учреждениях в наличии примерно 40 тысяч аппаратов искусственного дыхания. Казалось, что это много. Но, поскольку увеличивается сама скорость роста инфицированных, количество людей, которым требуются аппараты, растет нелинейно, взрывным образом.

http://www.cashin.ru/virus/confirmedgrowth/

В результате даже в США при такой экономической мощи появляются десятки оупен-сорсных проектов по самостоятельному изготовлению аппаратов искусственного дыхания. Гляньте хотя-бы сюда:

https://medium.com/@RobertLeeRead/analysis-of-open-source-covid-19-pandemic-ventilator-projects-27acf9075f7e

Это только один из примеров нелинейных эффектов второго порядка. На что это повлияет далее — нельзя предсказать. Но точно можно предсказать, что последствия будут невероятно плохими, если нелинейный рост продолжится.

Риск в том, что по мере распространения вируса масштаб увеличивается и это приводит к непредсказуемым последствиям. Вирус уже распространяется, и что люди полагают, что риска нет — больше ничего и не нужно. Этих двух составляющих достаточно.

Обычно, когда говорят про риск, имеют в виду нечто из будущего. А у нас это не будущее, а уже сработавший риск. Теперь это не риск, а реальный процесс.

Есть посев, есть высокий коэффициент передачи. Нужно снижать, иначе...

https://meltingasphalt.com/interactive/outbreak/

* * *
P. S.
С симуляторами нынче есть хорошая и плохая новости.

Хорошая — они наглядно показывают распространение инфекции в зависимости от коэффициента передачи и количества социальных контактов.

Плохая — все симуляторы, которые я видел, после достижения пика за каким-то хреном выводят все случаи в состояние «выздоровевших». Этот ход мне кажется безответственным — складывается впечатление, что если просто немного подождать, все станут выздоровевшими сами собой. Это глупость — никак не отображаются последствия. И их в принципе невозможно показать, потому что это непредсказуемые эффекты второго порядка.

Увы, хорошо «визуализировать» сегодня уже недостаточно.

Возможным решением для авторов таких симуляторов было бы вообще не показывать исход. Показывать только стадию роста. Потому что мы не знаем, что за ней последует.

* * *
Ранее:
Часть 1.
Мы путаем локальный риск с системным.
http://www.cashin.ru/blog/all/virus/

Часть 2.
Мы не понимаем сдвига во времени между причиной и следствием.
http://www.cashin.ru/blog/all/virus-2/

Часть 3.
Откуда данные?
http://www.cashin.ru/blog/all/virus-3/

Часть 4.
Ищи то, чего нет на виду.
http://www.cashin.ru/blog/all/virus-4/

Часть 5.
Риск срабатывает моментально
http://www.cashin.ru/blog/all/virus-5/

Часть 6.
Вирус распространяется по Москве
http://www.cashin.ru/blog/all/virus6/

Часть 7.
Действия каждого для общей безопасности
http://www.cashin.ru/blog/all/virus-7/

Часть 8.
Группы риска не существует: мы все в одной лодке
http://www.cashin.ru/blog/all/virus-8/

Все заметки на тему коронавируса
http://www.cashin.ru/blog/tags/koronavirus/

Откуда данные о заболевших

Днём ранее написал про временной сдвиг и природу коэффициента смертности:
http://www.cashin.ru/blog/all/virus-2/

Увидел в Твитере ссылку на заметку ровно с тем же:
https://medium.com/@tabardel/coronavirus-2019-ncov-no-the-case-fatality-rate-is-not-2-48142169a367

Тем временем, Нью-Йорк Таймс публикует ожидания по коэффициентам смертности, и допускает ровно ту ошибку, которую я описал во второй части: сравнивает смертность затихших эпидемий с активно развивающейся:
https://nytimes.com/interactive/2020/world/asia/china-coronavirus-contain.html

Или я чего-то не догоняю, или визуализация вызывает вопросы.
Кидаю вопрос Нассиму Талебу, получаю подтверждение.
https://twitter.com/sergeykashin/status/1225828779748098048

Печальная новость для дизайна:
Высокий графический уровень визуализации данных скрывает опасность — у зрителя создается впечатление надежной и продуманной работы, а на деле работа построена на сомнительном смысловом фундаменте.

Вообще, у меня накопились примеры ошибок в визуализациях, созданных известными командами. Возможно, как-нибудь найду время рассказать. Пугает то, что на известные команды ориентируются другие дизайнеры, которые видят ошибки и думают что так делать окей. Это не окей.

Идем дальше.

Часть 3.
Откуда данные?

Основная масса заболевших — в Китае. Оттуда же почти все цифры. На основе этих цифр все строят статистические оценки и прогнозы.

Возникает вопрос, насколько цифры близки к реальности. Китай может всё, у них есть великий файрвол, тотальный мониторинг и партия.

А когда есть сомнения в данных, действия иногда говорят больше, чем цифры: Китай не стал бы сливать свою экономику, если бы риск был небольшим. Реакция страны на происходящее сильнее, чем можно ожидать только по цифрам. Использование крупных общественных пространств для размещения заболевших, мегазакупки медицинских материалов за рубежом (для Китая-то) — практически военная тема. Это сигнал о том, что реальность может быть хуже.

Заметили две тенденции: до конца января из Китая приходили цифры роста инфицированных по 50% в день, а после 27 января — ровно по 25% в день.
https://twitter.com/salilstatistics/status/1223484153468944384

Инфицирование — случайный процесс. Странно, что поток чисел так ровно ломается с 50% на 25% в один день — непонятно, что произошло именно в этот день. +Непонятно, насколько возможна проблема технического ограничения диагностирования новых случаев — ведь на диагностику нужны ресурсы.

Схожий вопрос к цифрам: очень ровный рост в отчетности — несколько дней подряд точно по квадратичной кривой, будто данные отвешивали вручную:
https://twitter.com/evdefender/status/1224723734680035329

Посмотрим.
P. S. пока я собирал скриншоты, цифры ушли вверх.

 
* * *
Часть 1.
Мы путаем локальный риск с системным.
http://www.cashin.ru/blog/all/virus/

Часть 2.
Мы не понимаем сдвига во времени между причиной и следствием.
http://www.cashin.ru/blog/all/virus-2/

Часть 3.
Откуда данные?
http://www.cashin.ru/blog/all/virus-3/

Часть 4.
Ищи то, чего нет на виду.
http://www.cashin.ru/blog/all/virus-4/

Часть 5.
Риск срабатывает моментально
http://www.cashin.ru/blog/all/virus-5/

Часть 6.
Вирус распространяется по Москве
http://www.cashin.ru/blog/all/virus6/

Часть 7.
Действия каждого для общей безопасности
http://www.cashin.ru/blog/all/virus-7/

Часть 8.
Группы риска не существует: мы все в одной лодке
http://www.cashin.ru/blog/all/virus-8/

Все заметки на тему коронавируса
http://www.cashin.ru/blog/tags/koronavirus/

2020   данные   Коронавирус   риск
2018   Гугл   данные   карты   Эпл