5 заметок с тегом

визуализация данных

От точечного графика к ящику с усами

Давайте рассмотрим способы компактного изображения набора числовых данных, которые позволяют увидеть его примерное распределение. Будем работать с одномерными данными, то есть с данными описанными одним значением. Для наглядности, будем показывать на графике одновременно несколько групп значений, что позволит их визуально сопоставить.

Начнем с простого точечного графика.

Точечный график (dot plot)

На точечном графике каждое значение изображено в виде точки. Для того, чтобы точки не накладывались друг на друга, их немного сдвигают в стороны от оси графика.

Раньше, когда люди создавали графики вручную, высекая узоры на гранитных скалах при помощи бронзового зубила, построение точечного графика отнимало время. Тогда как очевидное упрощение точечного графика заключалось в замене полосы точек на отрезок. Открытие этого способа изображения данных произвело революцию в умах первобытных людей, привело к расцвету эпохи Возрождения и введению в научный обиход графика диапазона.

График диапазона (Range bar chart)

График выглядит как отрезок или полоса, которая простирается на весь диапазон наличествующих значений.

Несколько расположенных рядом графиков позволяют сравнить интервалы значений. Однако вся прочая важная информация о распределении данных остается сокрытой. Так, одинаковые графики диапазонов могут упрощенно описывать совсем разные распределения: нормальное, ненормальное, биномиальное, смещенное, и эти закономерности мы не увидим.

Так продолжалось до тех пор, пока не появилась мисс Мери (Элеонора) Спир (Mary Eleanor Spear).

График диапазона с медианой и квартилями

Мери Спир считается американским пионером визуализации данных. Она издала две книги: «Charting statistics» в 1952 году и «Practical Charting Techniques» в 1969.

В них она подробно описала способы построения и оформления различных статистических графиков.

На странице 166 книги «Charting statistics» она:

  • добавила на график диапазона рисочку, показывающую положение среднего значения;
  • предложила вместо среднего показывать положение медианы и двух квартилей.
График диапазона с медианой и квартилями из книги Мери Спир «Charting statistics».

Считается, что именно эти графики впоследствии натолкнули Джона Тьюки (John Tukey) на идею построения диаграммы размаха, более известной в обиходе как «ящик с усами».

Но давайте, буквально на минуточку, отвлечемся от графиков и рассмотрим простой способ числового описания распределения одномерных данных.

Пятиточеная статистика (Five-number summary)

Любой набор одномерных данных можно компактно ужать до пяти числовых значений, которые очень даже неплохо опишут его суть. Эти значения включают пять основных персентилей:

  • минимальное значение (min) — это нулевой персентиль (0%), меньше него ничего нет;
  • первый квартиль (Q1) — это двадцать пятый персентиль (25%), четверть данных меньше этого значения;
  • медиана или второй квартиль (med, Q2) — это пятидесятый персентиль (50%), половина данных меньше, а другая больше медианы;
  • третий квартиль (Q3) — это семьдесят пятый персентиль (75%), только четверть данных больше этой величины;
  • максимальное значение (max) — это сотый персентиль (100%), больше него ничего нет.

Если упорядочить наши данные по возрастанию, то медиана будет находится точно посредине ряда, а первый и третий квартили точно посредине каждой половины.

Первый и третий квартили позволяют вычислить межквартильный диапазон (IQR, inter quartile range) — в него попадет ровно 50% данных. IQR используется для (не всегда точного) выявления выбросов.

Так вот, Джон Тьюки, насмотревший на графики мисс Спир, придумал изобразить пятиточечную статистику данных в виде пяти соединенных черточек. Так получилась диаграмма размаха.

А откуда взялся ящик с усами (box plot)?

Это название появилось из-за внешнего вида диаграммы размаха. В центре нее находится прямоугольник, границами которого служат первый и третий квартили. Прямоугольник похож на ящик, наполненный 50% значений данных, взятых из середины набора. Внутри ящика всегда располагается медиана. Крайние значения набора данных соединены со стенками ящика отрезками, которые и называются усами.

В русскоязычной научной среде более корректно говорить диаграмма размаха.

Чаще всего усы диаграммы размаха начинают не от крайних значений (минимума и максимума), а от границ диапазона, не содержащего выбросы. Сами выбросы рисуют за усами в виде точек.

О том, как определить эти границы, написано в этой заметке.

Диаграмма размаха

Внешний вид диаграммы размаха сообщает несколько важных вещей:

  • диапазон изменения значений,
  • положение медианы — центра данных,
  • симметричность распределения.

Расположив рядом несколько диаграмм размаха, мы можем оценить, насколько сильно данные перекрываются.

Если медиана одной диаграммы выходит за границы ящика второй диаграммы, то данные будут статистически достоверно отличаться. В иных случаях необходимо выявлять отличия тестами.

Если диаграмма размаха симметричная, медиана находится посредине ящика, усы равной длины и по длине совпадают с длиной ящика, значит кривая распределения данных имеет куполообразную форму и, скорее всего, данные распределены нормально. (Но это не точно.)

А вот если медиана смещена от центра ящика либо длина усов разная, значит распределение в данных ассиметрично. Причем, чем сильнее смещена медиана к краю ящика, тем ближе данные сгруппированы к одному из крайних значений. И чем длиннее один из усов, тем длиннее хвост данных, то есть те значения, которые сильно отличаются от большинства.

Недостаток диаграммы размаха

Диаграмма размаха хорошо показывает разброс и симметричность значений данных, но плохо передает форму распределения. Поэтому возможна ситуация, когда полностью идентичные диаграммы размаха описывают абсолютно разные распределения данных.

Исправить это досадное недоразумение помогают многочисленные вариации диаграмм размаха, о которых мы поговорим в другой раз.

 Нет комментариев    18   1 мес   анализ данных   визуализация данных   график   статистика   ящик-с-усами

Покажите улучшение градиентом

Градиент цветов традиционно используют для изображения плавных отличий каких-либо признаков.

Широтный градиент распределения окраски птиц. Cooney et al., 2002, fig. 2

Он хорошо отображает динамику распределения значений. Но с его помощью также можно показать какое-то улучшение. Для этого объекты с начальными (худшими) параметрами отметьте самым тусклым цветом. Далее постепенно повышайте насыщенность цветов. Наилучший результат покажите самым насыщенным цветом.

Для примера на рисунке ниже ↓ изображено, как улучшается форма биологических объектов при использовании все большего и большего числа параметров — гармоник эллиптического преобразования Фурье.

Самый светлый серый цвет раскрашивает примитивные эллиптические формы, восстановленные из одной гармоники (второй ряд), а насыщенный черный (последний ряд) — наилучшие формы, восстановленные из 32 гармоник, которые практически не отличаются от исходных. Градиент серого иллюстрирует поэтапное восстановление исходных форм.

А на следующем рисунке ↓ изображен тот же процесс, но без использования градиента.

Очевидно, что градиент лучше передает динамику процесса.

Rесурсы. Хорошие книги для изучающих R

Обновлено 24 ноя 2023.


Собрал ссылки на хорошие книги по R. Все на английском языке. Все бесплатно доступны в онлайне, но также можно купить бумажные издания.

Для доступа к некоторым книгам понадобится Ви-Пи-Эн.

Использование R

Advanced R. Второе издание.
The book is designed primarily for R users who want to improve their programming skills and understanding of the language. It should also be useful for programmers coming to R from other languages, as help you to understand why R works the way it does.

R for Data Science. Второе издание.
This book will teach you how to do data science with R: You’ll learn how to get your data into R, get it into the most useful structure, transform it and visualize.

Дендрограммы

Data Integration, Manipulation and Visualization of Phylogenetic Trees.
Рассказывает как строить дендрограммы и филогенетические деревья с помощью пакета ggtree. Есть глава, где говорится как прикрутить картинки к дендрограмме.

Статистическое моделирование

Tidy Modeling with R.
This book is a guide to using a collection of software in the R programming language for model building called tidymodels, and it has two main goals:

  • First and foremost, this book provides a practical introduction to how to use these specific R packages to create models. We focus on a dialect of R called the tidyverse that is designed with a consistent, human-centered philosophy, and demonstrate how the tidyverse and the tidymodels packages can be used to produce high quality statistical and machine learning models.
  • Second, this book will show you how to develop good methodology and statistical practices. Whenever possible, our software, documentation, and other materials attempt to prevent common pitfalls.

Визуализация

R Graphics Cookbook. Второе издание.
A practical guide that provides more than 150 recipes to help you generate high-quality graphs quickly, without having to comb through all the details of R’s graphing systems. Each recipe tackles a specific problem with a solution you can apply to your own project, and includes a discussion of how and why the recipe works.

ggplot2: Elegant Graphics for Data Analysis. Третье издание.
While this book gives some details on the basics of ggplot2, its primary focus is explaining the Grammar of Graphics that ggplot2 uses, and describing the full details. It is not a cookbook, and won’t necessarily help you create any specific graphic that you need. But it will help you understand the details of the underlying theory, giving you the power to tailor any plot specifically to your needs.

Статьи

«Кто за всех решил, что Python удобен для „гражданской“ аналитики?», — объясняет, почему R лучше Питона.

 Нет комментариев    55   2023   ggplot   Python   R   анализ данных   визуализация данных   книги   статистическая модель

Серия заметок об анализе траекторий движения протист


Последнее обновление 5 янв. 2024 года.

Планирую выпустить серию заметок про обработку видео с подвижными живыми микрообъектами. Мы хотим понять, как двигаются одноклеточные организмы (протисты) определенного вида при разных условиях, меняется ли что-то в их движении и что именно. Это наша задача.

Задача: определить, что меняется в движении протист при разных условиях

Решение задачи состоит из нескольких шагов: подготовки культуры, съемки видео, обработки видео, выделения траекторий движения, анализа траекторий, общего анализа результатов, интерпретации, выводов.


Оглавление серии

Ниже приведен список шагов, оформленный в виде оглавления, и даны ссылки на готовые заметки с подробным описанием каждого шага. Шаги предварительные, они будут появляться и, иногда, исчезать. О том, как выращивать и поддерживать культуры одноклеточных и как снимать видео через микроскоп рассказывать не буду.


Серию заметок выпускаю прежде всего для себя, чтобы не забыть, что, как и когда делать. Также она будет полезна тем читателям, кто планирует или выполняет похожие эксперименты.


Немного о рутине

Обычно для выполнения рутинной работы берется (один) аспирант или инженер, который своим (еще не растраченным) упорством добивает этот этап до более-менее приемлемого результата. В худшем случае рутиной занимаются сами идеологи или один из них, который, впоследствии, еще и отхватывает пинков за ошибки. (О времена, о нравы!) Я же, по возможности, буду автоматизировать рутинные этапы, заставляя потеть машину.


Необходимый софт

Для автоматизации рутины использую:

  • Пакетный файл Виндоус (батч-файл, bat-файл)
  • Баш (bash) Юникса для исполнения алгоритмов обработки видео и изображений;
  • FFmpeg для автоматической работы с видео;
  • ImageMagick для автоматической обработки изображений кадров;
  • Fiji для построения траекторий.
  • Эр для выделения объектов на кадрах и построения траекторий движения объектов.

Заметил, что многие естествоиспытатели просто не умеют нагружать компьютер работой. Одну из заметок посвящу инструментам автоматизации, облегчающим научную жизнь.


Занесите заметку в закладки, чтобы не потерять.


Сколько людей отдыхало на пляже?

Около Балаклавы (Севастополь) есть пляж «Васили». Его любят местные жители и приезжие за обособленность, чистую воду и красивые окрестности.

Фото Ирины Агарковой

Коллеги решили провести исследование: собрать данные о числе отдыхающих на пляже в течение летнего сезона. Это нужно для оценки рекреационной нагрузки. К сожалению у них не вышло приходить на пляж каждый день. Даже не получилось бывать каждую неделю. И наблюдения захватывали только часть дня. В результате данных собрали очень мало.

Меня попросили хоть что-то сделать с данными.

Для начала разделил день на три периода. Потому что утром и вечером на пляж обычно приходят люди, избегающие солнца — они приходят поплавать и не будут сидеть на пляже весь день. Их надо учесть отдельно. Днем, наоборот, на пляже отдыхают любители солнечных ванн и ожогов. Без солнца пляж им не интересен.

Потом выстроил данные по времени. Получилась длинная шкала дней.

Затем нарисовал график, обозначил начала месяцев, плохую погоду и экстремальное число посетителей.

Отдыхающие на «Василях» в 2016 году

Сделал закономерные выводы:

  • во второй трети сезона на пляже было больше всего людей;
  • утром и вечером народу было меньше, чем днем;
  • во время дождя все разбежались, а после шторма на несколько дней отдыхающих стало меньше.

Если бы данных было больше, выводы стали бы интереснее.

Ставьте ясные задачи и четко планируйте исследования.

Если кто-то захочет использовать полученные данные или график, пишите.

 156   2016   Балаклава   визуализация данных   Крым   пляж   рекреационная нагрузка