<?xml version="1.0" encoding="utf-8"?> 
<rss version="2.0"
  xmlns:itunes="http://www.itunes.com/dtds/podcast-1.0.dtd"
  xmlns:atom="http://www.w3.org/2005/Atom">

<channel>

<title>Математик среди биологов: заметки с тегом ящик-с-усами</title>
<link>https://antonlyakh.ru/blog/tags/yaschik-s-usami/</link>
<description>Я немного умею складывать, но от вычитания у меня всегда кружится голова</description>
<author>Антон Лях</author>
<language>ru</language>
<generator>E2 (v3559; Aegea)</generator>

<itunes:owner>
<itunes:name>Антон Лях</itunes:name>
<itunes:email></itunes:email>
</itunes:owner>
<itunes:subtitle>Я немного умею складывать, но от вычитания у меня всегда кружится голова</itunes:subtitle>
<itunes:image href="" />
<itunes:explicit></itunes:explicit>

<item>
<title>От точечного графика к ящику с усами</title>
<guid isPermaLink="false">525</guid>
<link>https://antonlyakh.ru/blog/all/ot-tochechnogo-grafika-k-yaschiku-s-usami/</link>
<pubDate>Wed, 25 Jun 2025 18:05:34 +0300</pubDate>
<author>Антон Лях</author>
<comments>https://antonlyakh.ru/blog/all/ot-tochechnogo-grafika-k-yaschiku-s-usami/</comments>
<description>
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/yaschik-s-usami.png" width="800" height="525" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Давайте рассмотрим способы компактного изображения набора числовых данных, которые позволяют увидеть его примерное распределение. Будем работать с одномерными данными, то есть с данными описанными одним значением. Для наглядности, будем показывать на графике одновременно несколько групп значений, что позволит их визуально сопоставить.&lt;/p&gt;
&lt;p&gt;Начнем с простого точечного графика.&lt;/p&gt;
&lt;h2&gt;Точечный график (dot plot)&lt;/h2&gt;
&lt;p&gt;На точечном графике каждое значение изображено в виде точки. Для того, чтобы точки не накладывались друг на друга, их немного сдвигают в стороны от оси графика.&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/tp----dot-plots.png" width="600" height="300" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Раньше, когда люди создавали графики вручную, высекая узоры на гранитных скалах при помощи бронзового зубила, построение точечного графика отнимало время. Тогда как очевидное упрощение точечного графика заключалось в замене полосы точек на отрезок. Открытие этого способа изображения данных произвело революцию в умах первобытных людей, привело к расцвету эпохи Возрождения и введению в научный обиход графика диапазона.&lt;/p&gt;
&lt;h2&gt;График диапазона (Range bar chart)&lt;/h2&gt;
&lt;p&gt;График выглядит как отрезок или полоса, которая простирается на весь диапазон наличествующих значений.&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/tp---range-bars.png" width="600" height="300" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Несколько расположенных рядом графиков позволяют сравнить интервалы значений. Однако вся прочая важная информация о распределении данных остается сокрытой. Так, одинаковые графики диапазонов могут упрощенно описывать совсем разные распределения: нормальное, ненормальное, биномиальное, смещенное, и эти закономерности мы не увидим.&lt;/p&gt;
&lt;p&gt;Так продолжалось до тех пор, пока не появилась мисс Мери (Элеонора) Спир (Mary Eleanor Spear).&lt;/p&gt;
&lt;h2&gt;График диапазона с медианой и квартилями&lt;/h2&gt;
&lt;p&gt;Мери Спир считается американским пионером визуализации данных. Она издала две книги: «Charting statistics» в 1952 году и «Practical Charting Techniques» в 1969.&lt;/p&gt;
&lt;p&gt;В них она подробно описала способы построения и оформления различных статистических графиков.&lt;/p&gt;
&lt;p&gt;На странице 166 книги «Charting statistics» она:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;добавила на график диапазона рисочку, показывающую положение среднего значения;&lt;/li&gt;
&lt;li&gt;предложила вместо среднего показывать положение медианы и двух квартилей.&lt;/li&gt;
&lt;/ul&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/mary-spear-range-bar.png" width="660" height="362" alt="" /&gt;
&lt;div class="e2-text-caption"&gt;График диапазона с медианой и квартилями из книги Мери Спир «Charting statistics».&lt;/div&gt;
&lt;/div&gt;
&lt;p&gt;Считается, что именно эти графики впоследствии натолкнули Джона Тьюки (John Tukey) на идею построения диаграммы размаха, более известной в обиходе как «ящик с усами».&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/tp---range-bars-vs-med.png" width="600" height="300" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Но давайте, буквально на минуточку, отвлечемся от графиков и рассмотрим простой способ числового описания распределения одномерных данных.&lt;/p&gt;
&lt;h2&gt;Пятиточеная статистика (Five-number summary)&lt;/h2&gt;
&lt;p&gt;Любой набор одномерных данных можно компактно ужать до пяти числовых значений, которые очень даже неплохо опишут его суть. Эти значения включают пять основных персентилей:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;минимальное значение (min) — это нулевой персентиль (0%), меньше него ничего нет;&lt;/li&gt;
&lt;li&gt;первый квартиль (Q1) — это двадцать пятый персентиль (25%), четверть данных меньше этого значения;&lt;/li&gt;
&lt;li&gt;медиана или второй квартиль (med, Q2) — это пятидесятый персентиль (50%), половина данных меньше, а другая больше медианы;&lt;/li&gt;
&lt;li&gt;третий квартиль (Q3) — это семьдесят пятый персентиль (75%), только четверть данных больше этой величины;&lt;/li&gt;
&lt;li&gt;максимальное значение (max) — это сотый персентиль (100%), больше него ничего нет.&lt;/li&gt;
&lt;/ul&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/tp---5-points-summary.png" width="600" height="300" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Если упорядочить наши данные по возрастанию, то медиана будет находится точно посредине ряда, а первый и третий квартили точно посредине каждой половины.&lt;/p&gt;
&lt;p&gt;Первый и третий квартили позволяют вычислить межквартильный диапазон (IQR, inter quartile range) — в него попадет ровно 50% данных. IQR используется для (не всегда точного) выявления выбросов.&lt;/p&gt;
&lt;p&gt;Так вот, Джон Тьюки, насмотревший на графики мисс Спир, придумал изобразить пятиточечную статистику данных в виде пяти соединенных черточек. Так получилась  диаграмма размаха.&lt;/p&gt;
&lt;h2&gt;А откуда взялся ящик с усами (box plot)?&lt;/h2&gt;
&lt;p&gt;Это название появилось из-за внешнего вида диаграммы размаха. В центре нее находится прямоугольник, границами которого служат первый и третий квартили. Прямоугольник похож на ящик, наполненный 50% значений данных, взятых из середины набора. Внутри ящика всегда располагается медиана. Крайние значения набора данных соединены со стенками ящика отрезками, которые и называются усами.&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/tp---box-plot-anatomy.png" width="600" height="300" alt="" /&gt;
&lt;/div&gt;
&lt;p class="loud"&gt;В русскоязычной научной среде более корректно говорить &lt;i&gt;диаграмма размаха.&lt;/i&gt;&lt;/p&gt;
&lt;p&gt;Чаще всего усы диаграммы размаха начинают не от крайних значений (минимума и максимума), а от границ диапазона, не содержащего выбросы. Сами выбросы рисуют за усами в виде точек.&lt;/p&gt;
&lt;p&gt;О том, как определить эти границы, написано в &lt;a href="https://teletype.in/@mathrocknroll/mad-outliers-detecor"&gt;этой заметке&lt;/a&gt;.&lt;/p&gt;
&lt;h2&gt;Диаграмма размаха&lt;/h2&gt;
&lt;p&gt;Внешний вид диаграммы размаха сообщает несколько важных вещей:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;диапазон изменения значений,&lt;/li&gt;
&lt;li&gt;положение медианы — центра данных,&lt;/li&gt;
&lt;li&gt;симметричность распределения.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Расположив рядом несколько диаграмм размаха, мы можем оценить, насколько сильно данные перекрываются.&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/tp---box-plots.png" width="600" height="300" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Если медиана одной диаграммы выходит за границы ящика второй диаграммы, то данные будут статистически достоверно отличаться. В иных случаях необходимо выявлять отличия тестами.&lt;/p&gt;
&lt;p&gt;Если диаграмма размаха симметричная, медиана находится посредине ящика, усы равной длины и по длине совпадают с длиной ящика, значит кривая распределения данных имеет куполообразную форму и, скорее всего, данные распределены нормально. (Но это не точно.)&lt;/p&gt;
&lt;p&gt;А вот если медиана смещена от центра ящика либо длина усов разная, значит распределение в данных ассиметрично. Причем, чем сильнее смещена медиана к краю ящика, тем ближе данные сгруппированы к одному из крайних значений. И чем длиннее один из усов, тем длиннее хвост данных, то есть те значения, которые сильно отличаются от большинства.&lt;/p&gt;
&lt;h2&gt;Недостаток диаграммы размаха&lt;/h2&gt;
&lt;p&gt;Диаграмма размаха хорошо показывает разброс и симметричность значений данных, но плохо передает форму распределения. Поэтому возможна ситуация, когда полностью идентичные диаграммы размаха описывают абсолютно разные распределения данных.&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/nedostatok-box-plots.png" width="567" height="493" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Исправить это досадное недоразумение помогают многочисленные вариации диаграмм размаха, о которых мы поговорим в другой раз.&lt;/p&gt;
</description>
</item>


</channel>
</rss>