{
    "version": "https:\/\/jsonfeed.org\/version\/1",
    "title": "Математик среди биологов: заметки с тегом ящик-с-усами",
    "_rss_description": "Я немного умею складывать, но от вычитания у меня всегда кружится голова",
    "_rss_language": "ru",
    "_itunes_email": "",
    "_itunes_categories_xml": "",
    "_itunes_image": "",
    "_itunes_explicit": "",
    "home_page_url": "https:\/\/antonlyakh.ru\/blog\/tags\/yaschik-s-usami\/",
    "feed_url": "https:\/\/antonlyakh.ru\/blog\/tags\/yaschik-s-usami\/json\/",
    "icon": false,
    "author": {
        "name": "Антон Лях",
        "url": "https:\/\/antonlyakh.ru\/blog\/",
        "avatar": false
    },
    "items": [
        {
            "id": "525",
            "url": "https:\/\/antonlyakh.ru\/blog\/all\/ot-tochechnogo-grafika-k-yaschiku-s-usami\/",
            "title": "От точечного графика к ящику с усами",
            "content_html": "<div class=\"e2-text-picture\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/yaschik-s-usami.png\" width=\"800\" height=\"525\" alt=\"\" \/>\n<\/div>\n<p>Давайте рассмотрим способы компактного изображения набора числовых данных, которые позволяют увидеть его примерное распределение. Будем работать с одномерными данными, то есть с данными описанными одним значением. Для наглядности, будем показывать на графике одновременно несколько групп значений, что позволит их визуально сопоставить.<\/p>\n<p>Начнем с простого точечного графика.<\/p>\n<h2>Точечный график (dot plot)<\/h2>\n<p>На точечном графике каждое значение изображено в виде точки. Для того, чтобы точки не накладывались друг на друга, их немного сдвигают в стороны от оси графика.<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/tp----dot-plots.png\" width=\"600\" height=\"300\" alt=\"\" \/>\n<\/div>\n<p>Раньше, когда люди создавали графики вручную, высекая узоры на гранитных скалах при помощи бронзового зубила, построение точечного графика отнимало время. Тогда как очевидное упрощение точечного графика заключалось в замене полосы точек на отрезок. Открытие этого способа изображения данных произвело революцию в умах первобытных людей, привело к расцвету эпохи Возрождения и введению в научный обиход графика диапазона.<\/p>\n<h2>График диапазона (Range bar chart)<\/h2>\n<p>График выглядит как отрезок или полоса, которая простирается на весь диапазон наличествующих значений.<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/tp---range-bars.png\" width=\"600\" height=\"300\" alt=\"\" \/>\n<\/div>\n<p>Несколько расположенных рядом графиков позволяют сравнить интервалы значений. Однако вся прочая важная информация о распределении данных остается сокрытой. Так, одинаковые графики диапазонов могут упрощенно описывать совсем разные распределения: нормальное, ненормальное, биномиальное, смещенное, и эти закономерности мы не увидим.<\/p>\n<p>Так продолжалось до тех пор, пока не появилась мисс Мери (Элеонора) Спир (Mary Eleanor Spear).<\/p>\n<h2>График диапазона с медианой и квартилями<\/h2>\n<p>Мери Спир считается американским пионером визуализации данных. Она издала две книги: «Charting statistics» в 1952 году и «Practical Charting Techniques» в 1969.<\/p>\n<p>В них она подробно описала способы построения и оформления различных статистических графиков.<\/p>\n<p>На странице 166 книги «Charting statistics» она:<\/p>\n<ul>\n<li>добавила на график диапазона рисочку, показывающую положение среднего значения;<\/li>\n<li>предложила вместо среднего показывать положение медианы и двух квартилей.<\/li>\n<\/ul>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/mary-spear-range-bar.png\" width=\"660\" height=\"362\" alt=\"\" \/>\n<div class=\"e2-text-caption\">График диапазона с медианой и квартилями из книги Мери Спир «Charting statistics».<\/div>\n<\/div>\n<p>Считается, что именно эти графики впоследствии натолкнули Джона Тьюки (John Tukey) на идею построения диаграммы размаха, более известной в обиходе как «ящик с усами».<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/tp---range-bars-vs-med.png\" width=\"600\" height=\"300\" alt=\"\" \/>\n<\/div>\n<p>Но давайте, буквально на минуточку, отвлечемся от графиков и рассмотрим простой способ числового описания распределения одномерных данных.<\/p>\n<h2>Пятиточеная статистика (Five-number summary)<\/h2>\n<p>Любой набор одномерных данных можно компактно ужать до пяти числовых значений, которые очень даже неплохо опишут его суть. Эти значения включают пять основных персентилей:<\/p>\n<ul>\n<li>минимальное значение (min) — это нулевой персентиль (0%), меньше него ничего нет;<\/li>\n<li>первый квартиль (Q1) — это двадцать пятый персентиль (25%), четверть данных меньше этого значения;<\/li>\n<li>медиана или второй квартиль (med, Q2) — это пятидесятый персентиль (50%), половина данных меньше, а другая больше медианы;<\/li>\n<li>третий квартиль (Q3) — это семьдесят пятый персентиль (75%), только четверть данных больше этой величины;<\/li>\n<li>максимальное значение (max) — это сотый персентиль (100%), больше него ничего нет.<\/li>\n<\/ul>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/tp---5-points-summary.png\" width=\"600\" height=\"300\" alt=\"\" \/>\n<\/div>\n<p>Если упорядочить наши данные по возрастанию, то медиана будет находится точно посредине ряда, а первый и третий квартили точно посредине каждой половины.<\/p>\n<p>Первый и третий квартили позволяют вычислить межквартильный диапазон (IQR, inter quartile range) — в него попадет ровно 50% данных. IQR используется для (не всегда точного) выявления выбросов.<\/p>\n<p>Так вот, Джон Тьюки, насмотревший на графики мисс Спир, придумал изобразить пятиточечную статистику данных в виде пяти соединенных черточек. Так получилась  диаграмма размаха.<\/p>\n<h2>А откуда взялся ящик с усами (box plot)?<\/h2>\n<p>Это название появилось из-за внешнего вида диаграммы размаха. В центре нее находится прямоугольник, границами которого служат первый и третий квартили. Прямоугольник похож на ящик, наполненный 50% значений данных, взятых из середины набора. Внутри ящика всегда располагается медиана. Крайние значения набора данных соединены со стенками ящика отрезками, которые и называются усами.<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/tp---box-plot-anatomy.png\" width=\"600\" height=\"300\" alt=\"\" \/>\n<\/div>\n<p class=\"loud\">В русскоязычной научной среде более корректно говорить <i>диаграмма размаха.<\/i><\/p>\n<p>Чаще всего усы диаграммы размаха начинают не от крайних значений (минимума и максимума), а от границ диапазона, не содержащего выбросы. Сами выбросы рисуют за усами в виде точек.<\/p>\n<p>О том, как определить эти границы, написано в <a href=\"https:\/\/teletype.in\/@mathrocknroll\/mad-outliers-detecor\">этой заметке<\/a>.<\/p>\n<h2>Диаграмма размаха<\/h2>\n<p>Внешний вид диаграммы размаха сообщает несколько важных вещей:<\/p>\n<ul>\n<li>диапазон изменения значений,<\/li>\n<li>положение медианы — центра данных,<\/li>\n<li>симметричность распределения.<\/li>\n<\/ul>\n<p>Расположив рядом несколько диаграмм размаха, мы можем оценить, насколько сильно данные перекрываются.<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/tp---box-plots.png\" width=\"600\" height=\"300\" alt=\"\" \/>\n<\/div>\n<p>Если медиана одной диаграммы выходит за границы ящика второй диаграммы, то данные будут статистически достоверно отличаться. В иных случаях необходимо выявлять отличия тестами.<\/p>\n<p>Если диаграмма размаха симметричная, медиана находится посредине ящика, усы равной длины и по длине совпадают с длиной ящика, значит кривая распределения данных имеет куполообразную форму и, скорее всего, данные распределены нормально. (Но это не точно.)<\/p>\n<p>А вот если медиана смещена от центра ящика либо длина усов разная, значит распределение в данных ассиметрично. Причем, чем сильнее смещена медиана к краю ящика, тем ближе данные сгруппированы к одному из крайних значений. И чем длиннее один из усов, тем длиннее хвост данных, то есть те значения, которые сильно отличаются от большинства.<\/p>\n<h2>Недостаток диаграммы размаха<\/h2>\n<p>Диаграмма размаха хорошо показывает разброс и симметричность значений данных, но плохо передает форму распределения. Поэтому возможна ситуация, когда полностью идентичные диаграммы размаха описывают абсолютно разные распределения данных.<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/nedostatok-box-plots.png\" width=\"567\" height=\"493\" alt=\"\" \/>\n<\/div>\n<p>Исправить это досадное недоразумение помогают многочисленные вариации диаграмм размаха, о которых мы поговорим в другой раз.<\/p>\n",
            "date_published": "2025-06-25T18:05:34+03:00",
            "date_modified": "2025-06-25T18:04:59+03:00",
            "image": "https:\/\/antonlyakh.ru\/blog\/pictures\/yaschik-s-usami.png",
            "_date_published_rfc2822": "Wed, 25 Jun 2025 18:05:34 +0300",
            "_rss_guid_is_permalink": "false",
            "_rss_guid": "525",
            "_e2_data": {
                "is_favourite": false,
                "links_required": [],
                "og_images": [
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/yaschik-s-usami.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/tp----dot-plots.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/tp---range-bars.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/mary-spear-range-bar.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/tp---range-bars-vs-med.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/tp---5-points-summary.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/tp---box-plot-anatomy.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/tp---box-plots.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/nedostatok-box-plots.png"
                ]
            }
        }
    ],
    "_e2_version": 3559,
    "_e2_ua_string": "E2 (v3559; Aegea)"
}