{
    "version": "https:\/\/jsonfeed.org\/version\/1",
    "title": "Математик среди биологов: заметки с тегом статистика",
    "_rss_description": "Я немного умею складывать, но от вычитания у меня всегда кружится голова",
    "_rss_language": "ru",
    "_itunes_email": "",
    "_itunes_categories_xml": "",
    "_itunes_image": "",
    "_itunes_explicit": "",
    "home_page_url": "https:\/\/antonlyakh.ru\/blog\/tags\/statistika\/",
    "feed_url": "https:\/\/antonlyakh.ru\/blog\/tags\/statistika\/json\/",
    "icon": false,
    "author": {
        "name": "Антон Лях",
        "url": "https:\/\/antonlyakh.ru\/blog\/",
        "avatar": false
    },
    "items": [
        {
            "id": "525",
            "url": "https:\/\/antonlyakh.ru\/blog\/all\/ot-tochechnogo-grafika-k-yaschiku-s-usami\/",
            "title": "От точечного графика к ящику с усами",
            "content_html": "<div class=\"e2-text-picture\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/yaschik-s-usami.png\" width=\"800\" height=\"525\" alt=\"\" \/>\n<\/div>\n<p>Давайте рассмотрим способы компактного изображения набора числовых данных, которые позволяют увидеть его примерное распределение. Будем работать с одномерными данными, то есть с данными описанными одним значением. Для наглядности, будем показывать на графике одновременно несколько групп значений, что позволит их визуально сопоставить.<\/p>\n<p>Начнем с простого точечного графика.<\/p>\n<h2>Точечный график (dot plot)<\/h2>\n<p>На точечном графике каждое значение изображено в виде точки. Для того, чтобы точки не накладывались друг на друга, их немного сдвигают в стороны от оси графика.<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/tp----dot-plots.png\" width=\"600\" height=\"300\" alt=\"\" \/>\n<\/div>\n<p>Раньше, когда люди создавали графики вручную, высекая узоры на гранитных скалах при помощи бронзового зубила, построение точечного графика отнимало время. Тогда как очевидное упрощение точечного графика заключалось в замене полосы точек на отрезок. Открытие этого способа изображения данных произвело революцию в умах первобытных людей, привело к расцвету эпохи Возрождения и введению в научный обиход графика диапазона.<\/p>\n<h2>График диапазона (Range bar chart)<\/h2>\n<p>График выглядит как отрезок или полоса, которая простирается на весь диапазон наличествующих значений.<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/tp---range-bars.png\" width=\"600\" height=\"300\" alt=\"\" \/>\n<\/div>\n<p>Несколько расположенных рядом графиков позволяют сравнить интервалы значений. Однако вся прочая важная информация о распределении данных остается сокрытой. Так, одинаковые графики диапазонов могут упрощенно описывать совсем разные распределения: нормальное, ненормальное, биномиальное, смещенное, и эти закономерности мы не увидим.<\/p>\n<p>Так продолжалось до тех пор, пока не появилась мисс Мери (Элеонора) Спир (Mary Eleanor Spear).<\/p>\n<h2>График диапазона с медианой и квартилями<\/h2>\n<p>Мери Спир считается американским пионером визуализации данных. Она издала две книги: «Charting statistics» в 1952 году и «Practical Charting Techniques» в 1969.<\/p>\n<p>В них она подробно описала способы построения и оформления различных статистических графиков.<\/p>\n<p>На странице 166 книги «Charting statistics» она:<\/p>\n<ul>\n<li>добавила на график диапазона рисочку, показывающую положение среднего значения;<\/li>\n<li>предложила вместо среднего показывать положение медианы и двух квартилей.<\/li>\n<\/ul>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/mary-spear-range-bar.png\" width=\"660\" height=\"362\" alt=\"\" \/>\n<div class=\"e2-text-caption\">График диапазона с медианой и квартилями из книги Мери Спир «Charting statistics».<\/div>\n<\/div>\n<p>Считается, что именно эти графики впоследствии натолкнули Джона Тьюки (John Tukey) на идею построения диаграммы размаха, более известной в обиходе как «ящик с усами».<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/tp---range-bars-vs-med.png\" width=\"600\" height=\"300\" alt=\"\" \/>\n<\/div>\n<p>Но давайте, буквально на минуточку, отвлечемся от графиков и рассмотрим простой способ числового описания распределения одномерных данных.<\/p>\n<h2>Пятиточеная статистика (Five-number summary)<\/h2>\n<p>Любой набор одномерных данных можно компактно ужать до пяти числовых значений, которые очень даже неплохо опишут его суть. Эти значения включают пять основных персентилей:<\/p>\n<ul>\n<li>минимальное значение (min) — это нулевой персентиль (0%), меньше него ничего нет;<\/li>\n<li>первый квартиль (Q1) — это двадцать пятый персентиль (25%), четверть данных меньше этого значения;<\/li>\n<li>медиана или второй квартиль (med, Q2) — это пятидесятый персентиль (50%), половина данных меньше, а другая больше медианы;<\/li>\n<li>третий квартиль (Q3) — это семьдесят пятый персентиль (75%), только четверть данных больше этой величины;<\/li>\n<li>максимальное значение (max) — это сотый персентиль (100%), больше него ничего нет.<\/li>\n<\/ul>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/tp---5-points-summary.png\" width=\"600\" height=\"300\" alt=\"\" \/>\n<\/div>\n<p>Если упорядочить наши данные по возрастанию, то медиана будет находится точно посредине ряда, а первый и третий квартили точно посредине каждой половины.<\/p>\n<p>Первый и третий квартили позволяют вычислить межквартильный диапазон (IQR, inter quartile range) — в него попадет ровно 50% данных. IQR используется для (не всегда точного) выявления выбросов.<\/p>\n<p>Так вот, Джон Тьюки, насмотревший на графики мисс Спир, придумал изобразить пятиточечную статистику данных в виде пяти соединенных черточек. Так получилась  диаграмма размаха.<\/p>\n<h2>А откуда взялся ящик с усами (box plot)?<\/h2>\n<p>Это название появилось из-за внешнего вида диаграммы размаха. В центре нее находится прямоугольник, границами которого служат первый и третий квартили. Прямоугольник похож на ящик, наполненный 50% значений данных, взятых из середины набора. Внутри ящика всегда располагается медиана. Крайние значения набора данных соединены со стенками ящика отрезками, которые и называются усами.<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/tp---box-plot-anatomy.png\" width=\"600\" height=\"300\" alt=\"\" \/>\n<\/div>\n<p class=\"loud\">В русскоязычной научной среде более корректно говорить <i>диаграмма размаха.<\/i><\/p>\n<p>Чаще всего усы диаграммы размаха начинают не от крайних значений (минимума и максимума), а от границ диапазона, не содержащего выбросы. Сами выбросы рисуют за усами в виде точек.<\/p>\n<p>О том, как определить эти границы, написано в <a href=\"https:\/\/teletype.in\/@mathrocknroll\/mad-outliers-detecor\">этой заметке<\/a>.<\/p>\n<h2>Диаграмма размаха<\/h2>\n<p>Внешний вид диаграммы размаха сообщает несколько важных вещей:<\/p>\n<ul>\n<li>диапазон изменения значений,<\/li>\n<li>положение медианы — центра данных,<\/li>\n<li>симметричность распределения.<\/li>\n<\/ul>\n<p>Расположив рядом несколько диаграмм размаха, мы можем оценить, насколько сильно данные перекрываются.<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/tp---box-plots.png\" width=\"600\" height=\"300\" alt=\"\" \/>\n<\/div>\n<p>Если медиана одной диаграммы выходит за границы ящика второй диаграммы, то данные будут статистически достоверно отличаться. В иных случаях необходимо выявлять отличия тестами.<\/p>\n<p>Если диаграмма размаха симметричная, медиана находится посредине ящика, усы равной длины и по длине совпадают с длиной ящика, значит кривая распределения данных имеет куполообразную форму и, скорее всего, данные распределены нормально. (Но это не точно.)<\/p>\n<p>А вот если медиана смещена от центра ящика либо длина усов разная, значит распределение в данных ассиметрично. Причем, чем сильнее смещена медиана к краю ящика, тем ближе данные сгруппированы к одному из крайних значений. И чем длиннее один из усов, тем длиннее хвост данных, то есть те значения, которые сильно отличаются от большинства.<\/p>\n<h2>Недостаток диаграммы размаха<\/h2>\n<p>Диаграмма размаха хорошо показывает разброс и симметричность значений данных, но плохо передает форму распределения. Поэтому возможна ситуация, когда полностью идентичные диаграммы размаха описывают абсолютно разные распределения данных.<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/nedostatok-box-plots.png\" width=\"567\" height=\"493\" alt=\"\" \/>\n<\/div>\n<p>Исправить это досадное недоразумение помогают многочисленные вариации диаграмм размаха, о которых мы поговорим в другой раз.<\/p>\n",
            "date_published": "2025-06-25T18:05:34+03:00",
            "date_modified": "2025-06-25T18:04:59+03:00",
            "image": "https:\/\/antonlyakh.ru\/blog\/pictures\/yaschik-s-usami.png",
            "_date_published_rfc2822": "Wed, 25 Jun 2025 18:05:34 +0300",
            "_rss_guid_is_permalink": "false",
            "_rss_guid": "525",
            "_e2_data": {
                "is_favourite": false,
                "links_required": [],
                "og_images": [
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/yaschik-s-usami.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/tp----dot-plots.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/tp---range-bars.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/mary-spear-range-bar.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/tp---range-bars-vs-med.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/tp---5-points-summary.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/tp---box-plot-anatomy.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/tp---box-plots.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/nedostatok-box-plots.png"
                ]
            }
        },
        {
            "id": "497",
            "url": "https:\/\/antonlyakh.ru\/blog\/all\/matpop-rok-n-roll-neobychnaya-matematika-dostupnym-yazykom\/",
            "title": "Математический рок-н-ролл — регулярные заметки о необычной математике доступным языком",
            "content_html": "<div class=\"e2-text-picture\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/slon.png\" width=\"1000\" height=\"1000\" alt=\"\" \/>\n<div class=\"e2-text-caption\">Фотограф Лукас Холас. Серия «Портреты животных».<\/div>\n<\/div>\n<p class=\"lead\"><b><a href=\"https:\/\/teletype.in\/@mathrocknroll\">Математический рок-н-ролл<\/a><\/b><\/p>\n<p>За последние несколько месяцев я опубликовал более 30 классных популярных математических заметок для ВК канала «<a href=\"https:\/\/vk.com\/mathhedgehog\">Ежик в матане<\/a>». Но ленточное устройство ВК оставляет их активным сутки, иногда чуть больше, после чего они канут в Лету, то есть становятся практически недоступными. Это неудобно.<\/p>\n<p>Чтобы избежать потери заметок, начинаю переносить их в Телетайп, в блог <i>«Матеатический рок-н-ролл».<\/i><\/p>\n<p><br\/><\/p>\n<ol start=\"1\">\n<li>Теперь посты будут всегда доступными, пока существует Телетайп)<\/li>\n<li>Блог в Телетайпе содержит уникальные заметки, посвященные необычной математике, описанной доступным языком.<\/li>\n<li>За заметки вы можете меня <b>поблагодарить донатом.<\/b> Это поможет написать новые посты.<\/li>\n<\/ol>\n<p><br\/><\/p>\n<p>Первый пост называется <i>«<a href=\"https:\/\/teletype.in\/@mathrocknroll\/vika-i-raznye-srednie\">Оценка средних и карьера Вики<\/a>»<\/i>. Он содержит краткий обзор различных средних значений.<\/p>\n<p><a href=\"https:\/\/teletype.in\/@mathrocknroll\/vika-i-raznye-srednie\"><img src=\"https:\/\/img4.teletype.in\/files\/34\/fa\/34fabe1a-9085-4527-8457-ced45b750659.jpeg\"><\/a><\/p>\n<p>Это была моя самая первая заметка для «Ежика», благодаря которой стал одни из его пишущих редакторов.<\/p>\n<p><br\/><\/p>\n<p>Заходите. Будет интересно.<\/p>\n<p><b><a href=\"https:\/\/teletype.in\/@mathrocknroll\">Математический рок-н-ролл<\/a><\/b><\/p>\n<p><br\/><\/p>\n",
            "date_published": "2024-08-03T16:50:05+03:00",
            "date_modified": "2024-08-18T13:04:36+03:00",
            "image": "https:\/\/antonlyakh.ru\/blog\/pictures\/slon.png",
            "_date_published_rfc2822": "Sat, 03 Aug 2024 16:50:05 +0300",
            "_rss_guid_is_permalink": "false",
            "_rss_guid": "497",
            "_e2_data": {
                "is_favourite": false,
                "links_required": [],
                "og_images": [
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/slon.png"
                ]
            }
        },
        {
            "id": "469",
            "url": "https:\/\/antonlyakh.ru\/blog\/all\/obekt-i-priznaki-obekta-v-biologicheskoy-statistike\/",
            "title": "Объект и признаки объекта в биологической статистике",
            "content_html": "<p class=\"loud\">Базовые понятия необходимые для полноценного восприятия заметок об <a href=\"https:\/\/antonlyakh.ru\/blog\/tags\/analiz-dannyh\/\">анализе биологических данных<\/a>.<\/p>\n<p><br\/><\/p>\n<p><i>N. B.<\/i> Нет такой дисциплины, как биологическая статистика. Статистика везде одинаковая, что в биологии, что в физике, что в лингвистике. А в заголовке она упомянута, чтобы подчеркнуть, что эта заметка, в первую очередь, предназначеная для биологов. Также поступают авторы соответствующих изданий: в названии они показывают, для какой аудитории предназначены их книги, и используют в тексте упрощения (минимум спец. символов и сложных формул в изданиях для биологов) или усложнения (доказательства теорем и выводы формул в изданиях для физиков).<\/p>\n<p><br\/><\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/blog---20230429_145458.png\" width=\"1000\" height=\"600\" alt=\"\" \/>\n<div class=\"e2-text-caption\">Вид Южного берега Крыма<br \/>\n<br\/><\/div>\n<\/div>\n<h3>Основные понятия<\/h3>\n<p><b>Сырые данные<\/b><br \/>\n<i>Сырыми<\/i> назваются исходные непреобразованные данные. Это первичный материал как он есть, полученный в ходе наблюдений или эксперимента. Сырые данные считаются наиболее ценными, так как позволяют любому перепроверить результаты анализа или провести на их основе собственные исследования.<\/p>\n<p><b>Объект и признаки<\/b><br \/>\n<i>Объект<\/i> — это то, что мы исследуем. Например, численность разных видов в сообществе, обилие вида в разных районах, совокупность абиотических и биотических характеристик в точке, признаки форм тела представителя вида, характеристики траектории движения микроорганизма.<\/p>\n<p><i>Признаки объекта<\/i> — это набор числовых значений, которые его описывают. Например:<\/p>\n<ul>\n<li>объект <i>численность видов сообщества в заданном районе<\/i> описывается набором, состоящим из численности вида А, вида Б, вида В и т. д.<\/li>\n<li>объект <i>обилие вида в разных районах<\/i> описывается набором, который содержит обилие вида в районе А, в районе Б, в районе В и т. д.<\/li>\n<li>объект <i>совокупность абиотических и биотических характеристик<\/i> описывает значения этих характеристик в конкретной точке: значение характеристики А, характеристики Б, характеристики В и т. д.<\/li>\n<li>объект <i>признаки формы тела представителя вида<\/i> описывает особенностями формы особи, выраженные какими-то числами, например — размерами: размер А, размер Б, размер В и т. д.<\/li>\n<li>объект <i>характеристики траектории движения микроорганизма<\/i> описывает какие-то показатели траекторий, например: среднюю скорость, спрямленность, средний азимут движения и т. д.<\/li>\n<\/ul>\n<p class=\"loud\">С математической точки зрения признаки объекта — это вектор числовых или иных значений: текстовых, логических, прочих.<\/p>\n<p><b>Позиция признаков<\/b><br \/>\n<i>Позиция каждого признака в векторе строго фиксирована<\/i> и ее нельзя изменить. Например, в признаках объектов <i>сообщество X<\/i> и <i>сообщество Y<\/i> на первом месте должна всегда стоять численность вида <i>А,<\/i> затем вида <i>Б,<\/i> потом <i>В<\/i>, — и их нельзя поменять местами. То же самое с объектами <i>форма особи X, Y<\/i> и <i>Z:<\/i> их вектора признаков должны на первом месте содержать размер <i>А,<\/i> потом <i>Б,<\/i> потом <i>В<\/i> и не иначе.<\/p>\n<p><br\/><br \/>\n<b id=\"data-matrix\">Матрица данных<\/b><br \/>\nОбъекты и их признаки хранят в таблице — матрице. В большинстве статистических программ считается, что объекты хранятся в строках, а признаки — в столбцах. Это нужно помнить, когда вы формируете матрицу данных.<\/p>\n<p class=\"loud\">Обычно объекты — это строки, признаки — это столбцы матрицы данных.<\/p>\n<p>Первая колонка матрицы данных часто содержит названия объектов, а первая строка — названия признаков.<\/p>\n<p><br\/><\/p>\n<p><b>Нулевые и отсутствующие признаки<\/b><br \/>\n<i>Следует различать нулевое и отсутствующее значения признака.<\/i> Когда значение какого-то признака объекта не известно, в векторе признаков в этой позиции ставят специальный символ отсутствия данных (это может быть просто пустое место), а ноль пишут только, когда зачение действительно равно нулю.<\/p>\n<p class=\"loud\">Когда значение признака нулевое — пишем ноль, а когде оно не известно — пишем специальный символ отсутствия данных.<\/p>\n<p>Например, если вид А отсутствовал в заданной пробе, то в качестве значения численности мы пишем 0, а если он был, но численность его мы не измерили, то есть она не известна, то в качестве значения мы пишем символ отсутствия данных.<\/p>\n<p>Узнайте в документации к статистической программе, какой символ используется для указания отсутствующих данных.<\/p>\n<p><br\/><\/p>\n<h3>Дополнительное чтение<\/h3>\n<p><a href=\"http:\/\/www.machinelearning.ru\/wiki\/index.php?title=Признаковое_описание\">Признаковое описание объекта<\/a> на сайте machinelearning.ru.<\/p>\n<p>«<i>Матрица „объекты × признаки“ является стандартным и наиболее распространённым способом представления исходных данных в задачах классификации и регрессии. Подавляющее большинство методов обучения приспособлены к обработке именно таких данных. Однако на практике встречаются задачи, в которых данные устроены сложнее. [...] В таких случаях по имеющимся исходным данным вычисляются некоторые признаки, что позволяет привести данные к стандартному матричному виду. Этот прием называется<\/i> извлечением признаков из данных (features extraction) <i>или<\/i> генерацией признаков (features generation).»<\/p>\n<p>«<i>Любой алгоритм регрессии или классификации также может рассматриваться в роли признака. Хотя это наблюдение тривиально, оно дает ключ к построению суперпозиций или композиций алгоритмов. Всегда имеется возможность, построив один или несколько алгоритмов, присоединить их к признаковому описанию в роли новых признаков и использовать при построении следующего алгоритма.<\/i>»<\/p>\n<p><br\/><\/p>\n<hr \/>\n<p>Если после прочтения этой прекрасной заметки вам вдруг непреодолимо захотелось меня поблагодарить, переведите мне 200 руб. на круасан с чаем. А я пока напишу что-то новенькое.<\/p>\n<iframe src=\"https:\/\/yoomoney.ru\/quickpay\/fundraise\/button?billNumber=wfB4EAHx4LE.231103&\" width=\"330\" height=\"50\" frameborder=\"0\" allowtransparency=\"true\" scrolling=\"no\"><\/iframe>\n<p>​<\/p>\n",
            "date_published": "2023-05-28T15:53:46+03:00",
            "date_modified": "2023-11-26T14:03:11+03:00",
            "image": "https:\/\/antonlyakh.ru\/blog\/pictures\/blog---20230429_145458.png",
            "_date_published_rfc2822": "Sun, 28 May 2023 15:53:46 +0300",
            "_rss_guid_is_permalink": "false",
            "_rss_guid": "469",
            "_e2_data": {
                "is_favourite": true,
                "links_required": [],
                "og_images": [
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/blog---20230429_145458.png"
                ]
            }
        },
        {
            "id": "423",
            "url": "https:\/\/antonlyakh.ru\/blog\/all\/dispersionny-analiz-srednih-dlin-rakovin-mollyuskov\/",
            "title": "Дисперсионный анализ средних длин раковин моллюсков",
            "content_html": "<p>Коллега попросил помочь с выполнение дисперсионного анализа. Рассказываю, что получилось.<\/p>\n<p>У нас есть три ряда длин раковин моллюсков, полученные в три разных года: 1981, 1998 и 2012. Мы хотим узнать, есть ли статистически достоверное различие между средними длинами в каждый период или нет? Расскажу, как это сделать.<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/Ishodnye-dannye.png\" width=\"304\" height=\"336\" alt=\"\" \/>\n<div class=\"e2-text-caption\">Фрагмент исходных данных<\/div>\n<\/div>\n<p>Сначала посмотрим на <i>статистическое описание данных.<\/i><\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/Opisatelnaya-statistika.png\" width=\"469\" height=\"175\" alt=\"\" \/>\n<\/div>\n<p>Средние и медианы неплохо отличаются, наверное различия все-таки есть.<\/p>\n<p>Потом построим <i>диаграммы размахов,<\/i> в простонародье — <i>ящики с усами.<\/i><\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/Diagrammy-rasseyaniya.png\" width=\"514\" height=\"383\" alt=\"\" \/>\n<\/div>\n<p>Второй и третий ящики практически полностью пересекаются с первым. Значит различия недостоверны?<\/p>\n<p>Теперь попробуем попарно сравнить средние при помощи <i>t-теста стьюдента:<\/i> первое со вторым, второе с третьим и третье с первым. Наши данные независимы, потому что мы каждый раз измеряли разных моллюсков. Значит применим t-тест для независимых выборок. Но предварительно проверим данные на нормальность. Если выборки имеют нормальное распределение, используем t-тест. Если ненормальное, <a href=\"https:\/\/antonlyakh.ru\/blog\/all\/knigi-o-dispersionnom-analize\/#mastickiy-statistica\">прочитаем Сергея Мастицкого<\/a> (стр. 36):<\/p>\n<blockquote>\n<p>Если значение распределены ненормально, применение параметрического t-теста будет часто приводить к искаженным результатам. В таких случаях следует воспользоваться непараметрическим аналогом теста стьюдента. Например можно использовать u-тест манна-уитни.<\/p>\n<\/blockquote>\n<p>Вперед.<\/p>\n<div class=\"e2-text-picture\">\n<div class=\"fotorama\" data-width=\"579\" data-ratio=\"2.8522167487685\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/t-test-1981-1998.png\" width=\"579\" height=\"203\" alt=\"\" \/>\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/t-test-2012-1998.png\" width=\"579\" height=\"203\" alt=\"\" \/>\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/t-test-2012-1981.png\" width=\"579\" height=\"203\" alt=\"\" \/>\n<\/div>\n<div class=\"e2-text-caption\">Попарные сравнения u-тестом манна-уитни<\/div>\n<\/div>\n<p>Попарные сравнения показали отличия средних.<\/p>\n<p>А теперь читаем книгу Мастицкого уже на стр. 43:<\/p>\n<blockquote>\n<p>Тесть стьюдента и его непараметрические аналоги предназначены для сравнения <i>исключительно двух выборок.<\/i> Очень часто исследователи допускают ошибку: используют t-тест для попарных сравнений более двух выборок.<\/p>\n<\/blockquote>\n<p>Надо же, оказывается мы допустили частую ошибку статистических профанов. И как нам быть?<\/p>\n<blockquote>\n<p>Для избежания данной ошибки необходимо использовать дисперсионный анализ.<\/p>\n<\/blockquote>\n<p>Алилуя! Но теперь надо прочитать <a href=\"https:\/\/antonlyakh.ru\/blog\/all\/knigi-o-dispersionnom-analize\/\">хорошие книги о дисперсионном анализе<\/a>?<\/p>\n<p>Нет, совсем не обязательно. Автоматизация статистических вычислений, в настоящее время, достигла таких высот, что вам всего лишь нужно нажать правильные кнопки. Все остальное сделает машина. Например так работает Сигмаплот. Он сам проверит данные на нормальность и выберет правильный тип дисперсионного анализа.<\/p>\n<p>Наши данные оказались ненормальными, поэтому Сигмаплот предложил <i>непараметрический дисперсионный анализ крускала-уолиса (H-тест)<\/i> и объяснил полученные результаты.<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/kruskal-wallis-anova.png\" width=\"579\" height=\"376\" alt=\"\" \/>\n<\/div>\n<p>Если бы мы воспользовались Статистикой или Эр, нам пришлось бы интерпретировать полученные цифры. Для этого следует хорошо разобраться в дисперсионном анализе и сопутствующих методах. То есть пройти хороший курс биометрии.<\/p>\n<p>Но тот-кто-знает, что «<a href=\"https:\/\/designershandbook.ru\/term\/interface-evil\">интерфейс — зло<\/a>» и «<a href=\"https:\/\/maximilyahov.ru\/blog\/all\/must-sweat\/\">потеть должна машина<\/a>», тот выберет способ «нажал на кнопку и получил развернутый ответ». Мозги, в этом случае, пригодятся для интерпретации ответа.<\/p>\n<p><img src=\"https:\/\/img.artlebedev.ru\/kovodstvo\/sections\/153\/lebedev-pyramid.gif\" title=\"Пирамида Лебедева\"\/><br\/><small><a href=\"https:\/\/www.artlebedev.ru\/kovodstvo\/sections\/153\/\">Пирамида Лебедева<\/a><\/small><\/p>\n<p>Выбирайте сами. И, да — это не реклама Сигмаплота. Просто мне понравилось, как он интерпретировал результат.<\/p>\n<p>Книги, в любом случае, читать полезно.<\/p>\n",
            "date_published": "2021-03-27T00:00:31+03:00",
            "date_modified": "2022-11-06T00:00:43+03:00",
            "image": "https:\/\/antonlyakh.ru\/blog\/pictures\/Ishodnye-dannye.png",
            "_date_published_rfc2822": "Sat, 27 Mar 2021 00:00:31 +0300",
            "_rss_guid_is_permalink": "false",
            "_rss_guid": "423",
            "_e2_data": {
                "is_favourite": true,
                "links_required": [
                    "system\/library\/jquery\/jquery.js",
                    "system\/library\/fotorama\/fotorama.css",
                    "system\/library\/fotorama\/fotorama.js"
                ],
                "og_images": [
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/Ishodnye-dannye.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/Opisatelnaya-statistika.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/Diagrammy-rasseyaniya.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/t-test-1981-1998.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/t-test-2012-1998.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/t-test-2012-1981.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/kruskal-wallis-anova.png"
                ]
            }
        },
        {
            "id": "421",
            "url": "https:\/\/antonlyakh.ru\/blog\/all\/knigi-o-dispersionnom-analize\/",
            "title": "Книги о дисперсионном анализе",
            "content_html": "<p>М. попросила проверить, достоверно ли различие между длинами раковин моллюсков? Причем с помощью дисперсионного анализа. А я, как это бывает, позабыл как его выполнить. Чтобы вспомнить, принялся читать книги. И родился у меня рейтинг прочитанного.<\/p>\n<p>Не мудрствуя лукаво, разделил книги на две категории: многоразовые — к которым буду обращаться и перечитывать, и одноразовые — пролистал и выбросил в корзину.<\/p>\n<h2>Многоразовые книги<\/h2>\n<div id=\"mastickiy-statistica\"><\/div><div class=\"e2-text-picture\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/macnbwrbq.png\" width=\"300\" height=\"425\" alt=\"\" \/>\n<\/div>\n<p><i><b>Мастицкий С. Э. (2009)<\/b> Методическое пособие по использовании программы Statistica при обработке данных биологических исследований.<\/i> Минск: Ин-т рыбного хозяйства.<\/p>\n<blockquote>\n<p><b>Прекрасное руководство для прикладных статистов.<\/b><\/p>\n<\/blockquote>\n<blockquote>\n<p>Автор кратко описывает для каких рядов данных подходит тот или иной прием и рассказывает, как их выполнить в «Статистике». Книга полезна, даже если вы не используете «Статистику».<\/p>\n<\/blockquote>\n<p><hr\/><br \/>\n<br\/><br\/><\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/Lyubischev---Dispersionny-analiz.png\" width=\"300\" height=\"454\" alt=\"\" \/>\n<\/div>\n<p><i><b>Любищев А. А. (1986)<\/b> Дисперсионный анализ в биологии.<\/i> М.: Изд-во Моск. ун-та.<\/p>\n<blockquote>\n<p><b>О том как планировать эксперименты и интерпретировать результаты без помощи компьютера.<\/b><\/p>\n<\/blockquote>\n<blockquote>\n<p>Книга написана в середине 20-го века. Написано легко, с разбором многочисленных примеров и методикой ручных вычислений. Буду не раз к ней возвращаться.<\/p>\n<\/blockquote>\n<div class=\"e2-text-picture\">\n<div class=\"fotorama\" data-width=\"800\" data-ratio=\"1.25\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/Lyubischev---primer-0.png\" width=\"800\" height=\"640\" alt=\"\" \/>\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/Lyubischev---primer.png\" width=\"800\" height=\"600\" alt=\"\" \/>\n<\/div>\n<\/div>\n<p><hr\/><br \/>\n<br\/><br\/><\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/Plohinskiy---oblozhka.png\" width=\"400\" height=\"588\" alt=\"\" \/>\n<\/div>\n<p><i><b>Плохинский Н. А. (1960)<\/b> Дисперсионный анализ.<\/i> Новосибирск: Изд-во СО АН СССР.<\/p>\n<blockquote>\n<p><b>Дисперсионный анализ на бумаге.<\/b><\/p>\n<\/blockquote>\n<blockquote>\n<p>Ясно и прекрасно.<\/p>\n<\/blockquote>\n<div class=\"e2-text-picture\">\n<div class=\"fotorama\" data-width=\"400\" data-ratio=\"0.64935064935065\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/Plohinskiy---primer-1.png\" width=\"400\" height=\"616\" alt=\"\" \/>\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/Plohinskiy---primer-2.png\" width=\"400\" height=\"614\" alt=\"\" \/>\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/Plohinskiy---primer-3.png\" width=\"400\" height=\"614\" alt=\"\" \/>\n<\/div>\n<\/div>\n<p><hr\/><br \/>\n<br\/><br\/><\/p>\n<h2>Одноразовые книги<\/h2>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/Arens-Leyter-(1985)-Mnogomerny-dispersionny-analiz.png\" width=\"300\" height=\"459\" alt=\"\" \/>\n<\/div>\n<p><i><b>Аренс Х., Лёйтер Ю. (1985)<\/b> Многомерный дисперсионный анализ<\/i> \/ Пер. с немецкого. М.: Финансы и статистика.<\/p>\n<blockquote>\n<p><b>Полезно, кратко, по делу.<\/b><\/p>\n<\/blockquote>\n<blockquote>\n<p>Книга попала в одноразовые, потому что ее основная аудитория — программисты, которые собираются писать софт для стат. анализа с нуля.<\/p>\n<\/blockquote>\n<div class=\"e2-text-picture\">\n<div class=\"fotorama\" data-width=\"400\" data-ratio=\"0.63191153238547\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/Arens-Leyter-(1985)-Blok-shema-mnogomernogo-disp-i-diskr-analizov.png\" width=\"400\" height=\"633\" alt=\"\" \/>\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/Arens-Leyter-(1985)-Primer-formul---2.png\" width=\"400\" height=\"329\" alt=\"\" \/>\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/Arens-Leyter-(1985)-Primer-formul.png\" width=\"400\" height=\"323\" alt=\"\" \/>\n<\/div>\n<\/div>\n<p><hr\/><br \/>\n<br\/><br\/><\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/Markova-i-dr-(1982)---Dispers-analiza-na-EVM.png\" width=\"300\" height=\"457\" alt=\"\" \/>\n<\/div>\n<p><i><b>Маркова Е. В., Денисов В. И., Полетаева И. А., Пономарев В. В. (1982)<\/b> Дисперсионный анализ и синте планов на ЭВМ.<\/i> М.: Наука.<\/p>\n<blockquote>\n<p><b>За деревьями леса не видно.<\/b><\/p>\n<\/blockquote>\n<blockquote>\n<p>Много деталей, но не всегда ясна суть. Ориентирована на программистов, на что и указывает название.<\/p>\n<\/blockquote>\n<div class=\"e2-text-picture\">\n<div class=\"fotorama\" data-width=\"400\" data-ratio=\"0.60422960725076\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/Markova-i-dr-(1982)---primer-2.png\" width=\"400\" height=\"662\" alt=\"\" \/>\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/Markova-i-dr-(1982)---primer.png\" width=\"400\" height=\"655\" alt=\"\" \/>\n<\/div>\n<\/div>\n<p><hr\/><br \/>\n<br\/><br\/><\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/Sheffe-(1980)-Disp-analiz.gif\" width=\"300\" height=\"468\" alt=\"\" \/>\n<\/div>\n<p><i><b>Шеффе Г. (1980)<\/b> Дисперсионный анализ<\/i> \/ Пер. с английского. Изд. второе. М.: Наука. Гл. ред. физ.-мат. лит-ры.<\/p>\n<blockquote>\n<p><b>Сложно, для истинных математиков.<\/b><\/p>\n<\/blockquote>\n<blockquote>\n<p>Книга переполнена формулами, определениями и доказательствами. Написана для математиков, которые хотят досконально во всем разобраться и, возможно, сделать лучше. Остальные не увидят здесь сути анализа.<\/p>\n<\/blockquote>\n<div class=\"e2-text-picture\">\n<div class=\"fotorama\" data-width=\"400\" data-ratio=\"0.63694267515924\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/Sheffe-(1980)---primer.png\" width=\"400\" height=\"628\" alt=\"\" \/>\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/Sheffe-(1980)---primer-2.png\" width=\"400\" height=\"628\" alt=\"\" \/>\n<\/div>\n<\/div>\n<p><hr\/><br \/>\n<br\/><br\/><\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/Yakovlev-Yakovleva-(2015)---Oblozhka.png\" width=\"300\" height=\"446\" alt=\"\" \/>\n<\/div>\n<p><i><b>Яковлев В., Яковлева О. (2015) <\/b>Дисперсионный анализ в Excel<\/i>. Lap Lambert Acad. Publ.<\/p>\n<blockquote>\n<p><b>Хрень полная.<\/b><\/p>\n<\/blockquote>\n<blockquote>\n<p>Не тратьте время — выбрасывайте в корзину, не читая.<\/p>\n<\/blockquote>\n<div class=\"e2-text-picture\">\n<div class=\"fotorama\" data-width=\"400\" data-ratio=\"1.0810810810811\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/Yakovlev-(2015)---Uboy-bychkov.png\" width=\"400\" height=\"370\" alt=\"\" \/>\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/Yakovlev-(2015)---Schelknite-OK.png\" width=\"400\" height=\"345\" alt=\"\" \/>\n<\/div>\n<\/div>\n<p><hr\/><br \/>\n<br\/><br\/><\/p>\n<p>Рейтинг отражает мое лично впечатление от указанных книг. Ваше мнение может быть другим.<\/p>\n<p><br\/><br\/><\/p>\n<p>Читайте книги.<\/p>\n",
            "date_published": "2021-03-12T21:58:49+03:00",
            "date_modified": "2021-03-26T23:31:28+03:00",
            "image": "https:\/\/antonlyakh.ru\/blog\/pictures\/macnbwrbq.png",
            "_date_published_rfc2822": "Fri, 12 Mar 2021 21:58:49 +0300",
            "_rss_guid_is_permalink": "false",
            "_rss_guid": "421",
            "_e2_data": {
                "is_favourite": true,
                "links_required": [
                    "system\/library\/jquery\/jquery.js",
                    "system\/library\/fotorama\/fotorama.css",
                    "system\/library\/fotorama\/fotorama.js",
                    "system\/library\/jquery\/jquery.js",
                    "system\/library\/fotorama\/fotorama.css",
                    "system\/library\/fotorama\/fotorama.js",
                    "system\/library\/jquery\/jquery.js",
                    "system\/library\/fotorama\/fotorama.css",
                    "system\/library\/fotorama\/fotorama.js",
                    "system\/library\/jquery\/jquery.js",
                    "system\/library\/fotorama\/fotorama.css",
                    "system\/library\/fotorama\/fotorama.js",
                    "system\/library\/jquery\/jquery.js",
                    "system\/library\/fotorama\/fotorama.css",
                    "system\/library\/fotorama\/fotorama.js",
                    "system\/library\/jquery\/jquery.js",
                    "system\/library\/fotorama\/fotorama.css",
                    "system\/library\/fotorama\/fotorama.js"
                ],
                "og_images": [
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/macnbwrbq.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/Lyubischev---Dispersionny-analiz.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/Lyubischev---primer-0.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/Lyubischev---primer.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/Plohinskiy---oblozhka.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/Plohinskiy---primer-1.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/Plohinskiy---primer-2.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/Plohinskiy---primer-3.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/Arens-Leyter-(1985)-Mnogomerny-dispersionny-analiz.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/Arens-Leyter-(1985)-Blok-shema-mnogomernogo-disp-i-diskr-analizov.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/Arens-Leyter-(1985)-Primer-formul---2.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/Arens-Leyter-(1985)-Primer-formul.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/Markova-i-dr-(1982)---Dispers-analiza-na-EVM.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/Markova-i-dr-(1982)---primer-2.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/Markova-i-dr-(1982)---primer.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/Sheffe-(1980)-Disp-analiz.gif",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/Sheffe-(1980)---primer.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/Sheffe-(1980)---primer-2.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/Yakovlev-Yakovleva-(2015)---Oblozhka.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/Yakovlev-(2015)---Uboy-bychkov.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/Yakovlev-(2015)---Schelknite-OK.png"
                ]
            }
        },
        {
            "id": "325",
            "url": "https:\/\/antonlyakh.ru\/blog\/all\/vopros-otvet-kratko-o-doveritelnom-intervale\/",
            "title": "Вопрос-ответ. Кратко о доверительном интервале",
            "content_html": "<p>Коллега спросила:<\/p>\n<blockquote>\n<p>скажи мне простыми словами, что показывает доверительный интервал.  Что значит <nobr>13493 ± 192<\/nobr>, где 13493 — это число животных на метр квадратный, а 192 — это доверительный интервал.<\/p>\n<\/blockquote>\n<p>Отвечаю.<\/p>\n<p>Все количественные оценки в биологии — вероятностные. Это значит, что приведенное значение 13,5 тыс. животных на метр квадратный, с некоторой вероятностью описывает реальное кол-во животных на данной площади. Не факт, что на соседних площадках их будет столько же, но если исследована достаточно большая площадь, то в среднем эта величина неплоха.<\/p>\n<p>Доверительный интервал — это еще одна вероятностная величина. Он показывает границы диапазона, в который с вероятностью (обычно) 95% попадет среднее значение при выборе иных исследуемых площадок. То есть, вот ты исследовала один участок, нашла среднее значение организмов и посчитала дов. интервал. Так вот, если ты исследуешь другой соседний участок и найдешь среднее число животных на нем, то с вероятностью 95% эта средняя величина будет находиться в интервале: 13301=13493-192 и 13685=13493+192.<\/p>\n<p>Кстати, я бы не стал с такой точностью приводит среднее, а округлил бы его до 13,5 тыс. ± 200.<\/p>\n",
            "date_published": "2020-02-06T18:32:38+03:00",
            "date_modified": "2020-02-06T18:32:52+03:00",
            "_date_published_rfc2822": "Thu, 06 Feb 2020 18:32:38 +0300",
            "_rss_guid_is_permalink": "false",
            "_rss_guid": "325",
            "_e2_data": {
                "is_favourite": true,
                "links_required": [],
                "og_images": []
            }
        },
        {
            "id": "78",
            "url": "https:\/\/antonlyakh.ru\/blog\/all\/vypolnenie-er-skriptov-na-php\/",
            "title": "Выполнение R скриптов на ПХП",
            "content_html": "<p>Надо выполнить сложные статистические вычисления с помощью ПХП. Писать свои модули сложно, долго и бессмысленно. Придумал интегрироваться с <a href=\"https:\/\/www.r-project.org\/\">Эр<\/a>.<\/p>\n<p><a href=\"https:\/\/github.com\/kachkaev\/php-r\">Библиотека <b>php-r<\/b><\/a> Александра Качкаева позволяет выполнять скрипты Эр на ПХП. Примеры убедительны, но сам еще не пробовал.<\/p>\n<p>У кого есть опыт работы с php-r?<\/p>\n<p>С какими другими модулями для выполнения многомерных статистических расчетов на ПХП вы знакомы (дискриминантный анализ, кластерный анализ, ординационный анализ)?<\/p>\n",
            "date_published": "2016-09-01T17:22:55+03:00",
            "date_modified": "2023-11-22T15:13:50+03:00",
            "_date_published_rfc2822": "Thu, 01 Sep 2016 17:22:55 +0300",
            "_rss_guid_is_permalink": "true",
            "_rss_guid": "https:\/\/antonlyakh.ru\/blog\/all\/vypolnenie-er-skriptov-na-php\/",
            "_e2_data": {
                "is_favourite": false,
                "links_required": [],
                "og_images": []
            }
        }
    ],
    "_e2_version": 3559,
    "_e2_ua_string": "E2 (v3559; Aegea)"
}