<?xml version="1.0" encoding="utf-8"?> 
<rss version="2.0"
  xmlns:itunes="http://www.itunes.com/dtds/podcast-1.0.dtd"
  xmlns:atom="http://www.w3.org/2005/Atom">

<channel>

<title>Математик среди биологов: заметки с тегом статистика</title>
<link>https://antonlyakh.ru/blog/tags/statistika/</link>
<description>Я немного умею складывать, но от вычитания у меня всегда кружится голова</description>
<author>Антон Лях</author>
<language>ru</language>
<generator>E2 (v3559; Aegea)</generator>

<itunes:owner>
<itunes:name>Антон Лях</itunes:name>
<itunes:email></itunes:email>
</itunes:owner>
<itunes:subtitle>Я немного умею складывать, но от вычитания у меня всегда кружится голова</itunes:subtitle>
<itunes:image href="" />
<itunes:explicit></itunes:explicit>

<item>
<title>От точечного графика к ящику с усами</title>
<guid isPermaLink="false">525</guid>
<link>https://antonlyakh.ru/blog/all/ot-tochechnogo-grafika-k-yaschiku-s-usami/</link>
<pubDate>Wed, 25 Jun 2025 18:05:34 +0300</pubDate>
<author>Антон Лях</author>
<comments>https://antonlyakh.ru/blog/all/ot-tochechnogo-grafika-k-yaschiku-s-usami/</comments>
<description>
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/yaschik-s-usami.png" width="800" height="525" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Давайте рассмотрим способы компактного изображения набора числовых данных, которые позволяют увидеть его примерное распределение. Будем работать с одномерными данными, то есть с данными описанными одним значением. Для наглядности, будем показывать на графике одновременно несколько групп значений, что позволит их визуально сопоставить.&lt;/p&gt;
&lt;p&gt;Начнем с простого точечного графика.&lt;/p&gt;
&lt;h2&gt;Точечный график (dot plot)&lt;/h2&gt;
&lt;p&gt;На точечном графике каждое значение изображено в виде точки. Для того, чтобы точки не накладывались друг на друга, их немного сдвигают в стороны от оси графика.&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/tp----dot-plots.png" width="600" height="300" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Раньше, когда люди создавали графики вручную, высекая узоры на гранитных скалах при помощи бронзового зубила, построение точечного графика отнимало время. Тогда как очевидное упрощение точечного графика заключалось в замене полосы точек на отрезок. Открытие этого способа изображения данных произвело революцию в умах первобытных людей, привело к расцвету эпохи Возрождения и введению в научный обиход графика диапазона.&lt;/p&gt;
&lt;h2&gt;График диапазона (Range bar chart)&lt;/h2&gt;
&lt;p&gt;График выглядит как отрезок или полоса, которая простирается на весь диапазон наличествующих значений.&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/tp---range-bars.png" width="600" height="300" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Несколько расположенных рядом графиков позволяют сравнить интервалы значений. Однако вся прочая важная информация о распределении данных остается сокрытой. Так, одинаковые графики диапазонов могут упрощенно описывать совсем разные распределения: нормальное, ненормальное, биномиальное, смещенное, и эти закономерности мы не увидим.&lt;/p&gt;
&lt;p&gt;Так продолжалось до тех пор, пока не появилась мисс Мери (Элеонора) Спир (Mary Eleanor Spear).&lt;/p&gt;
&lt;h2&gt;График диапазона с медианой и квартилями&lt;/h2&gt;
&lt;p&gt;Мери Спир считается американским пионером визуализации данных. Она издала две книги: «Charting statistics» в 1952 году и «Practical Charting Techniques» в 1969.&lt;/p&gt;
&lt;p&gt;В них она подробно описала способы построения и оформления различных статистических графиков.&lt;/p&gt;
&lt;p&gt;На странице 166 книги «Charting statistics» она:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;добавила на график диапазона рисочку, показывающую положение среднего значения;&lt;/li&gt;
&lt;li&gt;предложила вместо среднего показывать положение медианы и двух квартилей.&lt;/li&gt;
&lt;/ul&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/mary-spear-range-bar.png" width="660" height="362" alt="" /&gt;
&lt;div class="e2-text-caption"&gt;График диапазона с медианой и квартилями из книги Мери Спир «Charting statistics».&lt;/div&gt;
&lt;/div&gt;
&lt;p&gt;Считается, что именно эти графики впоследствии натолкнули Джона Тьюки (John Tukey) на идею построения диаграммы размаха, более известной в обиходе как «ящик с усами».&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/tp---range-bars-vs-med.png" width="600" height="300" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Но давайте, буквально на минуточку, отвлечемся от графиков и рассмотрим простой способ числового описания распределения одномерных данных.&lt;/p&gt;
&lt;h2&gt;Пятиточеная статистика (Five-number summary)&lt;/h2&gt;
&lt;p&gt;Любой набор одномерных данных можно компактно ужать до пяти числовых значений, которые очень даже неплохо опишут его суть. Эти значения включают пять основных персентилей:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;минимальное значение (min) — это нулевой персентиль (0%), меньше него ничего нет;&lt;/li&gt;
&lt;li&gt;первый квартиль (Q1) — это двадцать пятый персентиль (25%), четверть данных меньше этого значения;&lt;/li&gt;
&lt;li&gt;медиана или второй квартиль (med, Q2) — это пятидесятый персентиль (50%), половина данных меньше, а другая больше медианы;&lt;/li&gt;
&lt;li&gt;третий квартиль (Q3) — это семьдесят пятый персентиль (75%), только четверть данных больше этой величины;&lt;/li&gt;
&lt;li&gt;максимальное значение (max) — это сотый персентиль (100%), больше него ничего нет.&lt;/li&gt;
&lt;/ul&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/tp---5-points-summary.png" width="600" height="300" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Если упорядочить наши данные по возрастанию, то медиана будет находится точно посредине ряда, а первый и третий квартили точно посредине каждой половины.&lt;/p&gt;
&lt;p&gt;Первый и третий квартили позволяют вычислить межквартильный диапазон (IQR, inter quartile range) — в него попадет ровно 50% данных. IQR используется для (не всегда точного) выявления выбросов.&lt;/p&gt;
&lt;p&gt;Так вот, Джон Тьюки, насмотревший на графики мисс Спир, придумал изобразить пятиточечную статистику данных в виде пяти соединенных черточек. Так получилась  диаграмма размаха.&lt;/p&gt;
&lt;h2&gt;А откуда взялся ящик с усами (box plot)?&lt;/h2&gt;
&lt;p&gt;Это название появилось из-за внешнего вида диаграммы размаха. В центре нее находится прямоугольник, границами которого служат первый и третий квартили. Прямоугольник похож на ящик, наполненный 50% значений данных, взятых из середины набора. Внутри ящика всегда располагается медиана. Крайние значения набора данных соединены со стенками ящика отрезками, которые и называются усами.&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/tp---box-plot-anatomy.png" width="600" height="300" alt="" /&gt;
&lt;/div&gt;
&lt;p class="loud"&gt;В русскоязычной научной среде более корректно говорить &lt;i&gt;диаграмма размаха.&lt;/i&gt;&lt;/p&gt;
&lt;p&gt;Чаще всего усы диаграммы размаха начинают не от крайних значений (минимума и максимума), а от границ диапазона, не содержащего выбросы. Сами выбросы рисуют за усами в виде точек.&lt;/p&gt;
&lt;p&gt;О том, как определить эти границы, написано в &lt;a href="https://teletype.in/@mathrocknroll/mad-outliers-detecor"&gt;этой заметке&lt;/a&gt;.&lt;/p&gt;
&lt;h2&gt;Диаграмма размаха&lt;/h2&gt;
&lt;p&gt;Внешний вид диаграммы размаха сообщает несколько важных вещей:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;диапазон изменения значений,&lt;/li&gt;
&lt;li&gt;положение медианы — центра данных,&lt;/li&gt;
&lt;li&gt;симметричность распределения.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Расположив рядом несколько диаграмм размаха, мы можем оценить, насколько сильно данные перекрываются.&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/tp---box-plots.png" width="600" height="300" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Если медиана одной диаграммы выходит за границы ящика второй диаграммы, то данные будут статистически достоверно отличаться. В иных случаях необходимо выявлять отличия тестами.&lt;/p&gt;
&lt;p&gt;Если диаграмма размаха симметричная, медиана находится посредине ящика, усы равной длины и по длине совпадают с длиной ящика, значит кривая распределения данных имеет куполообразную форму и, скорее всего, данные распределены нормально. (Но это не точно.)&lt;/p&gt;
&lt;p&gt;А вот если медиана смещена от центра ящика либо длина усов разная, значит распределение в данных ассиметрично. Причем, чем сильнее смещена медиана к краю ящика, тем ближе данные сгруппированы к одному из крайних значений. И чем длиннее один из усов, тем длиннее хвост данных, то есть те значения, которые сильно отличаются от большинства.&lt;/p&gt;
&lt;h2&gt;Недостаток диаграммы размаха&lt;/h2&gt;
&lt;p&gt;Диаграмма размаха хорошо показывает разброс и симметричность значений данных, но плохо передает форму распределения. Поэтому возможна ситуация, когда полностью идентичные диаграммы размаха описывают абсолютно разные распределения данных.&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/nedostatok-box-plots.png" width="567" height="493" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Исправить это досадное недоразумение помогают многочисленные вариации диаграмм размаха, о которых мы поговорим в другой раз.&lt;/p&gt;
</description>
</item>

<item>
<title>Математический рок-н-ролл — регулярные заметки о необычной математике доступным языком</title>
<guid isPermaLink="false">497</guid>
<link>https://antonlyakh.ru/blog/all/matpop-rok-n-roll-neobychnaya-matematika-dostupnym-yazykom/</link>
<pubDate>Sat, 03 Aug 2024 16:50:05 +0300</pubDate>
<author>Антон Лях</author>
<comments>https://antonlyakh.ru/blog/all/matpop-rok-n-roll-neobychnaya-matematika-dostupnym-yazykom/</comments>
<description>
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/slon.png" width="1000" height="1000" alt="" /&gt;
&lt;div class="e2-text-caption"&gt;Фотограф Лукас Холас. Серия «Портреты животных».&lt;/div&gt;
&lt;/div&gt;
&lt;p class="lead"&gt;&lt;b&gt;&lt;a href="https://teletype.in/@mathrocknroll"&gt;Математический рок-н-ролл&lt;/a&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p&gt;За последние несколько месяцев я опубликовал более 30 классных популярных математических заметок для ВК канала «&lt;a href="https://vk.com/mathhedgehog"&gt;Ежик в матане&lt;/a&gt;». Но ленточное устройство ВК оставляет их активным сутки, иногда чуть больше, после чего они канут в Лету, то есть становятся практически недоступными. Это неудобно.&lt;/p&gt;
&lt;p&gt;Чтобы избежать потери заметок, начинаю переносить их в Телетайп, в блог &lt;i&gt;«Матеатический рок-н-ролл».&lt;/i&gt;&lt;/p&gt;
&lt;p&gt;&lt;br/&gt;&lt;/p&gt;
&lt;ol start="1"&gt;
&lt;li&gt;Теперь посты будут всегда доступными, пока существует Телетайп)&lt;/li&gt;
&lt;li&gt;Блог в Телетайпе содержит уникальные заметки, посвященные необычной математике, описанной доступным языком.&lt;/li&gt;
&lt;li&gt;За заметки вы можете меня &lt;b&gt;поблагодарить донатом.&lt;/b&gt; Это поможет написать новые посты.&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;br/&gt;&lt;/p&gt;
&lt;p&gt;Первый пост называется &lt;i&gt;«&lt;a href="https://teletype.in/@mathrocknroll/vika-i-raznye-srednie"&gt;Оценка средних и карьера Вики&lt;/a&gt;»&lt;/i&gt;. Он содержит краткий обзор различных средних значений.&lt;/p&gt;
&lt;p&gt;&lt;a href="https://teletype.in/@mathrocknroll/vika-i-raznye-srednie"&gt;&lt;img src="https://img4.teletype.in/files/34/fa/34fabe1a-9085-4527-8457-ced45b750659.jpeg"&gt;&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;Это была моя самая первая заметка для «Ежика», благодаря которой стал одни из его пишущих редакторов.&lt;/p&gt;
&lt;p&gt;&lt;br/&gt;&lt;/p&gt;
&lt;p&gt;Заходите. Будет интересно.&lt;/p&gt;
&lt;p&gt;&lt;b&gt;&lt;a href="https://teletype.in/@mathrocknroll"&gt;Математический рок-н-ролл&lt;/a&gt;&lt;/b&gt;&lt;/p&gt;
&lt;p&gt;&lt;br/&gt;&lt;/p&gt;
</description>
</item>

<item>
<title>Объект и признаки объекта в биологической статистике</title>
<guid isPermaLink="false">469</guid>
<link>https://antonlyakh.ru/blog/all/obekt-i-priznaki-obekta-v-biologicheskoy-statistike/</link>
<pubDate>Sun, 28 May 2023 15:53:46 +0300</pubDate>
<author>Антон Лях</author>
<comments>https://antonlyakh.ru/blog/all/obekt-i-priznaki-obekta-v-biologicheskoy-statistike/</comments>
<description>
&lt;p class="loud"&gt;Базовые понятия необходимые для полноценного восприятия заметок об &lt;a href="https://antonlyakh.ru/blog/tags/analiz-dannyh/"&gt;анализе биологических данных&lt;/a&gt;.&lt;/p&gt;
&lt;p&gt;&lt;br/&gt;&lt;/p&gt;
&lt;p&gt;&lt;i&gt;N. B.&lt;/i&gt; Нет такой дисциплины, как биологическая статистика. Статистика везде одинаковая, что в биологии, что в физике, что в лингвистике. А в заголовке она упомянута, чтобы подчеркнуть, что эта заметка, в первую очередь, предназначеная для биологов. Также поступают авторы соответствующих изданий: в названии они показывают, для какой аудитории предназначены их книги, и используют в тексте упрощения (минимум спец. символов и сложных формул в изданиях для биологов) или усложнения (доказательства теорем и выводы формул в изданиях для физиков).&lt;/p&gt;
&lt;p&gt;&lt;br/&gt;&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/blog---20230429_145458.png" width="1000" height="600" alt="" /&gt;
&lt;div class="e2-text-caption"&gt;Вид Южного берега Крыма&lt;br /&gt;
&lt;br/&gt;&lt;/div&gt;
&lt;/div&gt;
&lt;h3&gt;Основные понятия&lt;/h3&gt;
&lt;p&gt;&lt;b&gt;Сырые данные&lt;/b&gt;&lt;br /&gt;
&lt;i&gt;Сырыми&lt;/i&gt; назваются исходные непреобразованные данные. Это первичный материал как он есть, полученный в ходе наблюдений или эксперимента. Сырые данные считаются наиболее ценными, так как позволяют любому перепроверить результаты анализа или провести на их основе собственные исследования.&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Объект и признаки&lt;/b&gt;&lt;br /&gt;
&lt;i&gt;Объект&lt;/i&gt; — это то, что мы исследуем. Например, численность разных видов в сообществе, обилие вида в разных районах, совокупность абиотических и биотических характеристик в точке, признаки форм тела представителя вида, характеристики траектории движения микроорганизма.&lt;/p&gt;
&lt;p&gt;&lt;i&gt;Признаки объекта&lt;/i&gt; — это набор числовых значений, которые его описывают. Например:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;объект &lt;i&gt;численность видов сообщества в заданном районе&lt;/i&gt; описывается набором, состоящим из численности вида А, вида Б, вида В и т. д.&lt;/li&gt;
&lt;li&gt;объект &lt;i&gt;обилие вида в разных районах&lt;/i&gt; описывается набором, который содержит обилие вида в районе А, в районе Б, в районе В и т. д.&lt;/li&gt;
&lt;li&gt;объект &lt;i&gt;совокупность абиотических и биотических характеристик&lt;/i&gt; описывает значения этих характеристик в конкретной точке: значение характеристики А, характеристики Б, характеристики В и т. д.&lt;/li&gt;
&lt;li&gt;объект &lt;i&gt;признаки формы тела представителя вида&lt;/i&gt; описывает особенностями формы особи, выраженные какими-то числами, например — размерами: размер А, размер Б, размер В и т. д.&lt;/li&gt;
&lt;li&gt;объект &lt;i&gt;характеристики траектории движения микроорганизма&lt;/i&gt; описывает какие-то показатели траекторий, например: среднюю скорость, спрямленность, средний азимут движения и т. д.&lt;/li&gt;
&lt;/ul&gt;
&lt;p class="loud"&gt;С математической точки зрения признаки объекта — это вектор числовых или иных значений: текстовых, логических, прочих.&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Позиция признаков&lt;/b&gt;&lt;br /&gt;
&lt;i&gt;Позиция каждого признака в векторе строго фиксирована&lt;/i&gt; и ее нельзя изменить. Например, в признаках объектов &lt;i&gt;сообщество X&lt;/i&gt; и &lt;i&gt;сообщество Y&lt;/i&gt; на первом месте должна всегда стоять численность вида &lt;i&gt;А,&lt;/i&gt; затем вида &lt;i&gt;Б,&lt;/i&gt; потом &lt;i&gt;В&lt;/i&gt;, — и их нельзя поменять местами. То же самое с объектами &lt;i&gt;форма особи X, Y&lt;/i&gt; и &lt;i&gt;Z:&lt;/i&gt; их вектора признаков должны на первом месте содержать размер &lt;i&gt;А,&lt;/i&gt; потом &lt;i&gt;Б,&lt;/i&gt; потом &lt;i&gt;В&lt;/i&gt; и не иначе.&lt;/p&gt;
&lt;p&gt;&lt;br/&gt;&lt;br /&gt;
&lt;b id="data-matrix"&gt;Матрица данных&lt;/b&gt;&lt;br /&gt;
Объекты и их признаки хранят в таблице — матрице. В большинстве статистических программ считается, что объекты хранятся в строках, а признаки — в столбцах. Это нужно помнить, когда вы формируете матрицу данных.&lt;/p&gt;
&lt;p class="loud"&gt;Обычно объекты — это строки, признаки — это столбцы матрицы данных.&lt;/p&gt;
&lt;p&gt;Первая колонка матрицы данных часто содержит названия объектов, а первая строка — названия признаков.&lt;/p&gt;
&lt;p&gt;&lt;br/&gt;&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Нулевые и отсутствующие признаки&lt;/b&gt;&lt;br /&gt;
&lt;i&gt;Следует различать нулевое и отсутствующее значения признака.&lt;/i&gt; Когда значение какого-то признака объекта не известно, в векторе признаков в этой позиции ставят специальный символ отсутствия данных (это может быть просто пустое место), а ноль пишут только, когда зачение действительно равно нулю.&lt;/p&gt;
&lt;p class="loud"&gt;Когда значение признака нулевое — пишем ноль, а когде оно не известно — пишем специальный символ отсутствия данных.&lt;/p&gt;
&lt;p&gt;Например, если вид А отсутствовал в заданной пробе, то в качестве значения численности мы пишем 0, а если он был, но численность его мы не измерили, то есть она не известна, то в качестве значения мы пишем символ отсутствия данных.&lt;/p&gt;
&lt;p&gt;Узнайте в документации к статистической программе, какой символ используется для указания отсутствующих данных.&lt;/p&gt;
&lt;p&gt;&lt;br/&gt;&lt;/p&gt;
&lt;h3&gt;Дополнительное чтение&lt;/h3&gt;
&lt;p&gt;&lt;a href="http://www.machinelearning.ru/wiki/index.php?title=Признаковое_описание"&gt;Признаковое описание объекта&lt;/a&gt; на сайте machinelearning.ru.&lt;/p&gt;
&lt;p&gt;«&lt;i&gt;Матрица „объекты × признаки“ является стандартным и наиболее распространённым способом представления исходных данных в задачах классификации и регрессии. Подавляющее большинство методов обучения приспособлены к обработке именно таких данных. Однако на практике встречаются задачи, в которых данные устроены сложнее. [...] В таких случаях по имеющимся исходным данным вычисляются некоторые признаки, что позволяет привести данные к стандартному матричному виду. Этот прием называется&lt;/i&gt; извлечением признаков из данных (features extraction) &lt;i&gt;или&lt;/i&gt; генерацией признаков (features generation).»&lt;/p&gt;
&lt;p&gt;«&lt;i&gt;Любой алгоритм регрессии или классификации также может рассматриваться в роли признака. Хотя это наблюдение тривиально, оно дает ключ к построению суперпозиций или композиций алгоритмов. Всегда имеется возможность, построив один или несколько алгоритмов, присоединить их к признаковому описанию в роли новых признаков и использовать при построении следующего алгоритма.&lt;/i&gt;»&lt;/p&gt;
&lt;p&gt;&lt;br/&gt;&lt;/p&gt;
&lt;hr /&gt;
&lt;p&gt;Если после прочтения этой прекрасной заметки вам вдруг непреодолимо захотелось меня поблагодарить, переведите мне 200 руб. на круасан с чаем. А я пока напишу что-то новенькое.&lt;/p&gt;
&lt;iframe src="https://yoomoney.ru/quickpay/fundraise/button?billNumber=wfB4EAHx4LE.231103&amp;" width="330" height="50" frameborder="0" allowtransparency="true" scrolling="no"&gt;&lt;/iframe&gt;
&lt;p&gt;​&lt;/p&gt;
</description>
</item>

<item>
<title>Дисперсионный анализ средних длин раковин моллюсков</title>
<guid isPermaLink="false">423</guid>
<link>https://antonlyakh.ru/blog/all/dispersionny-analiz-srednih-dlin-rakovin-mollyuskov/</link>
<pubDate>Sat, 27 Mar 2021 00:00:31 +0300</pubDate>
<author>Антон Лях</author>
<comments>https://antonlyakh.ru/blog/all/dispersionny-analiz-srednih-dlin-rakovin-mollyuskov/</comments>
<description>
&lt;p&gt;Коллега попросил помочь с выполнение дисперсионного анализа. Рассказываю, что получилось.&lt;/p&gt;
&lt;p&gt;У нас есть три ряда длин раковин моллюсков, полученные в три разных года: 1981, 1998 и 2012. Мы хотим узнать, есть ли статистически достоверное различие между средними длинами в каждый период или нет? Расскажу, как это сделать.&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/Ishodnye-dannye.png" width="304" height="336" alt="" /&gt;
&lt;div class="e2-text-caption"&gt;Фрагмент исходных данных&lt;/div&gt;
&lt;/div&gt;
&lt;p&gt;Сначала посмотрим на &lt;i&gt;статистическое описание данных.&lt;/i&gt;&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/Opisatelnaya-statistika.png" width="469" height="175" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Средние и медианы неплохо отличаются, наверное различия все-таки есть.&lt;/p&gt;
&lt;p&gt;Потом построим &lt;i&gt;диаграммы размахов,&lt;/i&gt; в простонародье — &lt;i&gt;ящики с усами.&lt;/i&gt;&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/Diagrammy-rasseyaniya.png" width="514" height="383" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Второй и третий ящики практически полностью пересекаются с первым. Значит различия недостоверны?&lt;/p&gt;
&lt;p&gt;Теперь попробуем попарно сравнить средние при помощи &lt;i&gt;t-теста стьюдента:&lt;/i&gt; первое со вторым, второе с третьим и третье с первым. Наши данные независимы, потому что мы каждый раз измеряли разных моллюсков. Значит применим t-тест для независимых выборок. Но предварительно проверим данные на нормальность. Если выборки имеют нормальное распределение, используем t-тест. Если ненормальное, &lt;a href="https://antonlyakh.ru/blog/all/knigi-o-dispersionnom-analize/#mastickiy-statistica"&gt;прочитаем Сергея Мастицкого&lt;/a&gt; (стр. 36):&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;Если значение распределены ненормально, применение параметрического t-теста будет часто приводить к искаженным результатам. В таких случаях следует воспользоваться непараметрическим аналогом теста стьюдента. Например можно использовать u-тест манна-уитни.&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;Вперед.&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;div class="fotorama" data-width="579" data-ratio="2.8522167487685"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/t-test-1981-1998.png" width="579" height="203" alt="" /&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/t-test-2012-1998.png" width="579" height="203" alt="" /&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/t-test-2012-1981.png" width="579" height="203" alt="" /&gt;
&lt;/div&gt;
&lt;div class="e2-text-caption"&gt;Попарные сравнения u-тестом манна-уитни&lt;/div&gt;
&lt;/div&gt;
&lt;p&gt;Попарные сравнения показали отличия средних.&lt;/p&gt;
&lt;p&gt;А теперь читаем книгу Мастицкого уже на стр. 43:&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;Тесть стьюдента и его непараметрические аналоги предназначены для сравнения &lt;i&gt;исключительно двух выборок.&lt;/i&gt; Очень часто исследователи допускают ошибку: используют t-тест для попарных сравнений более двух выборок.&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;Надо же, оказывается мы допустили частую ошибку статистических профанов. И как нам быть?&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;Для избежания данной ошибки необходимо использовать дисперсионный анализ.&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;Алилуя! Но теперь надо прочитать &lt;a href="https://antonlyakh.ru/blog/all/knigi-o-dispersionnom-analize/"&gt;хорошие книги о дисперсионном анализе&lt;/a&gt;?&lt;/p&gt;
&lt;p&gt;Нет, совсем не обязательно. Автоматизация статистических вычислений, в настоящее время, достигла таких высот, что вам всего лишь нужно нажать правильные кнопки. Все остальное сделает машина. Например так работает Сигмаплот. Он сам проверит данные на нормальность и выберет правильный тип дисперсионного анализа.&lt;/p&gt;
&lt;p&gt;Наши данные оказались ненормальными, поэтому Сигмаплот предложил &lt;i&gt;непараметрический дисперсионный анализ крускала-уолиса (H-тест)&lt;/i&gt; и объяснил полученные результаты.&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/kruskal-wallis-anova.png" width="579" height="376" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;Если бы мы воспользовались Статистикой или Эр, нам пришлось бы интерпретировать полученные цифры. Для этого следует хорошо разобраться в дисперсионном анализе и сопутствующих методах. То есть пройти хороший курс биометрии.&lt;/p&gt;
&lt;p&gt;Но тот-кто-знает, что «&lt;a href="https://designershandbook.ru/term/interface-evil"&gt;интерфейс — зло&lt;/a&gt;» и «&lt;a href="https://maximilyahov.ru/blog/all/must-sweat/"&gt;потеть должна машина&lt;/a&gt;», тот выберет способ «нажал на кнопку и получил развернутый ответ». Мозги, в этом случае, пригодятся для интерпретации ответа.&lt;/p&gt;
&lt;p&gt;&lt;img src="https://img.artlebedev.ru/kovodstvo/sections/153/lebedev-pyramid.gif" title="Пирамида Лебедева"/&gt;&lt;br/&gt;&lt;small&gt;&lt;a href="https://www.artlebedev.ru/kovodstvo/sections/153/"&gt;Пирамида Лебедева&lt;/a&gt;&lt;/small&gt;&lt;/p&gt;
&lt;p&gt;Выбирайте сами. И, да — это не реклама Сигмаплота. Просто мне понравилось, как он интерпретировал результат.&lt;/p&gt;
&lt;p&gt;Книги, в любом случае, читать полезно.&lt;/p&gt;
</description>
</item>

<item>
<title>Книги о дисперсионном анализе</title>
<guid isPermaLink="false">421</guid>
<link>https://antonlyakh.ru/blog/all/knigi-o-dispersionnom-analize/</link>
<pubDate>Fri, 12 Mar 2021 21:58:49 +0300</pubDate>
<author>Антон Лях</author>
<comments>https://antonlyakh.ru/blog/all/knigi-o-dispersionnom-analize/</comments>
<description>
&lt;p&gt;М. попросила проверить, достоверно ли различие между длинами раковин моллюсков? Причем с помощью дисперсионного анализа. А я, как это бывает, позабыл как его выполнить. Чтобы вспомнить, принялся читать книги. И родился у меня рейтинг прочитанного.&lt;/p&gt;
&lt;p&gt;Не мудрствуя лукаво, разделил книги на две категории: многоразовые — к которым буду обращаться и перечитывать, и одноразовые — пролистал и выбросил в корзину.&lt;/p&gt;
&lt;h2&gt;Многоразовые книги&lt;/h2&gt;
&lt;div id="mastickiy-statistica"&gt;&lt;/div&gt;&lt;div class="e2-text-picture"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/macnbwrbq.png" width="300" height="425" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;&lt;i&gt;&lt;b&gt;Мастицкий С. Э. (2009)&lt;/b&gt; Методическое пособие по использовании программы Statistica при обработке данных биологических исследований.&lt;/i&gt; Минск: Ин-т рыбного хозяйства.&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;b&gt;Прекрасное руководство для прикладных статистов.&lt;/b&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;blockquote&gt;
&lt;p&gt;Автор кратко описывает для каких рядов данных подходит тот или иной прием и рассказывает, как их выполнить в «Статистике». Книга полезна, даже если вы не используете «Статистику».&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;&lt;hr/&gt;&lt;br /&gt;
&lt;br/&gt;&lt;br/&gt;&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/Lyubischev---Dispersionny-analiz.png" width="300" height="454" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;&lt;i&gt;&lt;b&gt;Любищев А. А. (1986)&lt;/b&gt; Дисперсионный анализ в биологии.&lt;/i&gt; М.: Изд-во Моск. ун-та.&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;b&gt;О том как планировать эксперименты и интерпретировать результаты без помощи компьютера.&lt;/b&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;blockquote&gt;
&lt;p&gt;Книга написана в середине 20-го века. Написано легко, с разбором многочисленных примеров и методикой ручных вычислений. Буду не раз к ней возвращаться.&lt;/p&gt;
&lt;/blockquote&gt;
&lt;div class="e2-text-picture"&gt;
&lt;div class="fotorama" data-width="800" data-ratio="1.25"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/Lyubischev---primer-0.png" width="800" height="640" alt="" /&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/Lyubischev---primer.png" width="800" height="600" alt="" /&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;p&gt;&lt;hr/&gt;&lt;br /&gt;
&lt;br/&gt;&lt;br/&gt;&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/Plohinskiy---oblozhka.png" width="400" height="588" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;&lt;i&gt;&lt;b&gt;Плохинский Н. А. (1960)&lt;/b&gt; Дисперсионный анализ.&lt;/i&gt; Новосибирск: Изд-во СО АН СССР.&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;b&gt;Дисперсионный анализ на бумаге.&lt;/b&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;blockquote&gt;
&lt;p&gt;Ясно и прекрасно.&lt;/p&gt;
&lt;/blockquote&gt;
&lt;div class="e2-text-picture"&gt;
&lt;div class="fotorama" data-width="400" data-ratio="0.64935064935065"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/Plohinskiy---primer-1.png" width="400" height="616" alt="" /&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/Plohinskiy---primer-2.png" width="400" height="614" alt="" /&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/Plohinskiy---primer-3.png" width="400" height="614" alt="" /&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;p&gt;&lt;hr/&gt;&lt;br /&gt;
&lt;br/&gt;&lt;br/&gt;&lt;/p&gt;
&lt;h2&gt;Одноразовые книги&lt;/h2&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/Arens-Leyter-(1985)-Mnogomerny-dispersionny-analiz.png" width="300" height="459" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;&lt;i&gt;&lt;b&gt;Аренс Х., Лёйтер Ю. (1985)&lt;/b&gt; Многомерный дисперсионный анализ&lt;/i&gt; / Пер. с немецкого. М.: Финансы и статистика.&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;b&gt;Полезно, кратко, по делу.&lt;/b&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;blockquote&gt;
&lt;p&gt;Книга попала в одноразовые, потому что ее основная аудитория — программисты, которые собираются писать софт для стат. анализа с нуля.&lt;/p&gt;
&lt;/blockquote&gt;
&lt;div class="e2-text-picture"&gt;
&lt;div class="fotorama" data-width="400" data-ratio="0.63191153238547"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/Arens-Leyter-(1985)-Blok-shema-mnogomernogo-disp-i-diskr-analizov.png" width="400" height="633" alt="" /&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/Arens-Leyter-(1985)-Primer-formul---2.png" width="400" height="329" alt="" /&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/Arens-Leyter-(1985)-Primer-formul.png" width="400" height="323" alt="" /&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;p&gt;&lt;hr/&gt;&lt;br /&gt;
&lt;br/&gt;&lt;br/&gt;&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/Markova-i-dr-(1982)---Dispers-analiza-na-EVM.png" width="300" height="457" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;&lt;i&gt;&lt;b&gt;Маркова Е. В., Денисов В. И., Полетаева И. А., Пономарев В. В. (1982)&lt;/b&gt; Дисперсионный анализ и синте планов на ЭВМ.&lt;/i&gt; М.: Наука.&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;b&gt;За деревьями леса не видно.&lt;/b&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;blockquote&gt;
&lt;p&gt;Много деталей, но не всегда ясна суть. Ориентирована на программистов, на что и указывает название.&lt;/p&gt;
&lt;/blockquote&gt;
&lt;div class="e2-text-picture"&gt;
&lt;div class="fotorama" data-width="400" data-ratio="0.60422960725076"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/Markova-i-dr-(1982)---primer-2.png" width="400" height="662" alt="" /&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/Markova-i-dr-(1982)---primer.png" width="400" height="655" alt="" /&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;p&gt;&lt;hr/&gt;&lt;br /&gt;
&lt;br/&gt;&lt;br/&gt;&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/Sheffe-(1980)-Disp-analiz.gif" width="300" height="468" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;&lt;i&gt;&lt;b&gt;Шеффе Г. (1980)&lt;/b&gt; Дисперсионный анализ&lt;/i&gt; / Пер. с английского. Изд. второе. М.: Наука. Гл. ред. физ.-мат. лит-ры.&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;b&gt;Сложно, для истинных математиков.&lt;/b&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;blockquote&gt;
&lt;p&gt;Книга переполнена формулами, определениями и доказательствами. Написана для математиков, которые хотят досконально во всем разобраться и, возможно, сделать лучше. Остальные не увидят здесь сути анализа.&lt;/p&gt;
&lt;/blockquote&gt;
&lt;div class="e2-text-picture"&gt;
&lt;div class="fotorama" data-width="400" data-ratio="0.63694267515924"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/Sheffe-(1980)---primer.png" width="400" height="628" alt="" /&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/Sheffe-(1980)---primer-2.png" width="400" height="628" alt="" /&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;p&gt;&lt;hr/&gt;&lt;br /&gt;
&lt;br/&gt;&lt;br/&gt;&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/Yakovlev-Yakovleva-(2015)---Oblozhka.png" width="300" height="446" alt="" /&gt;
&lt;/div&gt;
&lt;p&gt;&lt;i&gt;&lt;b&gt;Яковлев В., Яковлева О. (2015) &lt;/b&gt;Дисперсионный анализ в Excel&lt;/i&gt;. Lap Lambert Acad. Publ.&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;b&gt;Хрень полная.&lt;/b&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;blockquote&gt;
&lt;p&gt;Не тратьте время — выбрасывайте в корзину, не читая.&lt;/p&gt;
&lt;/blockquote&gt;
&lt;div class="e2-text-picture"&gt;
&lt;div class="fotorama" data-width="400" data-ratio="1.0810810810811"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/Yakovlev-(2015)---Uboy-bychkov.png" width="400" height="370" alt="" /&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/Yakovlev-(2015)---Schelknite-OK.png" width="400" height="345" alt="" /&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;p&gt;&lt;hr/&gt;&lt;br /&gt;
&lt;br/&gt;&lt;br/&gt;&lt;/p&gt;
&lt;p&gt;Рейтинг отражает мое лично впечатление от указанных книг. Ваше мнение может быть другим.&lt;/p&gt;
&lt;p&gt;&lt;br/&gt;&lt;br/&gt;&lt;/p&gt;
&lt;p&gt;Читайте книги.&lt;/p&gt;
</description>
</item>

<item>
<title>Вопрос-ответ. Кратко о доверительном интервале</title>
<guid isPermaLink="false">325</guid>
<link>https://antonlyakh.ru/blog/all/vopros-otvet-kratko-o-doveritelnom-intervale/</link>
<pubDate>Thu, 06 Feb 2020 18:32:38 +0300</pubDate>
<author>Антон Лях</author>
<comments>https://antonlyakh.ru/blog/all/vopros-otvet-kratko-o-doveritelnom-intervale/</comments>
<description>
&lt;p&gt;Коллега спросила:&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;скажи мне простыми словами, что показывает доверительный интервал.  Что значит &lt;nobr&gt;13493 ± 192&lt;/nobr&gt;, где 13493 — это число животных на метр квадратный, а 192 — это доверительный интервал.&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;Отвечаю.&lt;/p&gt;
&lt;p&gt;Все количественные оценки в биологии — вероятностные. Это значит, что приведенное значение 13,5 тыс. животных на метр квадратный, с некоторой вероятностью описывает реальное кол-во животных на данной площади. Не факт, что на соседних площадках их будет столько же, но если исследована достаточно большая площадь, то в среднем эта величина неплоха.&lt;/p&gt;
&lt;p&gt;Доверительный интервал — это еще одна вероятностная величина. Он показывает границы диапазона, в который с вероятностью (обычно) 95% попадет среднее значение при выборе иных исследуемых площадок. То есть, вот ты исследовала один участок, нашла среднее значение организмов и посчитала дов. интервал. Так вот, если ты исследуешь другой соседний участок и найдешь среднее число животных на нем, то с вероятностью 95% эта средняя величина будет находиться в интервале: 13301=13493-192 и 13685=13493+192.&lt;/p&gt;
&lt;p&gt;Кстати, я бы не стал с такой точностью приводит среднее, а округлил бы его до 13,5 тыс. ± 200.&lt;/p&gt;
</description>
</item>

<item>
<title>Выполнение R скриптов на ПХП</title>
<guid isPermaLink="true">https://antonlyakh.ru/blog/all/vypolnenie-er-skriptov-na-php/</guid>
<link>https://antonlyakh.ru/blog/all/vypolnenie-er-skriptov-na-php/</link>
<pubDate>Thu, 01 Sep 2016 17:22:55 +0300</pubDate>
<author>Антон Лях</author>
<comments>https://antonlyakh.ru/blog/all/vypolnenie-er-skriptov-na-php/</comments>
<description>
&lt;p&gt;Надо выполнить сложные статистические вычисления с помощью ПХП. Писать свои модули сложно, долго и бессмысленно. Придумал интегрироваться с &lt;a href="https://www.r-project.org/"&gt;Эр&lt;/a&gt;.&lt;/p&gt;
&lt;p&gt;&lt;a href="https://github.com/kachkaev/php-r"&gt;Библиотека &lt;b&gt;php-r&lt;/b&gt;&lt;/a&gt; Александра Качкаева позволяет выполнять скрипты Эр на ПХП. Примеры убедительны, но сам еще не пробовал.&lt;/p&gt;
&lt;p&gt;У кого есть опыт работы с php-r?&lt;/p&gt;
&lt;p&gt;С какими другими модулями для выполнения многомерных статистических расчетов на ПХП вы знакомы (дискриминантный анализ, кластерный анализ, ординационный анализ)?&lt;/p&gt;
</description>
</item>


</channel>
</rss>