7 заметок с тегом

статистика

От точечного графика к ящику с усами

Давайте рассмотрим способы компактного изображения набора числовых данных, которые позволяют увидеть его примерное распределение. Будем работать с одномерными данными, то есть с данными описанными одним значением. Для наглядности, будем показывать на графике одновременно несколько групп значений, что позволит их визуально сопоставить.

Начнем с простого точечного графика.

Точечный график (dot plot)

На точечном графике каждое значение изображено в виде точки. Для того, чтобы точки не накладывались друг на друга, их немного сдвигают в стороны от оси графика.

Раньше, когда люди создавали графики вручную, высекая узоры на гранитных скалах при помощи бронзового зубила, построение точечного графика отнимало время. Тогда как очевидное упрощение точечного графика заключалось в замене полосы точек на отрезок. Открытие этого способа изображения данных произвело революцию в умах первобытных людей, привело к расцвету эпохи Возрождения и введению в научный обиход графика диапазона.

График диапазона (Range bar chart)

График выглядит как отрезок или полоса, которая простирается на весь диапазон наличествующих значений.

Несколько расположенных рядом графиков позволяют сравнить интервалы значений. Однако вся прочая важная информация о распределении данных остается сокрытой. Так, одинаковые графики диапазонов могут упрощенно описывать совсем разные распределения: нормальное, ненормальное, биномиальное, смещенное, и эти закономерности мы не увидим.

Так продолжалось до тех пор, пока не появилась мисс Мери (Элеонора) Спир (Mary Eleanor Spear).

График диапазона с медианой и квартилями

Мери Спир считается американским пионером визуализации данных. Она издала две книги: «Charting statistics» в 1952 году и «Practical Charting Techniques» в 1969.

В них она подробно описала способы построения и оформления различных статистических графиков.

На странице 166 книги «Charting statistics» она:

  • добавила на график диапазона рисочку, показывающую положение среднего значения;
  • предложила вместо среднего показывать положение медианы и двух квартилей.
График диапазона с медианой и квартилями из книги Мери Спир «Charting statistics».

Считается, что именно эти графики впоследствии натолкнули Джона Тьюки (John Tukey) на идею построения диаграммы размаха, более известной в обиходе как «ящик с усами».

Но давайте, буквально на минуточку, отвлечемся от графиков и рассмотрим простой способ числового описания распределения одномерных данных.

Пятиточеная статистика (Five-number summary)

Любой набор одномерных данных можно компактно ужать до пяти числовых значений, которые очень даже неплохо опишут его суть. Эти значения включают пять основных персентилей:

  • минимальное значение (min) — это нулевой персентиль (0%), меньше него ничего нет;
  • первый квартиль (Q1) — это двадцать пятый персентиль (25%), четверть данных меньше этого значения;
  • медиана или второй квартиль (med, Q2) — это пятидесятый персентиль (50%), половина данных меньше, а другая больше медианы;
  • третий квартиль (Q3) — это семьдесят пятый персентиль (75%), только четверть данных больше этой величины;
  • максимальное значение (max) — это сотый персентиль (100%), больше него ничего нет.

Если упорядочить наши данные по возрастанию, то медиана будет находится точно посредине ряда, а первый и третий квартили точно посредине каждой половины.

Первый и третий квартили позволяют вычислить межквартильный диапазон (IQR, inter quartile range) — в него попадет ровно 50% данных. IQR используется для (не всегда точного) выявления выбросов.

Так вот, Джон Тьюки, насмотревший на графики мисс Спир, придумал изобразить пятиточечную статистику данных в виде пяти соединенных черточек. Так получилась диаграмма размаха.

А откуда взялся ящик с усами (box plot)?

Это название появилось из-за внешнего вида диаграммы размаха. В центре нее находится прямоугольник, границами которого служат первый и третий квартили. Прямоугольник похож на ящик, наполненный 50% значений данных, взятых из середины набора. Внутри ящика всегда располагается медиана. Крайние значения набора данных соединены со стенками ящика отрезками, которые и называются усами.

В русскоязычной научной среде более корректно говорить диаграмма размаха.

Чаще всего усы диаграммы размаха начинают не от крайних значений (минимума и максимума), а от границ диапазона, не содержащего выбросы. Сами выбросы рисуют за усами в виде точек.

О том, как определить эти границы, написано в этой заметке.

Диаграмма размаха

Внешний вид диаграммы размаха сообщает несколько важных вещей:

  • диапазон изменения значений,
  • положение медианы — центра данных,
  • симметричность распределения.

Расположив рядом несколько диаграмм размаха, мы можем оценить, насколько сильно данные перекрываются.

Если медиана одной диаграммы выходит за границы ящика второй диаграммы, то данные будут статистически достоверно отличаться. В иных случаях необходимо выявлять отличия тестами.

Если диаграмма размаха симметричная, медиана находится посредине ящика, усы равной длины и по длине совпадают с длиной ящика, значит кривая распределения данных имеет куполообразную форму и, скорее всего, данные распределены нормально. (Но это не точно.)

А вот если медиана смещена от центра ящика либо длина усов разная, значит распределение в данных ассиметрично. Причем, чем сильнее смещена медиана к краю ящика, тем ближе данные сгруппированы к одному из крайних значений. И чем длиннее один из усов, тем длиннее хвост данных, то есть те значения, которые сильно отличаются от большинства.

Недостаток диаграммы размаха

Диаграмма размаха хорошо показывает разброс и симметричность значений данных, но плохо передает форму распределения. Поэтому возможна ситуация, когда полностью идентичные диаграммы размаха описывают абсолютно разные распределения данных.

Исправить это досадное недоразумение помогают многочисленные вариации диаграмм размаха, о которых мы поговорим в другой раз.

Математический рок-н-ролл — регулярные заметки о необычной математике доступным языком

Фотограф Лукас Холас. Серия «Портреты животных».

Математический рок-н-ролл

За последние несколько месяцев я опубликовал более 30 классных популярных математических заметок для ВК канала «Ежик в матане». Но ленточное устройство ВК оставляет их активным сутки, иногда чуть больше, после чего они канут в Лету, то есть становятся практически недоступными. Это неудобно.

Чтобы избежать потери заметок, начинаю переносить их в Телетайп, в блог «Матеатический рок-н-ролл».


  1. Теперь посты будут всегда доступными, пока существует Телетайп)
  2. Блог в Телетайпе содержит уникальные заметки, посвященные необычной математике, описанной доступным языком.
  3. За заметки вы можете меня поблагодарить донатом. Это поможет написать новые посты.


Первый пост называется «Оценка средних и карьера Вики». Он содержит краткий обзор различных средних значений.

Это была моя самая первая заметка для «Ежика», благодаря которой стал одни из его пишущих редакторов.


Заходите. Будет интересно.

Математический рок-н-ролл


Объект и признаки объекта в биологической статистике

Базовые понятия необходимые для полноценного восприятия заметок об анализе биологических данных.


N. B. Нет такой дисциплины, как биологическая статистика. Статистика везде одинаковая, что в биологии, что в физике, что в лингвистике. А в заголовке она упомянута, чтобы подчеркнуть, что эта заметка, в первую очередь, предназначеная для биологов. Также поступают авторы соответствующих изданий: в названии они показывают, для какой аудитории предназначены их книги, и используют в тексте упрощения (минимум спец. символов и сложных формул в изданиях для биологов) или усложнения (доказательства теорем и выводы формул в изданиях для физиков).


Вид Южного берега Крыма

Основные понятия

Сырые данные
Сырыми назваются исходные непреобразованные данные. Это первичный материал как он есть, полученный в ходе наблюдений или эксперимента. Сырые данные считаются наиболее ценными, так как позволяют любому перепроверить результаты анализа или провести на их основе собственные исследования.

Объект и признаки
Объект — это то, что мы исследуем. Например, численность разных видов в сообществе, обилие вида в разных районах, совокупность абиотических и биотических характеристик в точке, признаки форм тела представителя вида, характеристики траектории движения микроорганизма.

Признаки объекта — это набор числовых значений, которые его описывают. Например:

  • объект численность видов сообщества в заданном районе описывается набором, состоящим из численности вида А, вида Б, вида В и т. д.
  • объект обилие вида в разных районах описывается набором, который содержит обилие вида в районе А, в районе Б, в районе В и т. д.
  • объект совокупность абиотических и биотических характеристик описывает значения этих характеристик в конкретной точке: значение характеристики А, характеристики Б, характеристики В и т. д.
  • объект признаки формы тела представителя вида описывает особенностями формы особи, выраженные какими-то числами, например — размерами: размер А, размер Б, размер В и т. д.
  • объект характеристики траектории движения микроорганизма описывает какие-то показатели траекторий, например: среднюю скорость, спрямленность, средний азимут движения и т. д.

С математической точки зрения признаки объекта — это вектор числовых или иных значений: текстовых, логических, прочих.

Позиция признаков
Позиция каждого признака в векторе строго фиксирована и ее нельзя изменить. Например, в признаках объектов сообщество X и сообщество Y на первом месте должна всегда стоять численность вида А, затем вида Б, потом В, — и их нельзя поменять местами. То же самое с объектами форма особи X, Y и Z: их вектора признаков должны на первом месте содержать размер А, потом Б, потом В и не иначе.



Матрица данных
Объекты и их признаки хранят в таблице — матрице. В большинстве статистических программ считается, что объекты хранятся в строках, а признаки — в столбцах. Это нужно помнить, когда вы формируете матрицу данных.

Обычно объекты — это строки, признаки — это столбцы матрицы данных.

Первая колонка матрицы данных часто содержит названия объектов, а первая строка — названия признаков.


Нулевые и отсутствующие признаки
Следует различать нулевое и отсутствующее значения признака. Когда значение какого-то признака объекта не известно, в векторе признаков в этой позиции ставят специальный символ отсутствия данных (это может быть просто пустое место), а ноль пишут только, когда зачение действительно равно нулю.

Когда значение признака нулевое — пишем ноль, а когде оно не известно — пишем специальный символ отсутствия данных.

Например, если вид А отсутствовал в заданной пробе, то в качестве значения численности мы пишем 0, а если он был, но численность его мы не измерили, то есть она не известна, то в качестве значения мы пишем символ отсутствия данных.

Узнайте в документации к статистической программе, какой символ используется для указания отсутствующих данных.


Дополнительное чтение

Признаковое описание объекта на сайте machinelearning.ru.

«Матрица „объекты × признаки“ является стандартным и наиболее распространённым способом представления исходных данных в задачах классификации и регрессии. Подавляющее большинство методов обучения приспособлены к обработке именно таких данных. Однако на практике встречаются задачи, в которых данные устроены сложнее. [...] В таких случаях по имеющимся исходным данным вычисляются некоторые признаки, что позволяет привести данные к стандартному матричному виду. Этот прием называется извлечением признаков из данных (features extraction) или генерацией признаков (features generation).»

«Любой алгоритм регрессии или классификации также может рассматриваться в роли признака. Хотя это наблюдение тривиально, оно дает ключ к построению суперпозиций или композиций алгоритмов. Всегда имеется возможность, построив один или несколько алгоритмов, присоединить их к признаковому описанию в роли новых признаков и использовать при построении следующего алгоритма.»



Если после прочтения этой прекрасной заметки вам вдруг непреодолимо захотелось меня поблагодарить, переведите мне 200 руб. на круасан с чаем. А я пока напишу что-то новенькое.

 Нет комментариев    46   2023   анализ данных   статистика

Дисперсионный анализ средних длин раковин моллюсков

Коллега попросил помочь с выполнение дисперсионного анализа. Рассказываю, что получилось.

У нас есть три ряда длин раковин моллюсков, полученные в три разных года: 1981, 1998 и 2012. Мы хотим узнать, есть ли статистически достоверное различие между средними длинами в каждый период или нет? Расскажу, как это сделать.

Фрагмент исходных данных

Сначала посмотрим на статистическое описание данных.

Средние и медианы неплохо отличаются, наверное различия все-таки есть.

Потом построим диаграммы размахов, в простонародье — ящики с усами.

Второй и третий ящики практически полностью пересекаются с первым. Значит различия недостоверны?

Теперь попробуем попарно сравнить средние при помощи t-теста стьюдента: первое со вторым, второе с третьим и третье с первым. Наши данные независимы, потому что мы каждый раз измеряли разных моллюсков. Значит применим t-тест для независимых выборок. Но предварительно проверим данные на нормальность. Если выборки имеют нормальное распределение, используем t-тест. Если ненормальное, прочитаем Сергея Мастицкого (стр. 36):

Если значение распределены ненормально, применение параметрического t-теста будет часто приводить к искаженным результатам. В таких случаях следует воспользоваться непараметрическим аналогом теста стьюдента. Например можно использовать u-тест манна-уитни.

Вперед.

Попарные сравнения u-тестом манна-уитни

Попарные сравнения показали отличия средних.

А теперь читаем книгу Мастицкого уже на стр. 43:

Тесть стьюдента и его непараметрические аналоги предназначены для сравнения исключительно двух выборок. Очень часто исследователи допускают ошибку: используют t-тест для попарных сравнений более двух выборок.

Надо же, оказывается мы допустили частую ошибку статистических профанов. И как нам быть?

Для избежания данной ошибки необходимо использовать дисперсионный анализ.

Алилуя! Но теперь надо прочитать хорошие книги о дисперсионном анализе?

Нет, совсем не обязательно. Автоматизация статистических вычислений, в настоящее время, достигла таких высот, что вам всего лишь нужно нажать правильные кнопки. Все остальное сделает машина. Например так работает Сигмаплот. Он сам проверит данные на нормальность и выберет правильный тип дисперсионного анализа.

Наши данные оказались ненормальными, поэтому Сигмаплот предложил непараметрический дисперсионный анализ крускала-уолиса (H-тест) и объяснил полученные результаты.

Если бы мы воспользовались Статистикой или Эр, нам пришлось бы интерпретировать полученные цифры. Для этого следует хорошо разобраться в дисперсионном анализе и сопутствующих методах. То есть пройти хороший курс биометрии.

Но тот-кто-знает, что «интерфейс — зло» и «потеть должна машина», тот выберет способ «нажал на кнопку и получил развернутый ответ». Мозги, в этом случае, пригодятся для интерпретации ответа.


Пирамида Лебедева

Выбирайте сами. И, да — это не реклама Сигмаплота. Просто мне понравилось, как он интерпретировал результат.

Книги, в любом случае, читать полезно.

Книги о дисперсионном анализе

М. попросила проверить, достоверно ли различие между длинами раковин моллюсков? Причем с помощью дисперсионного анализа. А я, как это бывает, позабыл как его выполнить. Чтобы вспомнить, принялся читать книги. И родился у меня рейтинг прочитанного.

Не мудрствуя лукаво, разделил книги на две категории: многоразовые — к которым буду обращаться и перечитывать, и одноразовые — пролистал и выбросил в корзину.

Многоразовые книги

Мастицкий С. Э. (2009) Методическое пособие по использовании программы Statistica при обработке данных биологических исследований. Минск: Ин-т рыбного хозяйства.

Прекрасное руководство для прикладных статистов.

Автор кратко описывает для каких рядов данных подходит тот или иной прием и рассказывает, как их выполнить в «Статистике». Книга полезна, даже если вы не используете «Статистику».





Любищев А. А. (1986) Дисперсионный анализ в биологии. М.: Изд-во Моск. ун-та.

О том как планировать эксперименты и интерпретировать результаты без помощи компьютера.

Книга написана в середине 20-го века. Написано легко, с разбором многочисленных примеров и методикой ручных вычислений. Буду не раз к ней возвращаться.





Плохинский Н. А. (1960) Дисперсионный анализ. Новосибирск: Изд-во СО АН СССР.

Дисперсионный анализ на бумаге.

Ясно и прекрасно.





Одноразовые книги

Аренс Х., Лёйтер Ю. (1985) Многомерный дисперсионный анализ / Пер. с немецкого. М.: Финансы и статистика.

Полезно, кратко, по делу.

Книга попала в одноразовые, потому что ее основная аудитория — программисты, которые собираются писать софт для стат. анализа с нуля.





Маркова Е. В., Денисов В. И., Полетаева И. А., Пономарев В. В. (1982) Дисперсионный анализ и синте планов на ЭВМ. М.: Наука.

За деревьями леса не видно.

Много деталей, но не всегда ясна суть. Ориентирована на программистов, на что и указывает название.





Шеффе Г. (1980) Дисперсионный анализ / Пер. с английского. Изд. второе. М.: Наука. Гл. ред. физ.-мат. лит-ры.

Сложно, для истинных математиков.

Книга переполнена формулами, определениями и доказательствами. Написана для математиков, которые хотят досконально во всем разобраться и, возможно, сделать лучше. Остальные не увидят здесь сути анализа.





Яковлев В., Яковлева О. (2015) Дисперсионный анализ в Excel. Lap Lambert Acad. Publ.

Хрень полная.

Не тратьте время — выбрасывайте в корзину, не читая.





Рейтинг отражает мое лично впечатление от указанных книг. Ваше мнение может быть другим.



Читайте книги.

Вопрос-ответ. Кратко о доверительном интервале

Коллега спросила:

скажи мне простыми словами, что показывает доверительный интервал. Что значит 13493 ± 192, где 13493 — это число животных на метр квадратный, а 192 — это доверительный интервал.

Отвечаю.

Все количественные оценки в биологии — вероятностные. Это значит, что приведенное значение 13,5 тыс. животных на метр квадратный, с некоторой вероятностью описывает реальное кол-во животных на данной площади. Не факт, что на соседних площадках их будет столько же, но если исследована достаточно большая площадь, то в среднем эта величина неплоха.

Доверительный интервал — это еще одна вероятностная величина. Он показывает границы диапазона, в который с вероятностью (обычно) 95% попадет среднее значение при выборе иных исследуемых площадок. То есть, вот ты исследовала один участок, нашла среднее значение организмов и посчитала дов. интервал. Так вот, если ты исследуешь другой соседний участок и найдешь среднее число животных на нем, то с вероятностью 95% эта средняя величина будет находиться в интервале: 13301=13493-192 и 13685=13493+192.

Кстати, я бы не стал с такой точностью приводит среднее, а округлил бы его до 13,5 тыс. ± 200.

Выполнение R скриптов на ПХП

Надо выполнить сложные статистические вычисления с помощью ПХП. Писать свои модули сложно, долго и бессмысленно. Придумал интегрироваться с Эр.

Библиотека php-r Александра Качкаева позволяет выполнять скрипты Эр на ПХП. Примеры убедительны, но сам еще не пробовал.

У кого есть опыт работы с php-r?

С какими другими модулями для выполнения многомерных статистических расчетов на ПХП вы знакомы (дискриминантный анализ, кластерный анализ, ординационный анализ)?

 86   2016   R   ПХП   статистика