5 заметок с тегом

статистика

Объект и признаки объекта в биологической статистике

Базовые понятия необходимые для полноценного восприятия заметок об анализе биологических данных.


N. B. Нет такой дисциплины, как биологическая статистика. Статистика везде одинаковая, что в биологии, что в физике, что в лингвистике. А в заголовке она упомянута, чтобы подчеркнуть, что эта заметка, в первую очередь, предназначеная для биологов. Также поступают авторы соответствующих изданий: в названии они показывают, для какой аудитории предназначены их книги, и используют в тексте упрощения (минимум спец. символов и сложных формул в изданиях для биологов) или усложнения (доказательства теорем и выводы формул в изданиях для физиков).


Вид Южного берега Крыма

Основные понятия

Сырые данные
Сырыми назваются исходные непреобразованные данные. Это первичный материал как он есть, полученный в ходе наблюдений или эксперимента. Сырые данные считаются наиболее ценными, так как позволяют любому перепроверить результаты анализа или провести на их основе собственные исследования.

Объект и признаки
Объект — это то, что мы исследуем. Например, численность разных видов в сообществе, обилие вида в разных районах, совокупность абиотических и биотических характеристик в точке, признаки форм тела представителя вида, характеристики траектории движения микроорганизма.

Признаки объекта — это набор числовых значений, которые его описывают. Например:

  • объект численность видов сообщества в заданном районе описывается набором, состоящим из численности вида А, вида Б, вида В и т. д.
  • объект обилие вида в разных районах описывается набором, который содержит обилие вида в районе А, в районе Б, в районе В и т. д.
  • объект совокупность абиотических и биотических характеристик описывает значения этих характеристик в конкретной точке: значение характеристики А, характеристики Б, характеристики В и т. д.
  • объект признаки формы тела представителя вида описывает особенностями формы особи, выраженные какими-то числами, например — размерами: размер А, размер Б, размер В и т. д.
  • объект характеристики траектории движения микроорганизма описывает какие-то показатели траекторий, например: среднюю скорость, спрямленность, средний азимут движения и т. д.

С математической точки зрения признаки объекта — это вектор числовых или иных значений: текстовых, логических, прочих.

Позиция признаков
Позиция каждого признака в векторе строго фиксирована и ее нельзя изменить. Например, в признаках объектов сообщество X и сообщество Y на первом месте должна всегда стоять численность вида А, затем вида Б, потом В, — и их нельзя поменять местами. То же самое с объектами форма особи X, Y и Z: их вектора признаков должны на первом месте содержать размер А, потом Б, потом В и не иначе.



Матрица данных
Объекты и их признаки хранят в таблице — матрице. В большинстве статистических программ считается, что объекты хранятся в строках, а признаки — в столбцах. Это нужно помнить, когда вы формируете матрицу данных.

Обычно объекты — это строки, признаки — это столбцы матрицы данных.

Первая колонка матрицы данных часто содержит названия объектов, а первая строка — названия признаков.


Нулевые и отсутствующие признаки
Следует различать нулевое и отсутствующее значения признака. Когда значение какого-то признака объекта не известно, в векторе признаков в этой позиции ставят специальный символ отсутствия данных (это может быть просто пустое место), а ноль пишут только, когда зачение действительно равно нулю.

Когда значение признака нулевое — пишем ноль, а когде оно не известно — пишем специальный символ отсутствия данных.

Например, если вид А отсутствовал в заданной пробе, то в качестве значения численности мы пишем 0, а если он был, но численность его мы не измерили, то есть она не известна, то в качестве значения мы пишем символ отсутствия данных.

Узнайте в документации к статистической программе, какой символ используется для указания отсутствующих данных.


Дополнительное чтение

Признаковое описание объекта на сайте machinelearning.ru.

«Матрица „объекты × признаки“ является стандартным и наиболее распространённым способом представления исходных данных в задачах классификации и регрессии. Подавляющее большинство методов обучения приспособлены к обработке именно таких данных. Однако на практике встречаются задачи, в которых данные устроены сложнее. [...] В таких случаях по имеющимся исходным данным вычисляются некоторые признаки, что позволяет привести данные к стандартному матричному виду. Этот прием называется извлечением признаков из данных (features extraction) или генерацией признаков (features generation).»

«Любой алгоритм регрессии или классификации также может рассматриваться в роли признака. Хотя это наблюдение тривиально, оно дает ключ к построению суперпозиций или композиций алгоритмов. Всегда имеется возможность, построив один или несколько алгоритмов, присоединить их к признаковому описанию в роли новых признаков и использовать при построении следующего алгоритма.»



Если после прочтения этой прекрасной заметки вам вдруг непреодолимо захотелось меня поблагодарить, переведите мне 200 руб. на круасан с чаем. А я пока напишу что-то новенькое.

 Нет комментариев    20   10 мес   анализ данных   статистика

Дисперсионный анализ средних длин раковин моллюсков

Коллега попросил помочь с выполнение дисперсионного анализа. Рассказываю, что получилось.

У нас есть три ряда длин раковин моллюсков, полученные в три разных года: 1981, 1998 и 2012. Мы хотим узнать, есть ли статистически достоверное различие между средними длинами в каждый период или нет? Расскажу, как это сделать.

Фрагмент исходных данных

Сначала посмотрим на статистическое описание данных.

Средние и медианы неплохо отличаются, наверное различия все-таки есть.

Потом построим диаграммы размахов, в простонародье — ящики с усами.

Второй и третий ящики практически полностью пересекаются с первым. Значит различия недостоверны?

Теперь попробуем попарно сравнить средние при помощи t-теста стьюдента: первое со вторым, второе с третьим и третье с первым. Наши данные независимы, потому что мы каждый раз измеряли разных моллюсков. Значит применим t-тест для независимых выборок. Но предварительно проверим данные на нормальность. Если выборки имеют нормальное распределение, используем t-тест. Если ненормальное, прочитаем Сергея Мастицкого (стр. 36):

Если значение распределены ненормально, применение параметрического t-теста будет часто приводить к искаженным результатам. В таких случаях следует воспользоваться непараметрическим аналогом теста стьюдента. Например можно использовать u-тест манна-уитни.

Вперед.

Попарные сравнения u-тестом манна-уитни

Попарные сравнения показали отличия средних.

А теперь читаем книгу Мастицкого уже на стр. 43:

Тесть стьюдента и его непараметрические аналоги предназначены для сравнения исключительно двух выборок. Очень часто исследователи допускают ошибку: используют t-тест для попарных сравнений более двух выборок.

Надо же, оказывается мы допустили частую ошибку статистических профанов. И как нам быть?

Для избежания данной ошибки необходимо использовать дисперсионный анализ.

Алилуя! Но теперь надо прочитать хорошие книги о дисперсионном анализе?

Нет, совсем не обязательно. Автоматизация статистических вычислений, в настоящее время, достигла таких высот, что вам всего лишь нужно нажать правильные кнопки. Все остальное сделает машина. Например так работает Сигмаплот. Он сам проверит данные на нормальность и выберет правильный тип дисперсионного анализа.

Наши данные оказались ненормальными, поэтому Сигмаплот предложил непараметрический дисперсионный анализ крускала-уолиса (H-тест) и объяснил полученные результаты.

Если бы мы воспользовались Статистикой или Эр, нам пришлось бы интерпретировать полученные цифры. Для этого следует хорошо разобраться в дисперсионном анализе и сопутствующих методах. То есть пройти хороший курс биометрии.

Но тот-кто-знает, что «интерфейс — зло» и «потеть должна машина», тот выберет способ «нажал на кнопку и получил развернутый ответ». Мозги, в этом случае, пригодятся для интерпретации ответа.


Пирамида Лебедева

Выбирайте сами. И, да — это не реклама Сигмаплота. Просто мне понравилось, как он интерпретировал результат.

Книги, в любом случае, читать полезно.

Книги о дисперсионном анализе

М. попросила проверить, достоверно ли различие между длинами раковин моллюсков? Причем с помощью дисперсионного анализа. А я, как это бывает, позабыл как его выполнить. Чтобы вспомнить, принялся читать книги. И родился у меня рейтинг прочитанного.

Не мудрствуя лукаво, разделил книги на две категории: многоразовые — к которым буду обращаться и перечитывать, и одноразовые — пролистал и выбросил в корзину.

Многоразовые книги

Мастицкий С. Э. (2009) Методическое пособие по использовании программы Statistica при обработке данных биологических исследований. Минск: Ин-т рыбного хозяйства.

Прекрасное руководство для прикладных статистов.

Автор кратко описывает для каких рядов данных подходит тот или иной прием и рассказывает, как их выполнить в «Статистике». Книга полезна, даже если вы не используете «Статистику».





Любищев А. А. (1986) Дисперсионный анализ в биологии. М.: Изд-во Моск. ун-та.

О том как планировать эксперименты и интерпретировать результаты без помощи компьютера.

Книга написана в середине 20-го века. Написано легко, с разбором многочисленных примеров и методикой ручных вычислений. Буду не раз к ней возвращаться.





Плохинский Н. А. (1960) Дисперсионный анализ. Новосибирск: Изд-во СО АН СССР.

Дисперсионный анализ на бумаге.

Ясно и прекрасно.





Одноразовые книги

Аренс Х., Лёйтер Ю. (1985) Многомерный дисперсионный анализ / Пер. с немецкого. М.: Финансы и статистика.

Полезно, кратко, по делу.

Книга попала в одноразовые, потому что ее основная аудитория — программисты, которые собираются писать софт для стат. анализа с нуля.





Маркова Е. В., Денисов В. И., Полетаева И. А., Пономарев В. В. (1982) Дисперсионный анализ и синте планов на ЭВМ. М.: Наука.

За деревьями леса не видно.

Много деталей, но не всегда ясна суть. Ориентирована на программистов, на что и указывает название.





Шеффе Г. (1980) Дисперсионный анализ / Пер. с английского. Изд. второе. М.: Наука. Гл. ред. физ.-мат. лит-ры.

Сложно, для истинных математиков.

Книга переполнена формулами, определениями и доказательствами. Написана для математиков, которые хотят досконально во всем разобраться и, возможно, сделать лучше. Остальные не увидят здесь сути анализа.





Яковлев В., Яковлева О. (2015) Дисперсионный анализ в Excel. Lap Lambert Acad. Publ.

Хрень полная.

Не тратьте время — выбрасывайте в корзину, не читая.





Рейтинг отражает мое лично впечатление от указанных книг. Ваше мнение может быть другим.



Читайте книги.

Вопрос-ответ. Кратко о доверительном интервале

Коллега спросила:

скажи мне простыми словами, что показывает доверительный интервал. Что значит 13493 ± 192, где 13493 — это число животных на метр квадратный, а 192 — это доверительный интервал.

Отвечаю.

Все количественные оценки в биологии — вероятностные. Это значит, что приведенное значение 13,5 тыс. животных на метр квадратный, с некоторой вероятностью описывает реальное кол-во животных на данной площади. Не факт, что на соседних площадках их будет столько же, но если исследована достаточно большая площадь, то в среднем эта величина неплоха.

Доверительный интервал — это еще одна вероятностная величина. Он показывает границы диапазона, в который с вероятностью (обычно) 95% попадет среднее значение при выборе иных исследуемых площадок. То есть, вот ты исследовала один участок, нашла среднее значение организмов и посчитала дов. интервал. Так вот, если ты исследуешь другой соседний участок и найдешь среднее число животных на нем, то с вероятностью 95% эта средняя величина будет находиться в интервале: 13301=13493-192 и 13685=13493+192.

Кстати, я бы не стал с такой точностью приводит среднее, а округлил бы его до 13,5 тыс. ± 200.

Выполнение R скриптов на ПХП

Надо выполнить сложные статистические вычисления с помощью ПХП. Писать свои модули сложно, долго и бессмысленно. Придумал интегрироваться с Эр.

Библиотека php-r Александра Качкаева позволяет выполнять скрипты Эр на ПХП. Примеры убедительны, но сам еще не пробовал.

У кого есть опыт работы с php-r?

С какими другими модулями для выполнения многомерных статистических расчетов на ПХП вы знакомы (дискриминантный анализ, кластерный анализ, ординационный анализ)?

 65   2016   R   ПХП   статистика