4 заметки с тегом

вопрос

Дисперсионный анализ средних длин раковин моллюсков

Коллега попросил помочь с выполнение дисперсионного анализа. Рассказываю, что получилось.

У нас есть три ряда длин раковин моллюсков, полученные в три разных года: 1981, 1998 и 2012. Мы хотим узнать, есть ли статистически достоверное различие между средними длинами в каждый период или нет? Расскажу, как это сделать.

Фрагмент исходных данных

Сначала посмотрим на статистическое описание данных.

Средние и медианы неплохо отличаются, наверное различия все-таки есть.

Потом построим диаграммы размахов, в простонародье — ящики с усами.

Второй и третий ящики практически полностью пересекаются с первым. Значит различия недостоверны?

Теперь попробуем попарно сравнить средние при помощи t-теста стьюдента: первое со вторым, второе с третьим и третье с первым. Наши данные независимы, потому что мы каждый раз измеряли разных моллюсков. Значит применим t-тест для независимых выборок. Но предварительно проверим данные на нормальность. Если выборки имеют нормальное распределение, используем t-тест. Если ненормальное, прочитаем Сергея Мастицкого (стр. 36):

Если значение распределены ненормально, применение параметрического t-теста будет часто приводить к искаженным результатам. В таких случаях следует воспользоваться непараметрическим аналогом теста стьюдента. Например можно использовать u-тест манна-уитни.

Вперед.

Попарные сравнения u-тестом манна-уитни

Попарные сравнения показали отличия средних.

А теперь читаем книгу Мастицкого уже на стр. 43:

Тесть стьюдента и его непараметрические аналоги предназначены для сравнения исключительно двух выборок. Очень часто исследователи допускают ошибку: используют t-тест для попарных сравнений более двух выборок.

Надо же, оказывается мы допустили частую ошибку статистических профанов. И как нам быть?

Для избежания данной ошибки необходимо использовать дисперсионный анализ.

Алилуя! Но теперь надо прочитать хорошие книги о дисперсионном анализе?

Нет, совсем не обязательно. Автоматизация статистических вычислений, в настоящее время, достигла таких высот, что вам всего лишь нужно нажать правильные кнопки. Все остальное сделает машина. Например так работает Сигмаплот. Он сам проверит данные на нормальность и выберет правильный тип дисперсионного анализа.

Наши данные оказались ненормальными, поэтому Сигмаплот предложил непараметрический дисперсионный анализ крускала-уолиса (H-тест) и объяснил полученные результаты.

Если бы мы воспользовались Статистикой или Эр, нам пришлось бы интерпретировать полученные цифры. Для этого следует хорошо разобраться в дисперсионном анализе и сопутствующих методах. То есть пройти хороший курс биометрии.

Но тот-кто-знает, что «интерфейс — зло» и «потеть должна машина», тот выберет способ «нажал на кнопку и получил развернутый ответ». Мозги, в этом случае, пригодятся для интерпретации ответа.


Пирамида Лебедева

Выбирайте сами. И, да — это не реклама Сигмаплота. Просто мне понравилось, как он интерпретировал результат.

Книги, в любом случае, читать полезно.

Вопрос-ответ. Кратко о доверительном интервале

Коллега спросила:

скажи мне простыми словами, что показывает доверительный интервал. Что значит 13493 ± 192, где 13493 — это число животных на метр квадратный, а 192 — это доверительный интервал.

Отвечаю.

Все количественные оценки в биологии — вероятностные. Это значит, что приведенное значение 13,5 тыс. животных на метр квадратный, с некоторой вероятностью описывает реальное кол-во животных на данной площади. Не факт, что на соседних площадках их будет столько же, но если исследована достаточно большая площадь, то в среднем эта величина неплоха.

Доверительный интервал — это еще одна вероятностная величина. Он показывает границы диапазона, в который с вероятностью (обычно) 95% попадет среднее значение при выборе иных исследуемых площадок. То есть, вот ты исследовала один участок, нашла среднее значение организмов и посчитала дов. интервал. Так вот, если ты исследуешь другой соседний участок и найдешь среднее число животных на нем, то с вероятностью 95% эта средняя величина будет находиться в интервале: 13301=13493-192 и 13685=13493+192.

Кстати, я бы не стал с такой точностью приводит среднее, а округлил бы его до 13,5 тыс. ± 200.

Ищу ответ. Для чего нужна глобальная система идентифкации биологических данных?

Не могу ответить на простой вопрос:

Зачем нужна глобальная система однозначной идентификации биологических данных?

То есть чтобы ввел номер, а тебе в ответ, бац, связанные с ним биологические данные.

Для чего нам это нужно? Что нам это дает? Какие преимущества мы получаем? Или наоборот — только беды?

Приветствую вразумительные ответы или ссылки на ресурсы, где ответы даны.

«Потому что во многой мудрости много печали; и кто умножает познания, умножает скорбь». Экклезиаст.

Вопрос-ответ. Как написать о методах и результатах в отчете РФФИ

Меня спросили, что писать в отчете по проекту РФФИ. Вспомнил Макса Ильяхова и решил ответить в блоге.

Вопрос

Подскажите, в какой форме и в каком объеме вы заполняете пункт отчета «Полученные за период, на который предоставлен грант, результаты с описанием методов и подходов, использованных при реализации Проекта (описать, уделив особое внимание степени оригинальности и новизны)»?

По сути это основная часть отчета — и здесь должно быть представлено все, что сделано за текущий период. Однако из того, что я узнала у людей — одни сюда вставляют целые статьи, другие кратко пишут в один абзац основные результаты и их новизну.

Есть еще пункт 11 в инструкции по заполнению отчета, в нем говориться что необходимо прикрепить еще файл содержащий информацию о полученных результатах в доступной широкому кругу читателей форме на 1-2 страницы.

Ответ

По моему опыту здесь важен не объем, а содержание. В целом надо следовать поговорке: «краткость — сестра таланта».

Рецензент — это тоже человек. Читать огромный многостраничный чужой текст ему, как и многим, не хочется. Поэтому лучше дать небольшой текст.

Небольшое описание результатов разбитое на абзацы, в каждом абзаце по результату на два-три предложения. Обязательно упомянуть степень новизны, т. е. написать: новое для науки, новое для региона или тривиальный результат подтверждающий известные факты (даже об этом можно написать).

То же самое для методики. Не расписывать ее всю, а дать основные вехи и сослаться на литературу для более детального ознакомления. Если использован какой-то модифицированный или новый подход, обязательно об этом упомянуть.

Чтобы написать для всех, надо представить, что пишешь для школьников или своей бабушки. Представить, что им будет интересно услышать и как им это лучше подать. То есть язык должен быть понятным. Здесь можно даже прикрепить презентацию с картинками.

Предлагаю всем, кто пишет отчеты по проектам, поделиться своим опытом в комментариях.

 Нет комментариев    144   2019   вопрос   ильяхов   отчет   рффи   текст