3 заметки с тегом

интерфейс

Дисперсионный анализ средних длин раковин моллюсков

Коллега попросил помочь с выполнение дисперсионного анализа. Рассказываю, что получилось.

У нас есть три ряда длин раковин моллюсков, полученные в три разных года: 1981, 1998 и 2012. Мы хотим узнать, есть ли статистически достоверное различие между средними длинами в каждый период или нет? Расскажу, как это сделать.

Фрагмент исходных данных

Сначала посмотрим на статистическое описание данных.

Средние и медианы неплохо отличаются, наверное различия все-таки есть.

Потом построим диаграммы размахов, в простонародье — ящики с усами.

Второй и третий ящики практически полностью пересекаются с первым. Значит различия недостоверны?

Теперь попробуем попарно сравнить средние при помощи t-теста стьюдента: первое со вторым, второе с третьим и третье с первым. Наши данные независимы, потому что мы каждый раз измеряли разных моллюсков. Значит применим t-тест для независимых выборок. Но предварительно проверим данные на нормальность. Если выборки имеют нормальное распределение, используем t-тест. Если ненормальное, прочитаем Сергея Мастицкого (стр. 36):

Если значение распределены ненормально, применение параметрического t-теста будет часто приводить к искаженным результатам. В таких случаях следует воспользоваться непараметрическим аналогом теста стьюдента. Например можно использовать u-тест манна-уитни.

Вперед.

Попарные сравнения u-тестом манна-уитни

Попарные сравнения показали отличия средних.

А теперь читаем книгу Мастицкого уже на стр. 43:

Тесть стьюдента и его непараметрические аналоги предназначены для сравнения исключительно двух выборок. Очень часто исследователи допускают ошибку: используют t-тест для попарных сравнений более двух выборок.

Надо же, оказывается мы допустили частую ошибку статистических профанов. И как нам быть?

Для избежания данной ошибки необходимо использовать дисперсионный анализ.

Алилуя! Но теперь надо прочитать хорошие книги о дисперсионном анализе?

Нет, совсем не обязательно. Автоматизация статистических вычислений, в настоящее время, достигла таких высот, что вам всего лишь нужно нажать правильные кнопки. Все остальное сделает машина. Например так работает Сигмаплот. Он сам проверит данные на нормальность и выберет правильный тип дисперсионного анализа.

Наши данные оказались ненормальными, поэтому Сигмаплот предложил непараметрический дисперсионный анализ крускала-уолиса (H-тест) и объяснил полученные результаты.

Если бы мы воспользовались Статистикой или Эр, нам пришлось бы интерпретировать полученные цифры. Для этого следует хорошо разобраться в дисперсионном анализе и сопутствующих методах. То есть пройти хороший курс биометрии.

Но тот-кто-знает, что «интерфейс — зло» и «потеть должна машина», тот выберет способ «нажал на кнопку и получил развернутый ответ». Мозги, в этом случае, пригодятся для интерпретации ответа.


Пирамида Лебедева

Выбирайте сами. И, да — это не реклама Сигмаплота. Просто мне понравилось, как он интерпретировал результат.

Книги, в любом случае, читать полезно.

Сила примеров

Это выжимка из заметки Антона Жиянова. Антон снимает шелуху с интерфейсов, обнажая их идеальную сущность.

[...]

Для меня лучшая формула обучения чему угодно — «порция теории + вагон примеров». Забавно, что при этом для большинства преподавателей (да и вообще профессионалов) выдать примеры — огромная трудность.

Любой спец с лёгкостью напишет, как «лучше быть богатым и здоровым, чем бедным и больным» — но заскрипит на примерах. Если попросить профи написать статью — он изложит десяток хороших и правильных принципов, и в лучшем случае один натужный пример (хорошо если не выдуманный).

Я думаю, что успех рассылок и курсов Ильяхова именно в том, что он всегда и всё подаёт на примерах. То же самое в других хороших курсах — например, «Аналитике для предпринимателей» Алексея Куличевского или «Better Web Type» Матея Латина. То же самое стараюсь делать и я в «Интерфейсах для нормальных людей».

Кажется, от примеров выигрывает всё что угодно.

 46   2018   интерфейс   например

Как не нужно делать поиск таксонов: пример Микобанка

Микобанк — база данных с научными названиями грибов.

В конце 2015 года база содержала более 360 тыс. видовых, около 50 тыс. внутривидовых и свыше 3 тыс. названий высших таксонов.

Круговые диаграммы здесь не нужны — достаточно написать число таксонов

Что имеем

Простая функция перечисления всех названий видов грибов в Микобанке отсутствует. Если вы не знаете вида гриба — вы не узнаете ничего. База для гиков-микологов.

Микобанк предлагает шесть вариантов поиска: простой, базовый, продвинутый, типовых экземпляров, терминов и библиографических ссылок.

Простой поиск сложен. Пробую найти информацию о белом грибе с установленным флажком семейства — система ничего не находит.

Базовый поиск еще сложнее. Он содержит несколько полей и дополнительно предлагает сконструировать запрос. Я умею программировать и понимаю, что от меня хотят. Гики-микологи тоже разберуться, нормальные биологи — вряд ли.

После праздников промахиваюсь и пишу название вида в поле для идентификатора записи базы данных. Система ничего не находит.

В продвинутом поиске число полей в 1,5 раза больше. Ухожу с сайта.

Как надо

Для поиска достаточно оставить одно поле, а разбор запроса передать системе.

Воображаемый поиск в Микобанке

Так программировать сложно, но чтобы расти, этому надо учиться.

На чем учиться

Микобанк разрешает скачать список научных названий грибов (25 Мбт). Это большой интересный набор данных. С его помощью вы разберетесь с названиями таксонов, научитесь строить таксономическую базу данных и прокачаете навыки разработки интерфейсов.

О достижениях пишите.

Спасибо Бюро Артема Горбунова за принцип «Интерфейс — зло».