{
    "version": "https:\/\/jsonfeed.org\/version\/1",
    "title": "Математик среди биологов: заметки с тегом стандартизация",
    "_rss_description": "Я немного умею складывать, но от вычитания у меня всегда кружится голова",
    "_rss_language": "ru",
    "_itunes_email": "",
    "_itunes_categories_xml": "",
    "_itunes_image": "",
    "_itunes_explicit": "",
    "home_page_url": "https:\/\/antonlyakh.ru\/blog\/tags\/standartizaciya\/",
    "feed_url": "https:\/\/antonlyakh.ru\/blog\/tags\/standartizaciya\/json\/",
    "icon": false,
    "author": {
        "name": "Антон Лях",
        "url": "https:\/\/antonlyakh.ru\/blog\/",
        "avatar": false
    },
    "items": [
        {
            "id": "470",
            "url": "https:\/\/antonlyakh.ru\/blog\/all\/standartizaciya-chislovyh-dannyh\/",
            "title": "Стандартизация числовых данных",
            "content_html": "<script id=\"MathJax-script\" async src=\"https:\/\/cdn.jsdelivr.net\/npm\/mathjax@3\/es5\/tex-mml-chtml.js\"><\/script>\n<script id=\"MathJax-script\" async src=\"http:\/\/antonlyakh.ru\/mathjax\/es5\/tex-mml-chtml.js\"><\/script>\n<p>Это продолжение серии заметок об <a href=\"https:\/\/antonlyakh.ru\/blog\/tags\/analiz-dannyh\/\">анализе биологических данных<\/a>. В прошлый раз мы разобрали <a href=\"https:\/\/antonlyakh.ru\/blog\/all\/obekt-i-priznaki-obekta-v-biologicheskoy-statistike\/\">понятие объекта и его признаков<\/a>.<\/p>\n<p><br\/><\/p>\n<p>Сегодня рассмотрим процедуру предварительной обработки первичных данных — <i>стандартизацию.<\/i><\/p>\n<p><br\/><\/p>\n<p>Допустим нам нужно статистически сравнить или сгруппировать несколько наблюдений по схожести признаков (например, выполнив кластерный анализ). Каждое наблюдение — это ряд числовых значений, к примеру, биомасс разных видов организмов. Ряды наблюдений упорядочены: первой всегда идет биомасса вида А, затем вида Б и так далее.<\/p>\n<p>У значений есть особенность: в пределах ряда они могут отличаются в несколько раз, потому что мы изучаем как крупные, так и мелкие организмы. В результате биомасса одного или нескольких видов часто в несколько раз превышает остальные. Как на графике.<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/sample_000.abs__vals.png\" width=\"800\" height=\"420\" alt=\"\" \/>\n<div class=\"e2-text-caption\">Первичные нестандартизованные данные, строки соответствуют наблюдениям, столбцы — видам. Биомассса первого вида практически во всех случаях подавляет биомассу остальных, поэтому кластерный анализ таких данных приведет к неверным выводам<\/div>\n<\/div>\n<p>Такие наблюдения сравнивать некорректно. Виды, доминирующие по биомассе, будут сильнее всего влиять на результаты сравнения. Поэтому получится, что мы будем сравнивать не биомассы всех видов, а только нескольких доминирующих (в частном случае — одного).<\/p>\n<p>Теперь выполним стандартизацию по видам (по столбцам).<\/p>\n<div class=\"e2-text-picture\">\n<img src=\"https:\/\/antonlyakh.ru\/blog\/pictures\/sample_000.abs__vals_scaled_rows.png\" width=\"800\" height=\"420\" alt=\"\" \/>\n<div class=\"e2-text-caption\">Данные стандартизованные по признакам (столбцам)<\/div>\n<\/div>\n<p>После стандартизации значения выровнялись и исчезло резкое доминирование отдельных видов. Теперь на результаты кластерного анализа будут влиять все значения. А его результаты будут более корректными.<\/p>\n<h3>Формула стандартизации<\/h3>\n<p>Для стандартизации ряда значений (строки или столбца) необходимо вычислить среднее \\( \\mu \\) и стандартное отклонение \\( \\sigma \\) значений ряда, затем отнять среднее от каждого элемента ряда и поделить разницу на стандартное отклонение:<\/p>\n<p>\\( y_i = (x_i — \\mu) \/ \\sigma \\).<\/p>\n<p>После таких манипуляций среднее ряда станет равным нулю, а стандартное отклонение — единице.<\/p>\n<p>Полученные величины \\( y_i \\) будут <a href=\"https:\/\/stats.stackexchange.com\/a\/398190\/37265\">выражать значения в пропорции к стандартному отклонению<\/a>: то есть 1 будет означать одно стандартное отклонение, 2 — два и т. д.<\/p>\n<h3>Код на R<\/h3>\n<p>Если вы работаете в R, для стандартизации используйте функцию <var>scale()<\/var>. Она стандартизирует столбцы переданной матрицы.<\/p>\n<pre class=\"e2-text-code\"><code class=\"\">standardized_columns &lt;- scale(matrix)<\/code><\/pre><p>Если необходимо стандартизировать строки, транспонируйте <var>t<\/var> матрицу, а затем транспонируйте результат.<\/p>\n<pre class=\"e2-text-code\"><code class=\"\">standardized_rows &lt;- t( scale( t(matrix) ) )<\/code><\/pre><h3>Когда применять стандартизацию<\/h3>\n<p>Обычно стандартизацию применяют, когда диапазоны изменения значения признаков существенно отличаются, как в примере выше. Вот еще несколько рекомендация на английском <a href=\"https:\/\/stats.stackexchange.com\/questions\/19216\/variables-are-often-adjusted-e-g-standardised-before-making-a-model-when-is\">о применимости стандартизации<\/a>.<\/p>\n",
            "date_published": "2023-06-01T11:27:27+03:00",
            "date_modified": "2023-06-01T17:35:51+03:00",
            "image": "https:\/\/antonlyakh.ru\/blog\/pictures\/sample_000.abs__vals.png",
            "_date_published_rfc2822": "Thu, 01 Jun 2023 11:27:27 +0300",
            "_rss_guid_is_permalink": "false",
            "_rss_guid": "470",
            "_e2_data": {
                "is_favourite": true,
                "links_required": [
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css",
                    "system\/library\/highlight\/highlight.js",
                    "system\/library\/highlight\/highlight.css"
                ],
                "og_images": [
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/sample_000.abs__vals.png",
                    "https:\/\/antonlyakh.ru\/blog\/pictures\/sample_000.abs__vals_scaled_rows.png"
                ]
            }
        }
    ],
    "_e2_version": 3559,
    "_e2_ua_string": "E2 (v3559; Aegea)"
}