<?xml version="1.0" encoding="utf-8"?> 
<rss version="2.0"
  xmlns:itunes="http://www.itunes.com/dtds/podcast-1.0.dtd"
  xmlns:atom="http://www.w3.org/2005/Atom">

<channel>

<title>Математик среди биологов: заметки с тегом стандартизация</title>
<link>https://antonlyakh.ru/blog/tags/standartizaciya/</link>
<description>Я немного умею складывать, но от вычитания у меня всегда кружится голова</description>
<author>Антон Лях</author>
<language>ru</language>
<generator>E2 (v3559; Aegea)</generator>

<itunes:owner>
<itunes:name>Антон Лях</itunes:name>
<itunes:email></itunes:email>
</itunes:owner>
<itunes:subtitle>Я немного умею складывать, но от вычитания у меня всегда кружится голова</itunes:subtitle>
<itunes:image href="" />
<itunes:explicit></itunes:explicit>

<item>
<title>Стандартизация числовых данных</title>
<guid isPermaLink="false">470</guid>
<link>https://antonlyakh.ru/blog/all/standartizaciya-chislovyh-dannyh/</link>
<pubDate>Thu, 01 Jun 2023 11:27:27 +0300</pubDate>
<author>Антон Лях</author>
<comments>https://antonlyakh.ru/blog/all/standartizaciya-chislovyh-dannyh/</comments>
<description>
&lt;script id="MathJax-script" async src="https://cdn.jsdelivr.net/npm/mathjax@3/es5/tex-mml-chtml.js"&gt;&lt;/script&gt;
&lt;script id="MathJax-script" async src="http://antonlyakh.ru/mathjax/es5/tex-mml-chtml.js"&gt;&lt;/script&gt;
&lt;p&gt;Это продолжение серии заметок об &lt;a href="https://antonlyakh.ru/blog/tags/analiz-dannyh/"&gt;анализе биологических данных&lt;/a&gt;. В прошлый раз мы разобрали &lt;a href="https://antonlyakh.ru/blog/all/obekt-i-priznaki-obekta-v-biologicheskoy-statistike/"&gt;понятие объекта и его признаков&lt;/a&gt;.&lt;/p&gt;
&lt;p&gt;&lt;br/&gt;&lt;/p&gt;
&lt;p&gt;Сегодня рассмотрим процедуру предварительной обработки первичных данных — &lt;i&gt;стандартизацию.&lt;/i&gt;&lt;/p&gt;
&lt;p&gt;&lt;br/&gt;&lt;/p&gt;
&lt;p&gt;Допустим нам нужно статистически сравнить или сгруппировать несколько наблюдений по схожести признаков (например, выполнив кластерный анализ). Каждое наблюдение — это ряд числовых значений, к примеру, биомасс разных видов организмов. Ряды наблюдений упорядочены: первой всегда идет биомасса вида А, затем вида Б и так далее.&lt;/p&gt;
&lt;p&gt;У значений есть особенность: в пределах ряда они могут отличаются в несколько раз, потому что мы изучаем как крупные, так и мелкие организмы. В результате биомасса одного или нескольких видов часто в несколько раз превышает остальные. Как на графике.&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/sample_000.abs__vals.png" width="800" height="420" alt="" /&gt;
&lt;div class="e2-text-caption"&gt;Первичные нестандартизованные данные, строки соответствуют наблюдениям, столбцы — видам. Биомассса первого вида практически во всех случаях подавляет биомассу остальных, поэтому кластерный анализ таких данных приведет к неверным выводам&lt;/div&gt;
&lt;/div&gt;
&lt;p&gt;Такие наблюдения сравнивать некорректно. Виды, доминирующие по биомассе, будут сильнее всего влиять на результаты сравнения. Поэтому получится, что мы будем сравнивать не биомассы всех видов, а только нескольких доминирующих (в частном случае — одного).&lt;/p&gt;
&lt;p&gt;Теперь выполним стандартизацию по видам (по столбцам).&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/sample_000.abs__vals_scaled_rows.png" width="800" height="420" alt="" /&gt;
&lt;div class="e2-text-caption"&gt;Данные стандартизованные по признакам (столбцам)&lt;/div&gt;
&lt;/div&gt;
&lt;p&gt;После стандартизации значения выровнялись и исчезло резкое доминирование отдельных видов. Теперь на результаты кластерного анализа будут влиять все значения. А его результаты будут более корректными.&lt;/p&gt;
&lt;h3&gt;Формула стандартизации&lt;/h3&gt;
&lt;p&gt;Для стандартизации ряда значений (строки или столбца) необходимо вычислить среднее \( \mu \) и стандартное отклонение \( \sigma \) значений ряда, затем отнять среднее от каждого элемента ряда и поделить разницу на стандартное отклонение:&lt;/p&gt;
&lt;p&gt;\( y_i = (x_i — \mu) / \sigma \).&lt;/p&gt;
&lt;p&gt;После таких манипуляций среднее ряда станет равным нулю, а стандартное отклонение — единице.&lt;/p&gt;
&lt;p&gt;Полученные величины \( y_i \) будут &lt;a href="https://stats.stackexchange.com/a/398190/37265"&gt;выражать значения в пропорции к стандартному отклонению&lt;/a&gt;: то есть 1 будет означать одно стандартное отклонение, 2 — два и т. д.&lt;/p&gt;
&lt;h3&gt;Код на R&lt;/h3&gt;
&lt;p&gt;Если вы работаете в R, для стандартизации используйте функцию &lt;var&gt;scale()&lt;/var&gt;. Она стандартизирует столбцы переданной матрицы.&lt;/p&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;standardized_columns &amp;lt;- scale(matrix)&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;Если необходимо стандартизировать строки, транспонируйте &lt;var&gt;t&lt;/var&gt; матрицу, а затем транспонируйте результат.&lt;/p&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;standardized_rows &amp;lt;- t( scale( t(matrix) ) )&lt;/code&gt;&lt;/pre&gt;&lt;h3&gt;Когда применять стандартизацию&lt;/h3&gt;
&lt;p&gt;Обычно стандартизацию применяют, когда диапазоны изменения значения признаков существенно отличаются, как в примере выше. Вот еще несколько рекомендация на английском &lt;a href="https://stats.stackexchange.com/questions/19216/variables-are-often-adjusted-e-g-standardised-before-making-a-model-when-is"&gt;о применимости стандартизации&lt;/a&gt;.&lt;/p&gt;
</description>
</item>


</channel>
</rss>