<?xml version="1.0" encoding="utf-8"?> 
<rss version="2.0"
  xmlns:itunes="http://www.itunes.com/dtds/podcast-1.0.dtd"
  xmlns:atom="http://www.w3.org/2005/Atom">

<channel>

<title>Математик среди биологов: заметки с тегом SHA-256</title>
<link>https://antonlyakh.ru/blog/tags/sha-256/</link>
<description>Я немного умею складывать, но от вычитания у меня всегда кружится голова</description>
<author>Антон Лях</author>
<language>ru</language>
<generator>E2 (v3559; Aegea)</generator>

<itunes:owner>
<itunes:name>Антон Лях</itunes:name>
<itunes:email></itunes:email>
</itunes:owner>
<itunes:subtitle>Я немного умею складывать, но от вычитания у меня всегда кружится голова</itunes:subtitle>
<itunes:image href="" />
<itunes:explicit></itunes:explicit>

<item>
<title>Проверяем уникальность выборок в методе бустрепа при помощи хешей</title>
<guid isPermaLink="false">471</guid>
<link>https://antonlyakh.ru/blog/all/proveryaem-unikalnost-vyborok-v-metode-bustrepa-pri-pomoschi-hes/</link>
<pubDate>Thu, 29 Jun 2023 12:03:20 +0300</pubDate>
<author>Антон Лях</author>
<comments>https://antonlyakh.ru/blog/all/proveryaem-unikalnost-vyborok-v-metode-bustrepa-pri-pomoschi-hes/</comments>
<description>
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://antonlyakh.ru/blog/pictures/cvety-pod-nogami---1.png" width="800" height="600" alt="" /&gt;
&lt;div class="e2-text-caption"&gt;Где-то в крымском лесу&lt;/div&gt;
&lt;/div&gt;
&lt;p&gt;Это продолжение серии заметок об &lt;a href="https://antonlyakh.ru/blog/tags/analiz-dannyh/"&gt;анализе биологических данных&lt;/a&gt;.&lt;/p&gt;
&lt;p&gt;&lt;br/&gt;&lt;/p&gt;
&lt;p&gt;Сегодня рассмотрим частную задачу, которая может возникнуть при использования метода бустрепа.&lt;/p&gt;
&lt;p&gt;&lt;i&gt;Дано множество &lt;a href="https://antonlyakh.ru/blog/all/obekt-i-priznaki-obekta-v-biologicheskoy-statistike/"&gt;объектов&lt;/a&gt;. Необходимо случайным образом составить из них неповторяющиеся выборки. Задача заключается в проверке уникальности каждой выборки. Для этого используем хеш.&lt;/i&gt;&lt;/p&gt;
&lt;p&gt;&lt;br/&gt;&lt;/p&gt;
&lt;h3&gt;Бутстреп&lt;/h3&gt;
&lt;p&gt;Метод бустрепа предполагает, что из множества исходных данных мы создаем случайную выборку и вычисляем по ней некоторые статистические величины: среднее, дисперсию и тому подобные. Затем мы создаем новую случайную выборку, вычисляем новые величины и так продолжаем очень много раз. В результате по полученным значениям мы оцениваем реальные статистические величины. Достоверность оценок как раз достигается за счет многократного выбора.&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;a href="https://habr.com/ru/companies/X5Tech/articles/679842/"&gt;Немного о бустрепе&lt;/a&gt;.&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h3&gt;Уникальные выборки&lt;/h3&gt;
&lt;p&gt;В классическом бустреп-анализе могут повторяться как сами выборки, так и элементы в каждой выборке. Но в данной случае нам нужно создать совокупность уникальных выброк. Для проверки уникальности каждой выборки используем хеш.&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;Хеш — это математическое преобразование, переводящее произвольный входной массив данных в строку фиксированной длины, состоящую из букв и цифр. Хеш считается хорошим, если он устойчив к колизиям — это когда невозможно получить из различных входных последовательностей одинаковые хеши.&lt;br /&gt;
&lt;a href="https://blog.group-ib.ru/hash"&gt;Group-IB: Хеш четкий и хеш нечеткий&lt;/a&gt;.&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h3&gt;Хеш&lt;/h3&gt;
&lt;p&gt;Для создания хеша объединим все элементы выборки (их значения, идентификаторы или названия) в одну строку и вычислим хеш строки. Затем проверим, встречался ли такой хеш ранее (в массиве сохраненных хешей). Если его там нет, значит выборка уникальная.&lt;/p&gt;
&lt;p&gt;Вот как можно составить строку для хеширования из данных.&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Если данные — это символы, например названия, тогда объединяем их в одну строку:&lt;/li&gt;
&lt;li&gt;’ellipse’ + ’convex’ + ’square’ + ’curve’ → ’ellipseconvessquarecurve’.&lt;/li&gt;
&lt;li&gt;Если данные — это числа, то считаем их строками и тоже объединяем в одну строку:&lt;/li&gt;
&lt;li&gt;17.5 + 21.1 + 33.333 + 77.00098 + 1 + 0.008 → ’17.521.133.33377.0009810.008’&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Алгоритмов хеширования много. Среди них наиболее распространены: MD5, SHA-1, SHA-2, SHA-256. Используйте любой.&lt;/p&gt;
&lt;p&gt;Вот хеши SHA-256 двух вышенаписанных строк:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;i&gt;ellipseconvessquarecurve&lt;/i&gt; → 6d80b7d933b69b974189bd2a61b90a05f050c62afa055fb5a033f36114d360a2&lt;/li&gt;
&lt;li&gt;&lt;i&gt;17.521.133.33377.0009810.008&lt;/i&gt; → d1a728197a46f18060a0c2533938c881b0d48e8e65358f21f1d86dd0f5f1612b&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Успехов в анализе данных.&lt;/p&gt;
</description>
</item>


</channel>
</rss>