Выборка начальной загрузки в Python

Это руководство по выборке Bootstrap в Python. В этом уроке мы узнаем, что такое загрузка, а затем посмотрим, как ее реализовать.

Давайте начнем.

Что такое бутстрап-сэмплинг?

Определение начальной выборки выглядит следующим образом:

В статистике Bootstrap Sampling — это метод, который включает в себя многократное взятие выборки данных с заменой из источника данных для оценки параметра совокупности.

В основном это означает, что начальная выборка — это метод, с помощью которого вы можете оценить такие параметры, как среднее значение для всей совокупности, без явного рассмотрения каждой точки данных в совокупности.

Вместо того, чтобы рассматривать всю популяцию, мы рассматриваем несколько подмножеств одинакового размера, взятых из популяции.

Например, если размер вашей совокупности составляет 1000 человек. Затем, чтобы найти среднее значение, вместо рассмотрения всех 1000 записей вы можете взять 50 выборок размера 4 каждая и вычислить среднее значение для каждой выборки. Таким образом, вы будете брать в среднем 200 записей (50X4), выбранных случайным образом.

Аналогичная стратегия используется исследователями рынка для проведения исследований на большом количестве людей.

Как реализовать выборку Bootstrap в Python?

Теперь давайте посмотрим, как реализовать загрузочную выборку в python.

Мы будем генерировать некоторые случайные данные с заданным средним значением. Для этого мы будем использовать модуль NumPy в Python.

Начнем с импорта необходимых модулей.

1. Импортируйте необходимые модули.

Нам нужны следующие модули:

Нумпи
Случайно

Чтобы импортировать эти модули, используйте:

import numpy as np
import random

На следующем шаге нам нужно сгенерировать некоторые случайные данные. Давайте сделаем это с помощью модуля Numpy.

2. Генерация случайных данных

Давайте создадим нормальное распределение со средним значением 300 и 1000 записей.

Код для этого приведен ниже:

x = np.random.normal(loc= 300.0, size=1000)

Мы можем рассчитать среднее значение этих данных, используя:

print (np.mean(x))

Выход :

300.01293472373254

Обратите внимание, что это фактическое среднее значение населения.

3. Используйте Bootstrap Sampling для оценки среднего

Давайте создадим 50 выборок размера 4 каждая, чтобы оценить среднее значение.

Код для этого:

sample_mean = []

for i in range(50):
  y = random.sample(x.tolist(), 4)
  avg = np.mean(y)
  sample_mean.append(avg)

Список sample_mean будет содержать среднее значение для всех 50 выборок. Для оценки среднего значения генеральной совокупности нам необходимо вычислить среднее значение для sample_mean.

Вы можете сделать это, используя:

print(np.mean(sample_mean))

Выход :

300.07261467146867

Теперь, если мы снова запустим код в этом разделе, мы получим другой результат. Это потому, что каждый раз, когда мы запускаем код, мы будем генерировать новые образцы. Однако каждый раз результат будет близок к фактическому среднему значению (300).

При повторном запуске кода в этом разделе мы получаем следующий вывод:

299.99137705245636

Запуская его снова, мы получаем:

300.13411004148315

Полный код для реализации выборки Bootstrap в Python

Вот полный код для этого урока:

import numpy as np
import random

x = np.random.normal(loc= 300.0, size=1000)
print(np.mean(x))

sample_mean = []
for i in range(50):
  y = random.sample(x.tolist(), 4)
  avg = np.mean(y)
  sample_mean.append(avg)

print(np.mean(sample_mean))

Заключение

Это руководство было посвящено выборке Bootstrap в Python. Мы научились оценивать среднее значение совокупности, создавая выборки меньшего размера. Это очень полезно в мире машинного обучения, чтобы избежать переобучения. Надеюсь, вам было интересно учиться вместе с нами!