Использование функции StandardScaler() для стандартизации данных Python

Здравствуйте, читатели! В этой статье мы сосредоточимся на одном из самых важных методов предварительной обработки в Python — стандартизации с использованием функции StandardScaler().

Итак, начнем!!

Необходимость стандартизации

Прежде чем перейти к стандартизации, давайте сначала разберемся с концепцией масштабирования.

Масштабирование объектов — важный шаг в моделировании алгоритмов с наборами данных. Данные, которые обычно используются для целей моделирования, получают с помощью различных средств, таких как:

Опросник
Опросы
Исследования
Очистка и т. д.

Таким образом, полученные данные содержат в себе признаки разной размерности и масштаба. Различные масштабы признаков данных отрицательно влияют на моделирование набора данных.

Это приводит к предвзятому результату прогнозов с точки зрения ошибок неправильной классификации и показателей точности. Таким образом, перед моделированием необходимо масштабировать данные.

Это когда стандартизация входит в картину.

Стандартизация – это метод масштабирования, при котором данные не масштабируются путем преобразования статистического распределения данных в следующий формат:

среднее – 0 (ноль)
стандартное отклонение – 1

Таким образом, весь набор данных масштабируется с нулевым средним значением и единичной дисперсией.

Давайте теперь попробуем реализовать концепцию стандартизации в следующих разделах.

Функция Python sklearn StandardScaler()

Библиотека Python sklearn предлагает нам функцию StandardScaler() для стандартизации значений данных в стандартный формат.

Синтаксис:

object = StandardScaler()
object.fit_transform(data)

В соответствии с приведенным выше синтаксисом мы изначально создаем объект функции StandardScaler(). Далее мы используем fit_transform() вместе с назначенным объектом для преобразования данных и их стандартизации.

Примечание. Стандартизация применима только к значениям данных, следующим за нормальным распределением.

Стандартизация данных с помощью функции StandardScaler()

Взгляните на приведенный ниже пример!

from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
 
dataset = load_iris()
object= StandardScaler()
 
# Splitting the independent and dependent variables
i_data = dataset.data
response = dataset.target
 
# standardization 
scale = object.fit_transform(i_data) 
print(scale)

Объяснение:

Импортируйте необходимые библиотеки. Мы импортировали библиотеку sklearn для использования функции StandardScaler.
Загрузить набор данных. Здесь мы использовали набор данных IRIS из библиотеки sklearn.datasets. Вы можете найти набор данных здесь.
Назначить объект функции StandardScaler().
Разделите независимые и целевые переменные, как показано выше.
Примените функцию к набору данных с помощью функции fit_transform().

Выход:

Заключение

На этом мы подошли к концу этой темы. Не стесняйтесь комментировать ниже, если у вас возникнут какие-либо вопросы.

Для получения дополнительных сообщений, связанных с Python, следите за обновлениями @ Python с JournalDev и до тех пор, счастливого обучения! :)