Использование функции StandardScaler() для стандартизации данных Python
Здравствуйте, читатели! В этой статье мы сосредоточимся на одном из самых важных методов предварительной обработки в Python — стандартизации с использованием функции StandardScaler().
Итак, начнем!!
Необходимость стандартизации
Прежде чем перейти к стандартизации, давайте сначала разберемся с концепцией масштабирования.
Масштабирование объектов — важный шаг в моделировании алгоритмов с наборами данных. Данные, которые обычно используются для целей моделирования, получают с помощью различных средств, таких как:
- Опросник
- Опросы
- Исследования
- Очистка и т. д.
Таким образом, полученные данные содержат в себе признаки разной размерности и масштаба. Различные масштабы признаков данных отрицательно влияют на моделирование набора данных.
Это приводит к предвзятому результату прогнозов с точки зрения ошибок неправильной классификации и показателей точности. Таким образом, перед моделированием необходимо масштабировать данные.
Это когда стандартизация входит в картину.
Стандартизация – это метод масштабирования, при котором данные не масштабируются путем преобразования статистического распределения данных в следующий формат:
- среднее – 0 (ноль)
- стандартное отклонение – 1
Таким образом, весь набор данных масштабируется с нулевым средним значением и единичной дисперсией.
Давайте теперь попробуем реализовать концепцию стандартизации в следующих разделах.
Функция Python sklearn StandardScaler()
Библиотека Python sklearn предлагает нам функцию StandardScaler() для стандартизации значений данных в стандартный формат.
Синтаксис:
object = StandardScaler()
object.fit_transform(data)
В соответствии с приведенным выше синтаксисом мы изначально создаем объект функции StandardScaler()
. Далее мы используем fit_transform()
вместе с назначенным объектом для преобразования данных и их стандартизации.
Примечание. Стандартизация применима только к значениям данных, следующим за нормальным распределением.
Стандартизация данных с помощью функции StandardScaler()
Взгляните на приведенный ниже пример!
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
dataset = load_iris()
object= StandardScaler()
# Splitting the independent and dependent variables
i_data = dataset.data
response = dataset.target
# standardization
scale = object.fit_transform(i_data)
print(scale)
Объяснение:
- Импортируйте необходимые библиотеки. Мы импортировали библиотеку sklearn для использования функции StandardScaler.
- Загрузить набор данных. Здесь мы использовали набор данных IRIS из библиотеки sklearn.datasets. Вы можете найти набор данных здесь.
- Назначить объект функции StandardScaler().
- Разделите независимые и целевые переменные, как показано выше.
- Примените функцию к набору данных с помощью функции fit_transform().
Выход:
Заключение
На этом мы подошли к концу этой темы. Не стесняйтесь комментировать ниже, если у вас возникнут какие-либо вопросы.
Для получения дополнительных сообщений, связанных с Python, следите за обновлениями @ Python с JournalDev и до тех пор, счастливого обучения! :)