Как добавить линию регрессии для каждой группы с помощью Seaborn в Python?
Один из наиболее полезных инструментов, предоставляемых Seaborn, — это возможность добавлять линии регрессии к диаграмме рассеяния. Линии регрессии могут быть полезны при анализе взаимосвязи между двумя переменными и выявлении тенденций в данных.
В этой статье мы узнаем, как добавить линию регрессии на группу с помощью Seaborn в Python. У Seaborn есть несколько способов построить диаграммы рассеяния между двумя числами. Например, чтобы построить нужный нам график, мы можем использовать функцию lmplot().
Сиборн
Seaborn — это библиотека Python для построения графиков на основе статистики. Он построен на основе matplotlib и эффективно работает со структурами данных Pandas. Seaborn поможет вам взглянуть на ваши данные и понять, что они означают. Его функции построения графиков работают с массивами и фреймами данных, которые содержат целые наборы данных, и выполняют статистическую агрегацию и семантическое сопоставление, необходимые для построения полезных графиков.
Его декларативный API основан на наборах данных, поэтому вы можете сосредоточиться на том, что означают различные части ваших графиков, а не на том, как их рисовать. Сиборн стремится сделать визуализацию данных основным методом их рассмотрения и понимания. Он предоставляет нам API, ориентированные на наборы данных, поэтому мы можем переключаться между разными способами просмотра одних и тех же переменных, чтобы лучше понять набор данных.
Линия регрессии
Линия регрессии — это линия, показывающая, как набор данных изменяется с течением времени. Другими словами, он показывает лучшую тенденцию из предоставленных данных.
Линии регрессии полезны при составлении прогнозов. Его цель — объяснить, как зависимая переменная (переменная y) связана с одной или несколькими независимыми переменными (переменная x).
Если мы поместим разные значения для независимых переменных в уравнение, которое мы получаем из линии регрессии, мы сможем предсказать, как зависимые переменные будут вести себя в будущем. Этот тип линии в основном используется с диаграммами рассеяния.
График рассеяния
Диаграмма рассеяния используется для группировки элементов по значимости, что может помочь вам лучше понять их на графике. Они могут создавать двухмерную графику, которую можно улучшить, отображая до трех дополнительных переменных, используя при этом значения параметров оттенка, размера и стиля. Все параметры управляют визуальной и семантической информацией, которая используется для различения различных подмножеств. Это может помочь использовать избыточную семантику, чтобы облегчить понимание графиков.
Диаграмма рассеяния и линия регрессии
Диаграмма рассеяния сравнивает значения одной переменной со значениями другой переменной. Наблюдение закономерности или того, насколько близки точки друг к другу, помогает нам понять, как связаны две переменные. С другой стороны, линия регрессии соединяет только те переменные, которые уже изучаются, если кажется, что они имеют сильную связь. Диаграмма рассеяния может дать вам представление об этой взаимосвязи, но для уверенности мы также можем провести проверку гипотезы. Диаграмму рассеяния и линию регрессии можно использовать, чтобы выяснить, является ли какая-либо из пар (x,y) выбросами, спрогнозировать y при определенном значении x и оценить среднее значение y при определенном значении x.
Чего он нам не говорит, так это того, как x и y связаны друг с другом. Основная связь между x и y может быть или не быть причинно-следственной связью, и корреляция никоим образом не означает, что существует причинно-следственная связь.
Добавление линии регрессии для каждой группы с помощью Seaborn
У Seaborn есть несколько способов построить диаграммы рассеяния между двумя числами. Мы можем построить диаграмму рассеяния с помощью Seaborn, используя функции lmplot(), regplot() и scatterplot(). Но они не одинаковы в том, как можно добавить линию регрессии к диаграмме рассеяния.
Сначала мы рассмотрим два способа добавления простой линии регрессии к диаграмме рассеяния в Seaborn. Чтобы добавить одну линию регрессии, мы будем использовать функции lmplot() и regplot(). Если у вас есть набор данных с третьей категориальной переменной, может быть полезно добавить линию регрессии для каждой группы.
Добавление линии регрессии для каждой группы с помощью Seaborn с помощью lmplot()
На диаграмме рассеяния мы будем использовать функцию lmplot(), чтобы добавить линию регрессии для каждой группы.
Пример
import seaborn
# load data
pg = seaborn.load_dataset('penguins')
# use lmplot
import matplotlib.pyplot as pltt
seaborn.lmplot(x="bill_length_mm",
y="flipper_length_mm",
hue="species",
markers='*',
data=pg,
height=6)
pltt.xlabel("Bill Length (mm)")
pltt.ylabel("Flipper Length (mm)")
Выход
Добавление линии регрессии для каждой группы с помощью Seaborn с использованием regplot()
На диаграмме рассеяния мы будем использовать функцию regplot(), чтобы добавить линию регрессии для каждой группы.
Пример
import seaborn
pg = seaborn.load_dataset('penguins')
# use lmplot
import matplotlib.pyplot as pltt
seaborn.regplot(x="bill_length_mm",
y="flipper_length_mm",
data=pg,
)
pltt.xlabel("Bill Length (mm)")
pltt.ylabel("Flipper Length (mm)")
Выход
Заключение
В этой статье мы узнали, что линии регрессии используются для прогнозирования с использованием переменных x и y. Мы поняли, что линии регрессии в основном используются с диаграммами рассеяния с использованием библиотеки Python Seaborn. Мы также обнаружили, что в seaborn есть в основном два метода, с помощью которых мы можем добавлять линии регрессии к диаграмме рассеяния: regplot() и lmplot().