Поиск по сайту:

Как Seaborn используется для фильтрации и выбора определенных строк или столбцов из моих данных?


Seaborn — это прежде всего библиотека визуализации данных, которая не предоставляет прямых методов фильтрации или выбора определенных строк или столбцов из ваших данных. Однако Seaborn без проблем работает с библиотекой pandas, которая представляет собой мощную библиотеку манипулирования данными на Python. Мы можем использовать pandas для фильтрации и выбора определенных строк или столбцов из ваших данных, а затем использовать Seaborn для визуализации отфильтрованных данных.

Объединив возможности pandas по манипулированию данными для фильтрации и выбора определенных строк или столбцов с возможностями визуализации Seaborn, мы можем получать ценную информацию из наших данных и эффективно сообщать наши выводы посредством визуализации.

Вот подробное объяснение того, как использовать Seaborn в сочетании с pandas для фильтрации и выбора определенных строк или столбцов из наших данных.

Импортируйте необходимые библиотеки

Во-первых, нам нужно импортировать все необходимые библиотеки, такие как seaborn и pandas, в нашу среду Python.

import seaborn as sns
import pandas as pd

Загрузите или создайте данные в DataFrame pandas.

После импорта необходимых библиотек нам необходимо создать данные с помощью функции DataFrame() библиотеки pandas или мы можем загрузить данные с помощью функции read_csv() библиотеки pandas. Используя приведенный ниже код, мы можем загрузить данные в нашу рабочую среду Python.

Пример

import seaborn as sns
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv')
df.head()

Выход

   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250   NaN         S
3            4         1       1  ...  53.1000  C123         S
4            5         0       3  ...   8.0500   NaN         S

[5 rows x 12 columns]

Фильтрация строк на основе условия

Pandas предоставляет различные методы фильтрации строк на основе определенных условий. Например, мы можем использовать аксессор «loc» или «iloc» для фильтрации строк на основе логического условия.

Пример

В этом примере мы используем аксессор «loc» для выбора строк, в которых значения в столбце «Возраст» больше 10. Это создаст новый DataFrame с именем «filtered_df», содержащий отфильтрованные строки.

import seaborn as sns
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv')
# Filter rows where a column meets a specific condition
filtered_df = df.loc[df['Age'] > 10]
res = filtered_df.head()
print(res)

Выход

   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250   NaN         S
3            4         1       1  ...  53.1000  C123         S
4            5         0       3  ...   8.0500   NaN         S

[5 rows x 12 columns]

Выберите конкретные столбцы

Мы можем использовать панды для выбора определенных столбцов из нашего DataFrame. Существует несколько способов сделать это, например, индексирование с именами столбцов или использование средств доступа «loc» или «iloc».

Пример

В этом примере мы создаем новый DataFrame с именем «selected_columns», который содержит только указанные столбцы («Возраст» и «Тариф») из исходного DataFrame.

import seaborn as sns
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv')
# Filter rows where a column meets a specific condition
filtered_df = df.loc[df['Age'] > 10]
# Select specific columns by name
selected_columns = df[['Age', 'Fare']]
# Select specific columns using loc or iloc
selected_columns = df.loc[:,['Age', 'Fare']]
print(selected_columns.head())

Выход

    Age     Fare
0  22.0   7.2500
1  38.0  71.2833
2  26.0   7.9250
3  35.0  53.1000
4  35.0   8.0500

Визуализируйте отфильтрованные или выбранные данные с помощью Seaborn

После того, как мы отфильтровали или выбрали нужные строки или столбцы с помощью панд, мы можем использовать Seaborn для визуализации отфильтрованных данных. Seaborn предоставляет широкий спектр функций построения графиков, которые принимают кадры данных pandas в качестве входных данных.

Мы можем использовать различные другие функции построения графиков Seaborn для визуализации наших отфильтрованных или выбранных данных, таких как линейные графики, гистограммы, коробчатые диаграммы и многое другое. Seaborn предоставляет множество вариантов настройки для улучшения визуального представления наших данных.

Пример

В приведенном выше примере мы используем функцию scatterplot() из Seaborn для создания диаграммы рассеяния из двух столбцов («Возраст» и «Тариф») из DataFrame «filtered_df».

import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv('https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv')
# Filter rows where a column meets a specific condition
filtered_df = df.loc[df['Age'] > 10]
# Create a scatter plot of two columns from the filtered DataFrame
sns.scatterplot(x='Age', y='Fare', data=filtered_df)
plt.show()

Выход

Примечание

Важно отметить, что Seaborn в первую очередь ориентирован на визуализацию данных, а для более сложных задач манипулирования данными нам, возможно, придется полагаться на функциональные возможности, предоставляемые pandas или другими библиотеками манипулирования данными в Python.

Статьи по данной тематике: