Как обновить строки и столбцы с помощью Python Pandas
Давайте разберемся, как обновлять строки и столбцы с помощью Python pandas. В реальном мире большую часть времени мы не получаем готовых к анализу наборов данных. Может быть много несоответствий, недопустимых значений, неправильных меток и многого другого. При этом обновление этих значений для достижения единообразия данных является брыжейкой. В этом уроке мы сосредоточимся на том, как обновлять строки и столбцы в Python с помощью pandas. Не тратя много времени на вступление, давайте приступим к делу!
1. Создайте кадр данных Pandas
Во всем этом уроке мы будем использовать фрейм данных, который собираемся создать сейчас. Это даст вам представление об обновлении операций с данными. После этого вы можете применить эти методы к своим данным.
Для создания фрейма данных pandas предлагает имена функций pd.DataFrame
, которые помогут вам создать фрейм данных из некоторых данных. Посмотрим, как это работает.
#create a dictionary
import pandas as pd
fruit_data = {"Fruit": ['Apple','Avacado','Banana','Strawberry','Grape'],"Color": ['Red','Green','Yellow','Pink','Green'],
"Price": [45, 90, 60, 37, 49]
}
fruit_data
Здесь мы создали словарь Python с некоторыми значениями данных. Теперь нас попросили превратить этот словарь в фрейм данных pandas.
#Dataframe
data = pd.DataFrame(fruit_data)
data
Отлично!. Используя функцию pd.DataFrame
от pandas, вы можете легко превратить словарь в кадр данных pandas. Теперь наш набор данных готов к выполнению будущих операций.
Подробнее: Как изменить порядок столбцов с помощью Pandas
2. Обновление столбцов
Иногда столбец или имена функций могут быть непоследовательными. Это может быть с корпусом алфавита и многое другое. Наличие единого дизайна помогает нам эффективно работать с функциями.
Итак, в качестве первого шага мы увидим, как мы можем обновить/изменить имена столбцов или функций в наших данных.
#update the column name
data.rename(columns = {'Fruit':'Fruit Name'})
Вот и все. Так же просто, как показано выше. Вы даже можете обновить несколько имен столбцов одновременно. Для этого вам нужно добавить другие имена столбцов, разделенные запятой под фигурными скобками.
#multile column update
data.rename(columns = {'Fruit':'Fruit Name','Colour':'Color','Price':'Cost'})
Точно так же вы можете обновлять все свои столбцы одновременно.
3. Обновите регистр имен столбцов
Вы могли столкнуться с несогласованностью имен столбцов при работе с наборами данных со многими столбцами.
В наших данных вы можете заметить, что все имена столбцов имеют первую букву заглавными буквами. Всегда желательно иметь общий регистр для всех имен столбцов.
Ну, вы можете преобразовать их в верхний или нижний регистр.
#lower case
data.columns.str.lower()
data
Теперь все наши столбцы в нижнем регистре.
4. Обновление значений строк
Как и обновление столбцов, обновление значений строк также очень просто. Сначала вам нужно найти значение строки, а затем вы можете обновить эту строку новыми значениями.
Вы можете использовать функцию pandas loc
для поиска строк.
#updating rows
data.loc[3]
Fruit Strawberry
Color Pink
Price 37
Name: 3, dtype: object
Мы нашли строку номер 3, в которой есть детали фруктов, клубники. Теперь нам нужно обновить эту строку новым фруктом по имени Ананас и его деталями.
Давайте катиться!
#update
data.loc[3] = ['PineApple','Yellow','48']
data
Вот и все. Надеюсь, вам тоже будет легко обновлять значения строк в данных. Теперь предположим, что вам нужно обновить только несколько деталей в строке, а не всю. Итак, каков ваш подход к этому?
#update specific values
data.loc[3, ['Price']]
Price 48
Name: 3, dtype: object
мы должны обновить только цену фрукта, расположенного в 3-й строке. Мы узнаем, что текущая цена этого фрукта — 48. Но нам нужно обновить ее до 65. Давайте сделаем это.
#updating
data.loc[3, ['Price']] = [65]
data
Потрясающе :Р
Мы обновили цену фрукта Ананас до 65 с помощью всего одной строки кода Python. Вот как это работает. Простой.
5. Обновляйте строки и столбцы в зависимости от условия
Да, теперь мы будем обновлять значения строк на основе определенных условий. Наконец, нам нужны значимые значения, которые должны быть полезны для нашего анализа.
Определим наше состояние.
#Condition
updated = data['Price'] > 60
updated
Что мы собираемся сделать здесь, так это обновить цену фруктов, которые стоят выше 60, как дорогие.
0 False
1 True
2 False
3 True
4 False
Name: Price, dtype: bool
На основе вывода у нас есть 2 фрукта, цена которых превышает 60. Давайте укажем эти фрукты как дорогие в данных.
#Updating
data.loc[updated, 'Price'] = 'Expensive'
data
Поверьте, вы прекрасны :).
Вы сделали это удивительным образом и с совершенством. Во всем этом уроке я никогда не использовал более двух строк кода. Лучшее предложение, которое я могу дать, это попытаться изучить панд как можно больше. Это такая надежная библиотека, которая предлагает множество функций, которые являются однострочными, но способны эпически выполнять свою работу.
Завершение — обновление строк и столбцов
Обновление строк и столбцов в данных — это одна из основных вещей, на которой мы должны сосредоточиться перед любым анализом. С помощью простых функций и кода мы можем сделать данные гораздо более значимыми, и в этом процессе мы обязательно получим некоторое представление о качестве данных, а также о любых дополнительных требованиях. Если мы получим верные данные, поверьте мне, вы сможете раскрыть много бесценных неуслышанных историй.
Я надеюсь, что вы найдете это руководство так или иначе полезным, и не забудьте применить эти методы в своей аналитической работе.
Это все на данный момент. Счастливый питон!!!
Подробнее читайте: Pandas DataFrame