Поиск по сайту:

Как подсчитать количество строк в CSV-файле в Python?


Python – популярный язык программирования, широко используемый для анализа данных и научных вычислений. Он предоставляет широкий спектр библиотек и инструментов, которые упрощают и ускоряют манипулирование и анализ данных. Одной из таких библиотек является Pandas, построенная на основе NumPy и предоставляющая простые в использовании структуры данных и инструменты анализа данных для Python.

В этом уроке мы рассмотрим, как подсчитать количество строк в CSV-файле с помощью Python и библиотеки Pandas. Подсчет количества строк в файле CSV — это обычная операция, необходимая в задачах анализа данных и машинного обучения. Используя Pandas, мы можем легко прочитать CSV-файл в объект DataFrame, а затем использовать атрибут shape или функцию len() для подсчета количества строк в файле. В следующем разделе статьи мы рассмотрим шаги по чтению CSV-файла с помощью Pandas, а затем продемонстрируем, как подсчитать количество строк в файле, используя различные методы.

Как подсчитать количество строк в CSV-файле в Python?

Мы будем использовать Python 3 и библиотеку Pandas для подсчета количества строк в файле CSV.

Прежде чем мы начнем, убедитесь, что в вашей системе установлены Python и Pandas. Если у вас не установлен Pandas, вы можете установить его с помощью pip — установщика пакетов для Python.

Откройте командную строку (в Windows) или терминал (в Linux/macOS) и введите следующую команду:

pip install pandas

Приведенная выше команда загрузит и установит библиотеку Pandas в вашей системе.

После установки библиотеки Pandas мы можем импортировать ее в наш код Python с помощью оператора импорта. Вот пример того, как импортировать Pandas:

import pandas as pd

В приведенном выше коде мы импортируем библиотеку Pandas и для простоты присваиваем ей псевдоним pd. Это очень распространенное соглашение, используемое в программировании на Python. Теперь, когда мы импортировали Pandas, мы можем начать использовать его функции и классы в нашем коде для подсчета количества файлов в CSV-файле.

Мы будем использовать метод read_csv() Pandas для чтения файла CSV в объект DataFrame. Объект DataFrame представляет собой двумерную табличную структуру данных, которая обычно используется в задачах анализа и манипулирования данными.

Чтобы прочитать CSV-файл с помощью Pandas, мы можем использовать следующий фрагмент кода:

import pandas as pd

df = pd.read_csv('sample.csv')

В приведенном выше примере кода мы используем метод read_csv() Pandas для чтения CSV-файла с именем sample.csv. Это вернет объект DataFrame, содержащий данные из файла CSV. Переменная df используется для хранения этого объекта DataFrame.

Pandas предоставляет два простых способа подсчета количества строк в объекте DataFrame: использование атрибута shape и функции len().

Использование атрибута формы DataFrame

Атрибут shape объекта DataFrame можно использовать для получения количества строк и столбцов в DataFrame. Поскольку количество строк в DataFrame соответствует количеству строк в CSV-файле, мы можем использовать первый элемент кортежа атрибутов формы, чтобы получить количество строк в CSV-файле.

Пример

# Import the pandas library as pd
import pandas as pd

# Read the CSV file into a pandas DataFrame object
df = pd.read_csv('filename.csv')


# Get the number of rows in the DataFrame, which is equal to the number of lines in the CSV file
num_lines = df.shape[0]

# Print the number of lines in the CSV file
print("Number of lines in the CSV file: ", num_lines)

В приведенном выше коде мы используем атрибут shape объекта DataFrame, чтобы получить количество строк в DataFrame, которое соответствует количеству строк в CSV-файле. Затем мы сохраняем это значение в переменной num_lines и выводим его на консоль. Вывод приведенного выше фрагмента кода будет выглядеть примерно так:

Выход

Number of lines in the CSV file:  10

Теперь, когда мы знаем, как подсчитать количество строк в CSV-файле в Python, используя атрибут формы Dataframe, давайте продолжим и узнаем о методе len():

Использование функции len()

В качестве альтернативы мы также можем использовать встроенную функцию len() для подсчета количества строк в DataFrame, что снова соответствует количеству строк в CSV-файле.

Пример

# Import the pandas library as pd
import pandas as pd

# Read the CSV file into a pandas DataFrame object
df = pd.read_csv('filename.csv')

# Count the number of rows in the DataFrame object using the built-in len() function
num_lines = len(df)

# Print the number of lines in the CSV file
print("Number of lines in the CSV file: ", num_lines)

В приведенном выше фрагменте кода мы используем функцию len(), чтобы получить количество строк в DataFrame, что снова соответствует количеству строк в файле CSV. Затем мы сохраняем это значение в переменной num_lines и выводим его на терминал. Опять же, вывод приведенного выше кода будет выглядеть примерно так:

Выход

Number of lines in the CSV file:  10

Заключение

В этом уроке мы научились подсчитывать количество строк в CSV-файле с помощью Python и библиотеки Pandas. Мы предоставили примеры для двух методов: использования атрибута формы DataFrame и использования встроенной функции len(). Используя Pandas, мы можем легко прочитать CSV-файл в объект DataFrame, а затем подсчитать количество строк в файле, используя атрибут shape или функцию len(). Мы также предоставили пример рабочего кода для каждого из методов, чтобы вам было проще работать.

Статьи по данной тематике: