Как анализировать CSV-файлы в Python

Файлы CSV часто используются для хранения табличных данных в файл. Мы можем легко экспортировать данные из таблиц базы данных или файлов Excel в файлы CSV. Это также легко читается людьми, а также в программе. В этом уроке мы узнаем, как анализировать файлы CSV в Python.

Что такое Парсинг?

Разбор файла означает чтение данных из файла. Файл может содержать текстовые данные, так называемые текстовые файлы, или они могут быть электронной таблицей.

CSV вариант №

CSV означает файлы, разделенные запятыми, то есть данные отделяются друг от друга запятыми. Файлы CSV создаются программой, которая обрабатывает большое количество данных. Данные из файлов CSV можно легко экспортировать в виде электронных таблиц и баз данных, а также импортировать для использования другими программами. Давайте посмотрим, как разобрать файл CSV. Разбирать CSV-файлы в Python довольно просто. Python имеет встроенную библиотеку CSV, которая обеспечивает функциональность чтения и записи данных из файлов CSV и в них. В библиотеке доступны различные форматы файлов CSV, что делает обработку данных удобной для пользователя.

Разбор файла CSV в Python

Чтение файлов CSV с помощью встроенного модуля Python CSV.

import csv

with open('university_records.csv', 'r') as csv_file:
    reader = csv.reader(csv_file)

    for row in reader:
        print(row)

Выход:

Написание CSV-файла на Python

Для записи файла мы должны открыть его в режиме записи или в режиме добавления. Здесь мы добавим данные в существующий файл CSV.

import csv

row = ['David', 'MCE', '3', '7.8']

row1 = ['Lisa', 'PIE', '3', '9.1']

row2 = ['Raymond', 'ECE', '2', '8.5']

with open('university_records.csv', 'a') as csv_file:
    writer = csv.writer(csv_file)

    writer.writerow(row)

    writer.writerow(row1)

    writer.writerow(row2)

Анализ файлов CSV с использованием библиотеки Pandas

Есть еще один способ работы с CSV-файлами, который является наиболее популярным и более профессиональным, — это использование библиотеки pandas. Pandas — это библиотека для анализа данных Python. Он предлагает различные структуры, инструменты и операции для работы и управления заданными данными, которые в основном представляют собой двумерные или одномерные таблицы.

Использование и особенности библиотеки pandas

Поворот и изменение наборов данных.
Обработка данных с индексированием с использованием объектов DataFrame.
Фильтрация данных.
Операция слияния и объединения наборов данных.
Разделение, индексирование и подмножество массивных наборов данных.
Отсутствует обработка данных и выравнивание данных.
Вставка и удаление строк/столбцов.
Одномерные файлы различных форматов.
Инструменты для чтения и записи данных в различных форматах файлов.

Для работы с файлом CSV необходимо установить pandas. Установить pandas довольно просто, следуйте приведенным ниже инструкциям, чтобы установить его с помощью PIP.

$ pip install pandas

После завершения установки все готово.

Чтение файла CSV с использованием модуля Pandas

Вам нужно знать путь, по которому находится ваш файл данных в вашей файловой системе, и какой у вас текущий рабочий каталог, прежде чем вы сможете использовать pandas для импорта данных файла CSV. Я предлагаю хранить ваш код и файл данных в одном каталоге или папке, чтобы вам не нужно было указывать путь, что сэкономит ваше время и место.

import pandas

result = pandas.read_csv('ign.csv')

print(result)

Выход

Запись файла CSV с использованием модуля Pandas

Написание CSV-файлов с помощью pandas так же просто, как и чтение. Единственный используемый новый термин — DataFrame. Pandas DataFrame – это двумерная гетерогенная табличная структура данных (данные располагаются в виде таблицы в строках и столбцах. Pandas DataFrame состоит из трех основных компонентов – данных, столбцов и строк – с помеченными осью x и осью y). (строки и столбцы).

from pandas import DataFrame

C = {'Programming language': ['Python', 'Java', 'C++'],

     'Designed by': ['Guido van Rossum', 'James Gosling', 'Bjarne Stroustrup'],

     'Appeared': ['1991', '1995', '1985'],

     'Extension': ['.py', '.java', '.cpp'],

     }

df = DataFrame(C, columns=['Programming language', 'Designed by', 'Appeared', 'Extension'])

export_csv = df.to_csv(r'program_lang.csv', index=None, header=True)

Выход

Заключение

Мы научились анализировать файл CSV, используя встроенный модуль CSV и модуль pandas. Существует множество различных способов разбора файлов, но программисты не используют их широко. Такие библиотеки, как PlyPlus, PLY и ANTLR, являются одними из библиотек, используемых для анализа текстовых данных. Теперь вы знаете, как использовать встроенную библиотеку CSV и мощный модуль pandas для чтения и записи данных в формате CSV. Показанные выше коды очень простые и понятные. Это понятно любому, кто знаком с python, поэтому я не думаю, что в объяснениях есть необходимость. Однако манипулирование сложными данными с пустыми и неоднозначными данными не так просто. Это требует практики и знания различных инструментов в пандах. CSV — лучший способ сохранения и обмена данными. Pandas — отличная альтернатива модулям CSV. Поначалу это может показаться трудным, но научиться этому не так сложно. Немного потренировавшись, вы овладеете им.