Как анализировать CSV-файлы в Python
Файлы CSV часто используются для хранения табличных данных в файл. Мы можем легко экспортировать данные из таблиц базы данных или файлов Excel в файлы CSV. Это также легко читается людьми, а также в программе. В этом уроке мы узнаем, как анализировать файлы CSV в Python.
Что такое Парсинг?
Разбор файла означает чтение данных из файла. Файл может содержать текстовые данные, так называемые текстовые файлы, или они могут быть электронной таблицей.
CSV вариант №
CSV означает файлы, разделенные запятыми, то есть данные отделяются друг от друга запятыми. Файлы CSV создаются программой, которая обрабатывает большое количество данных. Данные из файлов CSV можно легко экспортировать в виде электронных таблиц и баз данных, а также импортировать для использования другими программами. Давайте посмотрим, как разобрать файл CSV. Разбирать CSV-файлы в Python довольно просто. Python имеет встроенную библиотеку CSV, которая обеспечивает функциональность чтения и записи данных из файлов CSV и в них. В библиотеке доступны различные форматы файлов CSV, что делает обработку данных удобной для пользователя.
Разбор файла CSV в Python
Чтение файлов CSV с помощью встроенного модуля Python CSV.
import csv
with open('university_records.csv', 'r') as csv_file:
reader = csv.reader(csv_file)
for row in reader:
print(row)
Выход:
Написание CSV-файла на Python
Для записи файла мы должны открыть его в режиме записи или в режиме добавления. Здесь мы добавим данные в существующий файл CSV.
import csv
row = ['David', 'MCE', '3', '7.8']
row1 = ['Lisa', 'PIE', '3', '9.1']
row2 = ['Raymond', 'ECE', '2', '8.5']
with open('university_records.csv', 'a') as csv_file:
writer = csv.writer(csv_file)
writer.writerow(row)
writer.writerow(row1)
writer.writerow(row2)
Анализ файлов CSV с использованием библиотеки Pandas
Есть еще один способ работы с CSV-файлами, который является наиболее популярным и более профессиональным, — это использование библиотеки pandas. Pandas — это библиотека для анализа данных Python. Он предлагает различные структуры, инструменты и операции для работы и управления заданными данными, которые в основном представляют собой двумерные или одномерные таблицы.
Использование и особенности библиотеки pandas
- Поворот и изменение наборов данных.
- Обработка данных с индексированием с использованием объектов DataFrame.
- Фильтрация данных.
- Операция слияния и объединения наборов данных.
- Разделение, индексирование и подмножество массивных наборов данных.
- Отсутствует обработка данных и выравнивание данных.
- Вставка и удаление строк/столбцов.
- Одномерные файлы различных форматов.
- Инструменты для чтения и записи данных в различных форматах файлов.
Для работы с файлом CSV необходимо установить pandas. Установить pandas довольно просто, следуйте приведенным ниже инструкциям, чтобы установить его с помощью PIP.
$ pip install pandas
После завершения установки все готово.
Чтение файла CSV с использованием модуля Pandas
Вам нужно знать путь, по которому находится ваш файл данных в вашей файловой системе, и какой у вас текущий рабочий каталог, прежде чем вы сможете использовать pandas для импорта данных файла CSV. Я предлагаю хранить ваш код и файл данных в одном каталоге или папке, чтобы вам не нужно было указывать путь, что сэкономит ваше время и место.
import pandas
result = pandas.read_csv('ign.csv')
print(result)
Выход
Запись файла CSV с использованием модуля Pandas
Написание CSV-файлов с помощью pandas так же просто, как и чтение. Единственный используемый новый термин — DataFrame
. Pandas DataFrame – это двумерная гетерогенная табличная структура данных (данные располагаются в виде таблицы в строках и столбцах. Pandas DataFrame состоит из трех основных компонентов – данных, столбцов и строк – с помеченными осью x и осью y). (строки и столбцы).
from pandas import DataFrame
C = {'Programming language': ['Python', 'Java', 'C++'],
'Designed by': ['Guido van Rossum', 'James Gosling', 'Bjarne Stroustrup'],
'Appeared': ['1991', '1995', '1985'],
'Extension': ['.py', '.java', '.cpp'],
}
df = DataFrame(C, columns=['Programming language', 'Designed by', 'Appeared', 'Extension'])
export_csv = df.to_csv(r'program_lang.csv', index=None, header=True)
Выход
Заключение
Мы научились анализировать файл CSV, используя встроенный модуль CSV и модуль pandas. Существует множество различных способов разбора файлов, но программисты не используют их широко. Такие библиотеки, как PlyPlus, PLY и ANTLR, являются одними из библиотек, используемых для анализа текстовых данных. Теперь вы знаете, как использовать встроенную библиотеку CSV и мощный модуль pandas для чтения и записи данных в формате CSV. Показанные выше коды очень простые и понятные. Это понятно любому, кто знаком с python, поэтому я не думаю, что в объяснениях есть необходимость. Однако манипулирование сложными данными с пустыми и неоднозначными данными не так просто. Это требует практики и знания различных инструментов в пандах. CSV — лучший способ сохранения и обмена данными. Pandas — отличная альтернатива модулям CSV. Поначалу это может показаться трудным, но научиться этому не так сложно. Немного потренировавшись, вы овладеете им.