Поиск по сайту:

Как обрабатывать файл построчно в скрипте Linux Bash


Довольно легко прочитать содержимое текстового файла Linux построчно в сценарии оболочки — если вы имеете дело с некоторыми тонкими подводными камнями. Вот как это сделать безопасным способом.

Файлы, текст и идиомы

Каждый язык программирования имеет набор идиом. Это стандартные, простые способы выполнения набора общих задач. Это элементарный или стандартный способ использования одной из функций языка, с которым работает программист. Они становятся частью набора умственных чертежей программиста.

Хорошими примерами являются такие действия, как чтение данных из файлов, работа с циклами и замена значений двух переменных. Программист будет знать по крайней мере один способ достижения своих целей в общем или ванильном стиле. Возможно, этого будет достаточно для выполнения требований. Или, может быть, они украсят код, чтобы сделать его более эффективным или применимым к конкретному решению, которое они разрабатывают. Но иметь под рукой идиому строительных блоков — отличная отправная точка.

Знание и понимание идиом одного языка также облегчает изучение нового языка программирования. Знание того, как вещи устроены в одном языке, и поиск эквивалента — или наиболее близкого — в другом языке — хороший способ оценить сходства и различия между языками программирования, которые вы уже знаете, и тем, который вы изучаете.

Чтение строк из файла: однострочник

В Bash вы можете использовать цикл while в командной строке, чтобы читать каждую строку текста из файла и что-то делать с ней. Наш текстовый файл называется «data.txt». Он содержит список месяцев года.

January
February
March
.
.
October
November
December

Наш простой однострочник:

while read line; do echo $line; done < data.txt

Цикл while считывает строку из файла, и поток выполнения маленькой программы переходит к телу цикла. Команда echo записывает строку текста в окно терминала. Попытка чтения терпит неудачу, когда больше нет строк для чтения, и цикл выполнен.

Один изящный трюк — возможность перенаправить файл в цикл. В других языках программирования вам нужно будет открыть файл, прочитать его и снова закрыть, когда вы закончите. С Bash вы можете просто использовать перенаправление файлов и позволить оболочке обрабатывать все эти низкоуровневые вещи за вас.

Конечно, этот однострочник не очень полезен. В Linux уже есть команда cat, которая делает именно это за нас. Мы создали многословный способ замены трехбуквенной команды. Но он наглядно демонстрирует принципы чтения из файла.

Это работает достаточно хорошо, до определенного момента. Предположим, у нас есть еще один текстовый файл, содержащий названия месяцев. В этом файле escape-последовательность для символа новой строки добавлена к каждой строке. Мы назовем его «data2.txt».

January\n
February\n
March\n
.
.
October\n
November\n
December\n

Давайте используем нашу однострочную строку в нашем новом файле.

while read line; do echo $line; done < data2.txt

Управляющий символ обратной косой черты «\» был удален. В результате к каждой строке добавляется «n». Bash интерпретирует обратную косую черту как начало управляющей последовательности. Часто мы не хотим, чтобы Bash интерпретировал то, что он читает. Может быть удобнее прочитать строку целиком — escape-последовательности с обратной косой чертой и все такое — и выбрать, что нужно разобрать или заменить самостоятельно в своем собственном коде.

Если мы хотим выполнить какую-либо осмысленную обработку или синтаксический анализ строк текста, нам потребуется использовать скрипт.

Чтение строк из файла с помощью скрипта

Вот наш скрипт. Он называется «script1.sh».

#!/bin/bash

Counter=0

while IFS='' read -r LinefromFile || [[ -n "${LinefromFile}" ]]; do

    ((Counter++))
    echo "Accessing line $Counter: ${LinefromFile}"

done < "$1"

Мы устанавливаем переменную с именем Counter в ноль, затем определяем наш цикл while.

Первый оператор в строке while — IFS= . IFS означает внутренний разделитель полей. Он содержит значения, которые Bash использует для определения границ слов. По умолчанию команда чтения удаляет начальные и конечные пробелы. Если мы хотим прочитать строки из файла точно такими, какие они есть, нам нужно установить IFS как пустую строку.

Мы могли бы установить это один раз вне цикла, точно так же, как мы устанавливаем значение Counter. Но в более сложных сценариях, особенно в тех, которые содержат множество определяемых пользователем функций, возможно, что IFS может быть присвоено другое значение в другом месте сценария. Обеспечение того, чтобы IFS задавалось пустой строкой каждый раз, когда цикл while выполняет итерацию, гарантирует, что мы знаем, каким будет его поведение.

Мы собираемся считать строку текста в переменную с именем LinefromFile. Мы используем параметр -r (читать обратную косую черту как обычный символ), чтобы игнорировать обратную косую черту. С ними будут обращаться так же, как с любым другим персонажем, и не получат никакого особого отношения.

Есть два условия, которые удовлетворят цикл while и позволят обработать текст телом цикла:

  • read -r LinefromFile : когда строка текста успешно считывается из файла, команда read отправляет сигнал об успешном выполнении в while , а цикл while передает поток выполнения в тело цикла. Обратите внимание, что команда read должна видеть символ новой строки в конце строки текста, чтобы считать ее успешным чтением. Если файл не является текстовым файлом, совместимым с POSIX, последняя строка может не содержать символ новой строки. Если команда read увидит маркер конца файла (EOF) до того, как строка будет завершена символом новой строки, она не расценит это как успешное чтение. В этом случае последняя строка текста не будет передана в тело цикла и не будет обработана.
  • [ -n \$ {LinefromFile}\ ] : нам нужно проделать дополнительную работу для обработки файлов, несовместимых с POSIX. Это сравнение проверяет текст, который читается из файла. Если оно не завершается символом новой строки, это сравнение все равно вернет успех циклу while. Это гарантирует, что все фрагменты завершающей строки будут обработаны телом цикла.

Эти два предложения разделены логическим оператором ИЛИ ||, так что, если любое предложение возвращает успех, извлеченный текст обрабатывается телом цикла, независимо от того, есть ли является символом новой строки или нет.

В теле нашего цикла мы увеличиваем переменную Counter на единицу и используем echo для отправки некоторого вывода в окно терминала. Отображается номер строки и текст каждой строки.

Мы все еще можем использовать наш прием перенаправления, чтобы перенаправить файл в цикл. В данном случае мы перенаправляем переменную $1, которая содержит имя первого параметра командной строки, переданного сценарию. Используя этот трюк, мы можем легко передать имя файла данных, с которым мы хотим, чтобы скрипт работал.

Скопируйте и вставьте сценарий в редактор и сохраните его с именем файла «script1.sh». Используйте команду chmod, чтобы сделать его исполняемым.

chmod +x script1.sh

Давайте посмотрим, что наш скрипт делает с текстовым файлом data2.txt и содержащимися в нем обратными слэшами.

./script1.sh data2.txt

Каждый символ в строке отображается дословно. Обратная косая черта не интерпретируется как управляющий символ. Они печатаются как обычные символы.

Передача строки в функцию

Мы по-прежнему просто повторяем текст на экране. В реальном сценарии программирования мы, вероятно, собирались сделать что-то более интересное со строкой текста. В большинстве случаев хорошей практикой программирования является выполнение дальнейшей обработки строки в другой функции.

Вот как мы можем это сделать. Это «script2.sh».

#!/bin/bash

Counter=0

function process_line() {

    echo "Processing line $Counter: $1"

}

while IFS='' read -r LinefromFile || [[ -n "${LinefromFile}" ]]; do

    ((Counter++))
    process_line "$LinefromFile"

done < "$1"

Мы определяем нашу переменную Counter, как и раньше, а затем определяем функцию с именем process_line() . Определение функции должно появиться до ее первого вызова в скрипте.

Нашей функции будет передаваться только что прочитанная строка текста в каждой итерации цикла while. Мы можем получить доступ к этому значению внутри функции, используя переменную $1. Если бы функции были переданы две переменные, мы могли бы получить доступ к этим значениям с помощью $1 и $2 и так далее для большего количества переменных.

Цикл while в основном такой же. Внутри тела цикла есть только одно изменение. Строка echo была заменена вызовом функции process_line(). Обратите внимание, что вам не нужно использовать скобки «()» в имени функции, когда вы ее вызываете.

Имя переменной, содержащей строку текста, LinefromFile , при передаче в функцию заключается в кавычки. Это обслуживает строки, в которых есть пробелы. Без кавычек первое слово рассматривается функцией как $1, второе слово считается как $2 и так далее. Использование кавычек гарантирует, что вся строка текста будет обрабатываться как $1. Обратите внимание, что это не тот же самый $1, который содержит тот же файл данных, переданный сценарию.

Поскольку Counter был объявлен в основной части скрипта, а не внутри функции, на него можно ссылаться внутри функции process_line().

Скопируйте или введите приведенный выше сценарий в редактор и сохраните его с именем файла «script2.sh». Сделайте его исполняемым с помощью chmod :

chmod +x script2.sh

Теперь мы можем запустить его и передать новый файл данных «data3.txt». В нем есть список месяцев и одна строка со многими словами.

January
February
March
.
.
October
November \nMore text "at the end of the line"
December

Наша команда:

./script2.sh data3.txt

Строки считываются из файла и передаются одна за другой в функцию process_line(). Все строки отображаются правильно, в том числе нечетная с пробелом, кавычками и несколькими словами в ней.

Строительные блоки полезны

Существует мнение, что идиома должна содержать что-то уникальное для этого языка. Это не то убеждение, с которым я согласен. Важно то, что он хорошо использует язык, его легко запомнить и он обеспечивает надежный и надежный способ реализации некоторых функций в вашем коде.