Как извлечь текст из PDF-файлов и изображений в Linux с помощью gImageReader
Если вы хотите извлечь текст из PDF-файлов или изображений, рассмотрите возможность использования gImageReader, графической утилиты для извлечения текста для Linux.
Если вы студент или ваша работа связана с работой с большим количеством изображений и PDF-файлов, в какой-то момент вы почувствовали необходимость извлечь текст из изображения или документа.
К счастью, извлечение текста делает это возможным. И есть несколько инструментов, которые вы можете использовать для этого. gImageReader — один из многих инструментов. Это бесплатное приложение, которое работает как с файлами изображений, так и с документами PDF.
Давайте подробно рассмотрим gImageReader и посмотрим, как вы можете использовать его для извлечения текста из изображений и PDF-файлов.
Что такое gImageReader?
gImageReader — это приложение, которое позволяет извлекать текст из изображений и PDF-файлов в Linux. По сути, это графический интерфейс или внешний интерфейс для механизма OCR Tesseract, механизма с открытым исходным кодом, разработанного Hewlett-Packard, который считается одним из лучших доступных механизмов OCR.
С gImageReader вы можете легко и достаточно точно извлекать текст из изображений или PDF-документов с помощью нескольких простых кликов. Затем вы можете экспортировать извлеченный текст в текстовый файл или файл PDF для дальнейшего использования.
Особенности gImageReader
gImageReader обладает следующими функциями:
Импорт PDF-документов и изображений из разных источников (диск, сканирующие устройства, буфер обмена и снимок экрана)
Пакетная обработка изображений или документов, т. е. извлечение текста из нескольких изображений или документов одновременно.
Распознавать текстовые фрагменты как обычный текст или документы hOCR
Встроенная проверка орфографии
Автоматическое определение области текста
Базовое редактирование изображений/документов
Сохранить вывод в виде текстового файла
Как установить gImageReader в Linux
gImageReader доступен в большинстве основных дистрибутивов Linux. Но прежде чем приступить к его установке, вам необходимо установить в вашей системе механизм распознавания текста Tesseract.
Для этого откройте Диспетчер программ в своей системе и найдите tesseract. Когда он вернет список результатов, установите пакеты tesseract-ocr и tesseract-ocr-eng. Вы также можете использовать диспетчеры пакетов командной строки для установки пакета, если вам удобнее работать с терминалом.
После этого ознакомьтесь с инструкциями по установке в следующих разделах, чтобы установить gImageReader на свой компьютер.
Если вы используете Debian или Ubuntu, откройте терминал и выполните следующие команды, чтобы установить gImageReader:
sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update
sudo apt install gimagereader
В Fedora, CentOS или Red Hat Enterprise Linux (RHEL):
sudo dnf install gimagereader-qt
В Arch Linux или Manjaro:
sudo pacman -S gimagereader
Пользователи openSUSE могут установить gImageReader, используя:
sudo zypper install gimagereader
Если вы используете любой другой дистрибутив Linux, вы можете собрать gImageReader из исходного кода, следуя инструкциям на GitHub gImageReader.
Как использовать gImageReader в Linux
gImageReader довольно прост в использовании и работает со всеми типами файлов изображений, а также с документами PDF. Следуйте приведенным ниже инструкциям, чтобы извлечь текст из изображений или PDF-файлов в Linux.
Откройте меню приложений, найдите gImageReader и запустите приложение. Нажмите кнопку Развернуть в окне gImageReader, чтобы открыть его в полноэкранном режиме.
Теперь нажмите кнопку Добавить изображения на левой панели под панелью инструментов и используйте браузер файлов, чтобы выбрать изображения или PDF-файлы, из которых вы хотите извлечь текст.
Нажмите ОК, чтобы импортировать изображения или PDF-файлы в gImageReader. Или, если вы хотите извлечь текст из того, что отображается на экране, щелкните раскрывающийся список рядом с кнопкой Добавить изображения и выберите Сделать снимок экрана. gImageReader сделает скриншот содержимого экрана.
Добавив изображение в gImageReader, нажмите кнопку Переключить панель вывода (одна со значком блокнота), чтобы открыть панель вывода. Здесь появляется текст, который вы извлекаете из изображений или PDF-файлов.
В зависимости от того, как вы хотите действовать, теперь у вас есть возможность идентифицировать текст на изображении или в PDF автоматически или вручную. Чтобы сделать это автоматически, нажмите кнопку Автоопределение макета, и будут выделены все текстовые блоки в выбранном изображении или документе PDF.
После этого нажмите Распознать выделение > Текущая страница, чтобы начать процесс извлечения текста.
В качестве альтернативы, чтобы выделить текст вручную, наведите указатель мыши на текст, который хотите извлечь, и с помощью перекрестия нарисуйте рамку вокруг области, из которой вы хотите извлечь текст. Затем нажмите кнопку Распознать выбор, чтобы продолжить.
Если это документ PDF и вы хотите извлечь текст с разных страниц, нажмите кнопку Плюс (+), чтобы перевернуть страницы.
Чтобы вернуться назад, нажмите кнопку Минус (-). Затем выделите текст, который хотите извлечь, и нажмите кнопку Распознать выделение, чтобы извлечь его.
Хотя и редко, но могут быть случаи, когда gImageReader возвращает извлеченный текст на языке, отличном от английского. В этом случае просто нажмите кнопку раскрывающегося списка рядом с кнопкой Распознать выбор и выберите один из вариантов на английском языке.
Наконец, чтобы сохранить извлеченный текст, нажмите кнопку Сохранить вывод. Это вызовет окно сохранения. Здесь дайте имя файлу и нажмите ОК.
Что еще вы можете сделать с gImageReader?
Как упоминалось ранее, gImageReader также дает вам возможность изменять определенные аспекты импортированных изображений или документов, такие как их яркость, контрастность и разрешение. Кроме того, при необходимости вы также можете инвертировать цвета или поворачивать изображения или документы.
Большинство этих параметров могут оказаться полезными, когда текст на изображении или в документе не читается gImageReader и, следовательно, не позволяет инструменту распознать текст.
Чтобы получить доступ к любому из этих параметров редактирования, нажмите кнопку Элементы управления изображениями, после чего откроется мини-панель инструментов под основной панелью инструментов. Отсюда выберите соответствующие кнопки, чтобы выполнить желаемую операцию редактирования изображения или документа.
Извлечение текста в Linux стало проще благодаря gImageReader
Для извлечения текста часто требуется правильный инструмент: тот, который использует надежный и точный механизм оптического распознавания символов, который позволяет эффективно идентифицировать текст на изображении или документе, чтобы вы могли эффективно извлекать его без каких-либо хлопот.
gImageReader отлично справляется с этой задачей благодаря механизму OCR Tesseract, который он использует в фоновом режиме. Учитывая простоту использования, gImageReader, несомненно, является одним из лучших инструментов для извлечения текста, доступных для Linux.
В качестве альтернативы, если вы ищете более простое решение, вы можете проверить TextSnatcher, который является быстрым и довольно простым в использовании.