Поиск по сайту:

Используйте gImageReader для извлечения текста из изображений и PDF-файлов в Linux


Краткая информация: gImageReader — это инструмент с графическим пользовательским интерфейсом, использующий механизм OCR tesseract для извлечения текста из изображений и PDF-файлов в Linux.

gImageReader — это интерфейс для механизма OCR с открытым исходным кодом Tesseract. Tesseract изначально был разработан в HP, а затем в 2006 году его исходный код был открыт в открытом доступе.

По сути, механизм OCR (оптического распознавания символов) позволяет сканировать тексты с изображения или файла (PDF). По умолчанию он может распознавать несколько языков, а также поддерживает сканирование символов Юникода.

Однако Tesseract сам по себе является инструментом командной строки без графического интерфейса. Итак, здесь на помощь приходит gImageReader, позволяющий любому пользователю использовать его для извлечения текста из изображений и файлов.

Позвольте мне подчеркнуть несколько моментов, упомянув о моем опыте работы с ним за время его тестирования.

gImageReader: кроссплатформенный интерфейс для Tesseract OCR

Чтобы упростить задачу, gImageReader пригодится для извлечения текста из файла PDF или изображения, содержащего любой текст.

Независимо от того, нужно ли оно вам для проверки орфографии или перевода, оно должно быть полезно для определенной группы пользователей.

Подводя итог функциям в списке, вот что вы можете с ними сделать:

  • Добавляйте PDF-документы и изображения с диска, сканирующих устройств, буфера обмена и снимков экрана.

  • Возможность вращать изображения.

  • Общие элементы управления изображением для регулировки яркости, контрастности и разрешения.

  • Сканируйте изображения прямо через приложение.

  • Возможность обработки нескольких изображений или файлов за один раз.

  • Ручное или автоматическое определение зоны распознавания

  • Распознавание в виде обычного текста или документов hOCR

  • Редактор для отображения распознанного текста

  • Можно проверить орфографию извлеченного текста

  • Конвертировать/экспортировать в PDF-документы из документа hOCR

  • Экспортируйте извлеченный текст в файл .txt.

  • Кроссплатформенность (Windows)

Установка gImageReader в Linux

Примечание: Вам необходимо явно установить языковые пакеты Tesseract для обнаружения по изображениям/файлам из вашего менеджера программного обеспечения.

Вы можете найти gImageReader в репозиториях по умолчанию для некоторых дистрибутивов Linux, таких как Fedora и Debian.

Для Ubuntu вам необходимо добавить PPA, а затем установить его. Для этого вот что вам нужно ввести в терминале:

sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt update
sudo apt install gimagereader

Вы также можете найти его для openSUSE в сервисе сборки, а AUR станет местом для пользователей Arch Linux.

Все ссылки на репозитории и пакеты можно найти на их странице GitHub.

Опыт работы с gImageReader.

gImageReader — весьма полезный инструмент для извлечения текста из изображений, когда он вам нужен. Он прекрасно работает, когда вы пытаетесь использовать PDF-файл.

При извлечении изображений из снимка, снятого на смартфон, обнаружение было близким, но немного неточным. Возможно, когда вы что-то сканируете, распознавание символов из файла могло бы быть лучше.

Итак, вам придется попробовать это самостоятельно, чтобы увидеть, насколько хорошо это работает для вашего случая использования. Я попробовал это на Linux Mint 20.1 (на основе Ubuntu 20.04).

У меня только что возникла проблема с управлением языками в настройках, и я не нашел быстрого решения. Если вы столкнулись с проблемой, возможно, вы захотите устранить ее и узнать больше о том, как ее исправить.

В остальном все работало нормально.

Попробуйте и дайте мне знать, как это сработало для вас! Если вы знаете что-то подобное (и лучшее), дайте мне знать об этом в комментариях ниже.

Статьи по данной тематике: