Используйте gImageReader для извлечения текста из изображений и PDF-файлов в Linux
Краткая информация: gImageReader — это инструмент с графическим пользовательским интерфейсом, использующий механизм OCR tesseract для извлечения текста из изображений и PDF-файлов в Linux.
gImageReader — это интерфейс для механизма OCR с открытым исходным кодом Tesseract. Tesseract изначально был разработан в HP, а затем в 2006 году его исходный код был открыт в открытом доступе.
По сути, механизм OCR (оптического распознавания символов) позволяет сканировать тексты с изображения или файла (PDF). По умолчанию он может распознавать несколько языков, а также поддерживает сканирование символов Юникода.
Однако Tesseract сам по себе является инструментом командной строки без графического интерфейса. Итак, здесь на помощь приходит gImageReader, позволяющий любому пользователю использовать его для извлечения текста из изображений и файлов.
Позвольте мне подчеркнуть несколько моментов, упомянув о моем опыте работы с ним за время его тестирования.
gImageReader: кроссплатформенный интерфейс для Tesseract OCR
Чтобы упростить задачу, gImageReader пригодится для извлечения текста из файла PDF или изображения, содержащего любой текст.
Независимо от того, нужно ли оно вам для проверки орфографии или перевода, оно должно быть полезно для определенной группы пользователей.
Подводя итог функциям в списке, вот что вы можете с ними сделать:
Добавляйте PDF-документы и изображения с диска, сканирующих устройств, буфера обмена и снимков экрана.
Возможность вращать изображения.
Общие элементы управления изображением для регулировки яркости, контрастности и разрешения.
Сканируйте изображения прямо через приложение.
Возможность обработки нескольких изображений или файлов за один раз.
Ручное или автоматическое определение зоны распознавания
-
Распознавание в виде обычного текста или документов hOCR
Редактор для отображения распознанного текста
Можно проверить орфографию извлеченного текста
Конвертировать/экспортировать в PDF-документы из документа hOCR
Экспортируйте извлеченный текст в файл .txt.
Кроссплатформенность (Windows)
Установка gImageReader в Linux
Примечание: Вам необходимо явно установить языковые пакеты Tesseract для обнаружения по изображениям/файлам из вашего менеджера программного обеспечения.
Вы можете найти gImageReader в репозиториях по умолчанию для некоторых дистрибутивов Linux, таких как Fedora и Debian.
Для Ubuntu вам необходимо добавить PPA, а затем установить его. Для этого вот что вам нужно ввести в терминале:
sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt update
sudo apt install gimagereader
Вы также можете найти его для openSUSE в сервисе сборки, а AUR станет местом для пользователей Arch Linux.
Все ссылки на репозитории и пакеты можно найти на их странице GitHub.
Опыт работы с gImageReader.
gImageReader — весьма полезный инструмент для извлечения текста из изображений, когда он вам нужен. Он прекрасно работает, когда вы пытаетесь использовать PDF-файл.
При извлечении изображений из снимка, снятого на смартфон, обнаружение было близким, но немного неточным. Возможно, когда вы что-то сканируете, распознавание символов из файла могло бы быть лучше.
Итак, вам придется попробовать это самостоятельно, чтобы увидеть, насколько хорошо это работает для вашего случая использования. Я попробовал это на Linux Mint 20.1 (на основе Ubuntu 20.04).
У меня только что возникла проблема с управлением языками в настройках, и я не нашел быстрого решения. Если вы столкнулись с проблемой, возможно, вы захотите устранить ее и узнать больше о том, как ее исправить.
В остальном все работало нормально.
Попробуйте и дайте мне знать, как это сработало для вас! Если вы знаете что-то подобное (и лучшее), дайте мне знать об этом в комментариях ниже.