Мы рассмотрим два реальных пути использования Cuneiform под Linux: нативный и с помощью Wine (в этом есть необходимость, ниже вы сможете убедиться сами).
Заявленные возможности: поддержка множества языков, сохранение форматирования исходного документа, вывод в txt, hocr, html, распознавание факсов и текстов, отпечатанных на матричном принтере.
Страница о проекте на .
Установка OCR для Linux
5. Выводы и некоторые прогнозы и предложения.
4. Небольшой тест online-OCR.
3. GUI для OCR, их сравнение.
2. Сравнение CLI OCR на примерах.
1. Установка OCR для Linux (3 движка), их установка.
Тема будет раскрываться в следующем порядке:
Я использую Debian Squeeze, но зачастую буду давать ссылки на исходники и пояснять сборку пакетов (можете воспользоваться репозиториями на или репозиториями вашего дистрибутива я просто даю пример сборки).
По сути, речь будет идти только о трех продуктах: Cuneiform, Tesseract и Finereader Engine. Все они сами по себе предоставляют только консольный интерфейс, хотя для первых двух разработано достаточно GUI.
Повторюсь еще раз: здесь будут рассмотрены программы, распознающие русский язык. Под Linux есть несколько OCR, предназначенных для работы с латиницей, есть специализированные комплексы, работающие только с ивритом, к примеру, все это не относится к нашей теме.
Технология необходима для оцифровки печатных документов; некоторые используют OCR в целях автоматизации (к примеру, для распознавания капчи или для защиты от спам-ботов).
оптическое распознавание символов.
Пару слов для того, чтобы вникнуть в суть описываемых процессов.
Это не просто обзор существующих OCR (мы будем говорить всего о трёх) и не руководство по установке (хотя установка будет описана). Эта статья была создана с целью разобраться, что и как реально может распознать русский и английский языки в Linux.
Оптическое распознавание символов в Linux
6 октября 2012 в 17:44
Оптическое распознавание символов в Linux / Хабрахабр
Комментариев нет:
Отправить комментарий