зев: английские тексты 100 тысяч знаков

воскресенье, 10 февраля 2013 г.

английские тексты 100 тысяч знаков

Мы рассмотрим два реальных пути использования Cuneiform под Linux: нативный и с помощью Wine (в этом есть необходимость, ниже вы сможете убедиться сами).

Заявленные возможности: поддержка множества языков, сохранение форматирования исходного документа, вывод в txt, hocr, html, распознавание факсов и текстов, отпечатанных на матричном принтере.

Страница о проекте на .

Установка OCR для Linux

5. Выводы и некоторые прогнозы и предложения.

4. Небольшой тест online-OCR.

3. GUI для OCR, их сравнение.

2. Сравнение CLI OCR на примерах.

1. Установка OCR для Linux (3 движка), их установка.

Тема будет раскрываться в следующем порядке:

Я использую Debian Squeeze, но зачастую буду давать ссылки на исходники и пояснять сборку пакетов (можете воспользоваться репозиториями на или репозиториями вашего дистрибутива я просто даю пример сборки).

По сути, речь будет идти только о трех продуктах: Cuneiform, Tesseract и Finereader Engine. Все они сами по себе предоставляют только консольный интерфейс, хотя для первых двух разработано достаточно GUI.

Повторюсь еще раз: здесь будут рассмотрены программы, распознающие русский язык. Под Linux есть несколько OCR, предназначенных для работы с латиницей, есть специализированные комплексы, работающие только с ивритом, к примеру, все это не относится к нашей теме.

Технология необходима для оцифровки печатных документов; некоторые используют OCR в целях автоматизации (к примеру, для распознавания капчи или для защиты от спам-ботов).

оптическое распознавание символов.

Пару слов для того, чтобы вникнуть в суть описываемых процессов.

Это не просто обзор существующих OCR (мы будем говорить всего о трёх) и не руководство по установке (хотя установка будет описана). Эта статья была создана с целью разобраться, что и как реально может распознать русский и английский языки в Linux.

Оптическое распознавание символов в Linux

6 октября 2012 в 17:44

Оптическое распознавание символов в Linux / Хабрахабр

зев

воскресенье, 10 февраля 2013 г.

английские тексты 100 тысяч знаков

Комментариев нет:

Отправить комментарий

воскресенье, 10 февраля 2013 г.

английские тексты 100 тысяч знаков

Комментариев нет:

Отправить комментарий

воскресенье, 10 февраля 2013 г.