В этом разделе
OCR движок предназначен для распознавания текста на изображении. SDK предоставляет класс
OcrEngine, который определяет абстрактный механизм распознавания текста для распознавания одноязычного текста на всем изображении или в его области. Архитектура SDK открыта и позволяет подключить любой OCR движок.
Начиная с версии 11.0.2.1 SDK включает движок Tesseract OCR версии 5.0. Класс
TesseractOcr является производным от класса
OcrEngine и позволяет распознавать текст одного языка на всем изображении или в области изображения.
Процесс распознавания текста состоит из следующих шагов:
- Подготовка изображения к распознаванию текста
- Подготовка OCR движка к распознаванию текста
- Распознавание текста на изображении
- Получение и редактирование OCR результатов
-
Сохранение OCR результата
- Сохранение OCR результата в текстовый файл
- Сохранение OCR результата в PDF документ с возможностью поиска
- Экспорт OCR результата в hOCR-файл