Распознавание MRZ символов в изображении в .NET

Категория: OCR.NET

17 февраля 2022

VintaSoft Imaging .NET SDK и VintaSoft OCR .NET SDK позволяют распознавать текст с помощью движка Tesseract OCR. Большое количество словарей созданных для движка Tesseract OCR позволяет распознавать текст на более чем 100 языках.

В интернете несколько авторов предлагают бесплатные словари для распознавания символов MRZ с помощью движка Tesseract OCR.
Мы протестировали несколько из них и убедились, что словарь "mrz.traineddata" обеспечивает хорошее качество распознавания.

Автор словаря "mrz.traineddata" предоставляет словарь по лицензии BSD-3, что разрешает бесплатное использование и распространение словаря.
Мы разместили словарь "mrz.traineddata" на нашем сайте, также словарь может быть скачан в интернете.

Cловарь "mrz.traineddata" добавлен в список поддерживаемых словарей (элемент MRZ в перечислении Vintasoft.Imaging.Ocr.OcrLanguage) начиная с версии 11.0.5.1 VintaSoft OCR .NET Plug-in.

Более подробную информацию о символах MRZ можно прочитать в Википедии: https://en.wikipedia.org/wiki/Machine-readable_passport

Вот изображение из Википедии на котором изображен документ с машиночитаемой зоной (MRZ):



Вот пример C# кода, который демонстрирует как можно распознать MRZ символы в изображении с помощью Tesseract OCR:
/// <summary>
/// Recognizes MRZ characters from image using Tesseract OCR engine.
/// </summary>
/// <param name="filename">The name of file, which stores image with MRZ characters.</param>
public static void RecognizeMRZCharactersUsingTesseractOCR(string filename)
{
    // create an image collection
    using (Vintasoft.Imaging.ImageCollection images = 
        new Vintasoft.Imaging.ImageCollection())
    {
        // add images from file to the image collection
        images.Add(filename);

        System.Console.WriteLine("Create Tesseract OCR engine...");
        // create the Tesseract OCR engine
        using (Vintasoft.Imaging.Ocr.Tesseract.TesseractOcr tesseractOcr = 
            new Vintasoft.Imaging.Ocr.Tesseract.TesseractOcr())
        {
            System.Console.WriteLine("Initialize OCR engine...");
            // init the Tesseract OCR engine for recognition of MRZ characters (machine-readable zones)
            tesseractOcr.Init(new Vintasoft.Imaging.Ocr.OcrEngineSettings(Vintasoft.Imaging.Ocr.OcrLanguage.MRZ));

            // for each image in image collection
            foreach (Vintasoft.Imaging.VintasoftImage image in images)
            {
                System.Console.WriteLine("Recognize the image...");
                
                // recognize text in image
                Vintasoft.Imaging.Ocr.Results.OcrPage ocrResult = tesseractOcr.Recognize(image);

                // output the recognized text

                System.Console.WriteLine("Page Text:");
                System.Console.WriteLine(ocrResult.GetText());
                System.Console.WriteLine();
            }

            // shutdown the Tesseract OCR engine
            tesseractOcr.Shutdown();
        }

        // free images
        images.ClearAndDisposeItems();
    }
}