Настройка:
Компания Регула обладает обширной, постоянно обновляемой базой образцов документов. Актуальный список поддерживаемых документов можно найти по данной ссылке. При внесении образца в базу данных создается его описание, затем каждой странице/стороне документа присваивается уникальный идентификационный номер и одно из следующих значений:
- Главный
- Подчиненный
Главный — данная страница/сторона документа может быть распознана SDK самостоятельно, без привязки к другим страницам документа. Чаще всего это страницы документа с фотографией владельца или наиболее часто используемые страницы в документе.
Подчиненный — данная страница/сторона документа может быть распознана только после/одновременно со сканированием главной страницы этого документа. Кроме этого, должна быть включена опция "Многостраничная обработка".
Для некоторых документов несколько страниц могут выступать в качестве главных и быть распознаны самостоятельно, но при этом все они будут связаны между собой и являться друг для друга подчиненными в рамках одной непрерывной сессии обработки.
Настройка Document Reader:
Для того чтобы включить опцию "Многостраничная обработка" в приложении Document Reader, необходимо нажать на кнопку "Параметры", затем в появившемся окне выбрать вкладку "Считыватель" и включить опцию "Многостраничная обработка":
Рассмотрим пример сканирования документа в приложении Document Reader.
Для начала необходимо настроить сохранение результатов в формате XML, а также выключить опцию "Сохранять только сканирования с ошибками", чтобы сохранялись все результаты:
Паспорт имеет 3 страницы. 1-я и 3-я из них описаны как главные, 2-я - только подчиненная.
Если в первую очередь отсканировать 2-ю страницу документа, то она не распознается. При сканировании последующих страниц они не будут добавлены, как страницы одного и того же документа.
При сканировании 1-й страницы в результатах ChoosenDoctype_Data.xml будет содержаться следующая информация:
- Всего подчиненных страниц для этого документа ChildCount = 2;
- Страница с ID = 1014924771 еще не отсканирована (в файле об этом говорит запись ChildProcessed>-1);
- Страница с ID = 535215269 также еще не отсканирована:
<ChildDocuments>
<ChildCount>2</ChildCount>
<ChildDocInfo>
<ChildID>535215269</ChildID>
<ChildProcessed>-1</ChildProcessed>
</ChildDocInfo>
<ChildDocInfo>
<ChildID>1014924771</ChildID>
<ChildProcessed>-1</ChildProcessed>
</ChildDocInfo>
</ChildDocuments>
Как только данные подчиненной страницы будут обработаны, для каждой страницы параметр "ChildProcessed>-1" сменит статус на "ChildProcessed>1".
Логика объединения страниц в один документ реализована на уровне SDK. Таким образом, SDK запоминает предыдущий отсканированный документ и проверяет следующий, является ли он подчиненным для предыдущего. Если следующий отсканированный документ распознан как дополнительная страница, то она добавляется к главной странице, отсканированной ранее. В противном случае документ рассматривается как новый документ и предыдущие результаты сканирования очищаются.
Настройка Web API:
Для Web API логика сохраняется, но вывод результатов производится в другой форме:
Для сервиса Document Reader Web API в json-запросе укажите следующие параметры:
"processParam": {
"scenario": "FullProcess",
"resultTypeOutput":[9],
},
"morePagesAvailable": 2
Число после параметра "morePagesAvailable" указывает на количество ожидаемых связанных страниц для данного документа.
Чтобы получить выдачу в формате XML, добавьте "xmlResults":true в свой запрос:
"processParam": {
"scenario": "FullProcess",
"resultTypeOutput":[9],
"xmlResults":true
},
Комментарии
Войдите в службу, чтобы оставить комментарий.