Әдетте, бұл бүлінген және анық емес басып шығарылған өте құрметті жастағы кітаптар, журналдар, брошюралар. Мәтінді автоматты түрде тану бұл жұмысты жеңеді, бірақ алынған мәтінде қателердің, қателердің және кейде бұрмаланған ақпараттың өте жоғары пайызы бар. Бұл ғылыми еңбектер мен кітаптар үшін өте жағымсыз салдарға әкелуі мүмкін. Ең жақсы нәтиже алу үшін мәтінді автоматты түрде танудың орнына бастапқы құжатқа сәйкес мәтінді өңдейтін және түзететін редакторды тарту керек.
Құжатты сканерлегеннен немесе суретке түсіргеннен кейін оның беттерінің кескіні растрлық форматта алынады. Бұл сканерлеу визуалды түрде мәтіндік бетке ұқсайтынын білдіреді, бірақ мәтінді таңдау және көшіру, оны өңдеу немесе құжат іздеуді пайдалану мүмкін емес. Бұл мәселелерді шешу үшін мәтінді тану қажет. Жұмыстың нәтижесі, әдетте, қисықтарға түрлендірілмеген DOC, XLS форматындағы файлдар немесе PDF мәтіні болып табылады.
Сканерленген мәтінді тану және өңдеу редактордың қатысуымен орындалады. Ол бағдарламаны конфигурациялайды, тану процесі кезінде түзетулер жасайды, тану қателерін тексереді және оларды түзетеді. Нәтиже мәтіндік редакторда сақталады. Шығару құрылымдық, өңделетін, қажетті форматтағы (Word, Excel) жоғары сапалы құжат болып табылады.
Танылған мәтінді өңдеу құнына қандай себептер әсер етуі мүмкін?
Сапасы нашар бет сканерлері жұмыс уақытын және өңдеу шығындарын арттырады.
Танылған мәтінді суреттермен өңдеу ұзағырақ уақыт алады, бірақ әрқашан қосымша төлемді қажет етпейді.
Мәтінді өңдеу және кестелердің құрылымын қайта құру автоматты тану бағдарламасы кестелерді қалай құрастыратынына байланысты.
Сканерленген
қолжазба мәтінін өңдеу - бұл барлық қолтаңбаларды, мөрлерді, жазбаларды редактор қайта теру керек, бұл жағдайда автоматты түрде тану пайдасыз;