一般來說,這些都是年代非常悠久的書籍、雜誌、小冊子,有損壞且印刷不清晰。自動文字辨識可以處理這項工作,但產生的文字包含非常高比例的錯誤、拼字錯誤,有時甚至是扭曲的訊息。這可能會為科學論文和書籍帶來非常不愉快的後果。為了獲得最佳結果,您需要讓編輯根據來源文件校對和更正文本,而不是自動文本識別。
掃描或拍攝文件後,會獲得光柵格式的頁面影像。這表示掃描件在視覺上看起來像文字頁,但您無法選擇和複製文字、編輯文字或使用文件搜尋。為了解決這些問題,就需要進行文本辨識。通常,工作結果是 DOC、XLS 格式的檔案或未轉換為曲線的文字 PDF。
掃描文字辨識和編輯是在編輯人員的參與下進行的。它配置程序,在識別過程中進行調整,檢查識別錯誤並修正它們。結果保存在文字編輯器中。輸出是採用所需格式(Word、Excel)的結構化、可編輯的高品質文件。
哪些原因可能會影響編輯已識別文字的成本?
品質差的頁面掃描會增加工作時間和編輯成本。
使用圖片編輯已識別的文字需要更長的時間,但並非總是需要額外付費。
編輯文字和重新建立表格結構取決於自動識別程式如何建立表格。
編輯掃描的手寫文字是一項單獨的服務;所有手工製作的簽名、印章、註釋都必須由編輯器重新輸入,在這種情況下,自動識別是沒有用的。