<div dir="ltr"><div class="gmail_extra"><div class="gmail_quote">On 25 June 2017 at 23:39, Tom Wiltshire <span dir="ltr"><<a href="mailto:tom@electricdruid.net" target="_blank">tom@electricdruid.net</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div id=":2l4" class="a3s aXjCH m15cdf7d99447cdef">It certainly would. A lot. Scanning them all would be a big job, but OCR'ing them all too would be a major task.<br></div></blockquote></div><br>It sure would. Some years ago I worked on a project that involved digitizing roughly 619000</div><div class="gmail_extra">sheets (!) of microfiche, each of which depicted 14x8 (or something like that) page images.</div><div class="gmail_extra">The subject matter was the entire repository of Australian patent documents from 1905ish (I</div><div class="gmail_extra">think) until 2005 or so. Most of it was on microfiche or 35mm microfilm (for which specialised</div><div class="gmail_extra">scanners are available, albeit at non-trivial cost) and a whole lot of paper.</div><div class="gmail_extra"><br></div><div class="gmail_extra">We ran full-page OCR for every page. The OCR alone is a lot of work even if you already</div><div class="gmail_extra">have the specialised workflow software to coordinate it (which my employer had developed</div><div class="gmail_extra">in-house over many years) and the right people to run it.</div><div class="gmail_extra"><br></div><div class="gmail_extra">The end result was pretty good. The output documents were PDFs with an invisible text</div><div class="gmail_extra">layer beneath the image, laid out so that if you searched the text, the PDF viewer would<br></div><div class="gmail_extra">appear to highlight the corresponding part of the image<br></div><div class="gmail_extra"><br></div><div class="gmail_extra">The actual scanning is the easy and relatively quick task IME. Load the paper bits into a</div><div class="gmail_extra">scanner with a proper document feeder. If you found someone with a Kodak i840 or some</div><div class="gmail_extra">other scanner with Kodak's Perfect Page tech, you'd be done in less than an hour and with</div><div class="gmail_extra">pretty good quality. What takes (far) more time is classifying pages and splitting things into</div><div class="gmail_extra">their separate documents... and doing QA.</div><div class="gmail_extra"><br></div><div class="gmail_extra">I would contribute to a crowdfunding effort to outsource scanning/OCR if that was a</div><div class="gmail_extra">possibility. I don't have access to the cool toys (like the i840, or the workflow software!) to</div><div class="gmail_extra">do it myself anymore :-(</div><div class="gmail_extra"><br></div><div class="gmail_extra">John</div></div>