<html><head><meta http-equiv="content-type" content="text/html; charset=utf-8"></head><body dir="auto"><div>Why not just scan, and do a come-what-may OCR just for full text indexing - if it picks up a diagram and thinks that is a word, who cares, maybe someone will find something cool via typo they didn't expect. <b>No human intervention</b>, just index words to the page. Highly Imperfect but still super useful. </div><div id="AppleMailSignature"><br></div><div id="AppleMailSignature">Joel</div><div id="AppleMailSignature"><br></div><div id="AppleMailSignature"><br>Sent from my iPhone </div><div><br>On Jul 5, 2017, at 5:42 PM, Bernard Arthur Hutchins Jr <<a href="mailto:bah13@cornell.edu">bah13@cornell.edu</a>> wrote:<br><br></div><blockquote type="cite"><div>

<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">



<div id="divtagdefaultwrapper" style="font-size:10pt;color:#000000;font-family:Arial,Helvetica,sans-serif;" dir="ltr">
<p><br>
</p>
Tkanks Rob -
<div><br>
</div>
<div>But a manual identifications and 5 minutes/page is no good for the small improvement. Still months of 8-hour days to do 6000 pages.  My PDF is still much better already.  The equations are still unusable.  It makes the same text errors, apparently.    Why
 not just say it just can't do this?   Wasn't intended to.  </div>
<div><br>
</div>
<div>Thanks for trying - useful data point!  </div>
<div><br>
</div>
<div>Bernie<br>
<br>
<div style="color: rgb(0, 0, 0);">
<hr tabindex="-1" style="display:inline-block; width:98%">
<div id="divRplyFwdMsg" dir="ltr"><font face="Calibri, sans-serif" color="#000000" style="font-size:11pt"><b>From:</b> Rob Kam <<a href="mailto:robkam@ymail.com">robkam@ymail.com</a>><br>
<b>Sent:</b> Wednesday, July 5, 2017 6:47 PM<br>
<b>To:</b> Bernard Arthur Hutchins Jr; <a href="mailto:mskala@ansuz.sooke.bc.ca">mskala@ansuz.sooke.bc.ca</a><br>
<b>Cc:</b> <a href="mailto:synth-diy@synth-diy.org">synth-diy@synth-diy.org</a><br>
<b>Subject:</b> RE: [sdiy] Can anyone OCR the AN23.PDF File Here?</font>
<div> </div>
</div>
<div>
<div class="WordSection1">
<p class="MsoNormal"><span style="font-size:11.0pt; font-family:"Calibri",sans-serif; color:#1F497D">Hi Bernie,</span></p>
<p class="MsoNormal"><span style="font-size:11.0pt; font-family:"Calibri",sans-serif; color:#1F497D"><br>
At <a href="http://www.sdiy.info/AN23.rtf" id="LPlnk309394" previewremoved="true">
http://www.sdiy.info/AN23.rtf</a> this took 10 minutes to OCR with <a href="https://www.google.co.uk/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&uact=8&ved=0ahUKEwiZhc6ZmPPUAhVG6RQKHRHpA1UQFggoMAA&url=http%3A%2F%2Fwww.abbyy.com%2Fen-gb%2Fsupport%2Ffinereader-12%2F&usg=AFQjCNHLOjsz219pjjTDqDytG2Cpm9N90w" target="_blank">
<span style="color:#1F497D; text-decoration:none">ABBYY FineReader 12</span></a>, first manually identifying areas of text vs. images. Obviously it still needs further corrections.
<br>
<br>
Rob</span><span style=""> </span></p>
</div>
</div>
</div>
</div>
</div>


</div></blockquote><blockquote type="cite"><div><span>_______________________________________________</span><br><span>Synth-diy mailing list</span><br><span><a href="mailto:Synth-diy@synth-diy.org">Synth-diy@synth-diy.org</a></span><br><span><a href="http://synth-diy.org/mailman/listinfo/synth-diy">http://synth-diy.org/mailman/listinfo/synth-diy</a></span><br></div></blockquote></body></html>