c＃OCR无法识别数字（tesseract 2）

我正在尝试提取以下数字： http ： //img96.imageshack.us/img96/5630/aelgg.png

它失败了，我得到了〜作为回报。我正在使用谷歌的tesseract 2，使用C＃（开源c＃包装器），现在我想知道，这个图像是否太难用于OCR？

因为数字是直的清晰。

你有没有其他的OCR引擎可以解决这个问题？

编辑

我也尝试过使用Asprise OCR （ http://asprise.com/product/ocr/selector.php ），但它也无法解析图像……

我建议resize。我在IE中将此页面缩放到200％，截取屏幕截图，将其打印为PDF并将其导入到使用tessnet的程序中。苔丝钉了它！除非我读错了#- 🙂

虽然置信度= 140（如果你想知道，首选100以下）。当然，当我尝试原始尺寸时，我没有得到〜; 我得到了大约1/2的#s，一堆字母和其他垃圾。不够好，但更好。

t2似乎喜欢图像一定的大小。

我的程序进行处理以使其工作。建议使用.net GDI +转换为32位，使用插值模式调整高质量双立方。这似乎“填补了空白”。

玩大小有效 – 我发现，太大或太小，并且tesseract表现不同。

这两个问题都是预处理，这很简单，你可以尝试一下这个问题。但是，我知道如何resize和插值; 我不知道如何OCR！所以我愿意和解。

你的图像分辨率太低 – 96 DPI，也许它是截图。将其重新调整为300 DPI，tessnet2应该能够识别它。