Tag: tesseract

如何识别这些图像中字母的颜色?

我正在使用这篇文章来解决validation码。 它的工作原理是使用AForge从图像中删除背景,然后将Tesseract OCR应用于生成的清洁图像。 问题是,它目前依赖于黑色字母,并且由于每个validation码具有不同的文本颜色,我需要将颜色传递给图像清洁器,或者将字母的颜色更改为黑色。 要做任何一个,我需要知道字母的现有颜色是什么。 我该如何识别字母的颜色?

如何在C#中使用tesseract 3.02训练数据?

我可以通过命令提示符使用新训练的tessedata(版本3.02)获得正确的OCR输出,但我希望在带有DLL ref的C#代码中使用相同的输出。我已尝试使用tessnet2_32.dll引用但是它抛出exception因此如何使用或通过C#代码使用DLL引用访问tesseract 3.02版本训练的tessedata?

Tesseract空白页面

我使用tesseract来检测图像上的字符。 try { using (var engine = new TesseractEngine(@”C:\Users\ea\Documents\Visual Studio 2015\Projects\ocrtTest”, “eng”, EngineMode.Default)) { using (var img = Pix.LoadFromFile(testImagePath)) { Bitmap src = (Bitmap)Image.FromFile(testImagePath); using (var page = engine.Process(img)) { var text = page.GetHOCRText(1); File.WriteAllText(“test.html”, text); //Console.WriteLine(“Text: {0}”, text); //Console.WriteLine(“Mean confidence: {0}”, page.GetMeanConfidence()); int p = 0; int l = 0; int w = 0; […]

如何使用Tesseract OCR从图像中读取表格数据?

是否有人知道如何从图像中读取和解析任何表数据。 我正在使用asp.net应用程序,我已经使用Tesseract-OCR API成功读取数据,但无法从Image读取表格。 请用c#代码给出解决方案。

c#OCR无法识别数字(tesseract 2)

我正在尝试提取以下数字: http : //img96.imageshack.us/img96/5630/aelgg.png 它失败了,我得到了〜作为回报。 我正在使用谷歌的tesseract 2,使用C#(开源c#包装器),现在我想知道,这个图像是否太难用于OCR? 因为数字是直的清晰。 你有没有其他的OCR引擎可以解决这个问题? 编辑 我也尝试过使用Asprise OCR ( http://asprise.com/product/ocr/selector.php ),但它也无法解析图像……

C#中的Tesseract.NET

您是否知道如何使用垃圾桶和垃圾桶的分步指南http://www.pixel-technology.com/freeware/tessnet2/ 我花了两天时间尝试使用它来编译时我被要求输入一个在我从网站下载的zip文件中不存在的dll。 任何帮助将不胜感激。

Tesseract OCR简单的例子

嗨,你能不能给我一个简单的例子来测试Tesseract OCR,最好是在C#中。 我试过这里的演示。 我下载了英文数据集并在C盘中解压缩。 并修改代码如下: string path = @”C:\pic\mytext.jpg”; Bitmap image = new Bitmap(path); Tesseract ocr = new Tesseract(); ocr.SetVariable(“tessedit_char_whitelist”, “0123456789”); // If digit only ocr.Init(@”C:\tessdata\”, “eng”, false); // To use correct tessdata List result = ocr.DoOCR(image, Rectangle.Empty); foreach (tessnet2.Word word in result) Console.WriteLine(“{0} : {1}”, word.Confidence, word.Text); 不幸的是,代码不起作用。 程序死于“ocr.Init(…”行。即使使用try-catch,我甚至无法获得exception。 我能够运行vietocr ! 但这对我来说是一个非常大的项目。 我需要一个像上面这样的简单例子。 谢谢

Tesseract OCR引擎无法从自动生成的图像中读取文本,但可以从MS Paint中的CUT读取

我正在为Tesseract OCR引擎使用.NET包装器。 我有一个大型文档是PNG。 当我在MS油漆中切出一段图像然后将其送入引擎时,它可以工作。 但是当我在代码中执行此操作时,引擎无法识别图像中的文本。 图像看起来相同,并且属性不会显得非常偏离。 所以我有点困惑。 这是两张图片。 来自MS涂料: 来自代码: 这是我从MS油漆图像中得到的: 并通过代码: 他们真的很相似所以我不确定为什么它不能识别第二个文本。 以下是我如何生成图像。 public Bitmap CropImage(Bitmap source, Rectangle section) { Bitmap bmp = new Bitmap(section.Width, section.Height); Graphics g = Graphics.FromImage(bmp); g.DrawImage(source, 0, 0, section, GraphicsUnit.Pixel); return bmp; } private void Form1_Load(object sender, EventArgs e) { Bitmap source = new Bitmap(test); Rectangle section = new […]

Tesseract OCR库 – 学习字体

好吧,我正在使用这个OCR的编译.NET版本,可以在@ http://www.pixel-technology.com/freeware/tessnet2/找到 我有它工作,但是这个目的是翻译车牌,遗憾的是引擎真的不能准确翻译一些字母,例如这里是我扫描的图像来确定字符问题 结果: 12345B7B9U ABCDEFGHIJKLMNUPIJRSTUVHXYZ 因此,以下字符被错误地翻译: 1,O,Q,W 这似乎并不太糟糕,但是在我的车牌上,结果并不是那么好: = H4 ODM = LDH IFW 假试验 = NR4 y2k 你可能会说,我已经尝试过降噪,提高对比度,并删除不是绝对​​黑色的像素,没有真正的改进。 显然你可以“学习”引擎新的字体,但我想我需要重新编译.NET的库,似乎这是在我没有的Linux操作系统上执行的。 所以我不知道接下来会尝试什么,我已经编写了一个快速的控制台应用程序,纯粹是为了测试目的,如果有人想尝试它。 如果有人有任何想法/图形处理/图书馆的想法,我很感激听到他们。

Tesseract 3(OCR) – .NET Wrapper

http://code.google.com/p/tesseractdotnet/ 我在使用Tesseract在Visual Studio 2010项目中工作时遇到问题。 我尝试过控制台和winforms,两者都有相同的结果。 我曾经遇到过其他声称让它在VS2010工作的人遇到的dll: http://code.google.com/p/tesseractdotnet/issues/detail?id=1 我正在添加对dll的引用,可以在上面的网站附件64中找到。 每次我构建我的项目时,我都会收到一个AccessViolationException ,表示尝试读取或写入受保护的内存。 public void StartOCR() { const string language = “eng”; const string TessractData = @”C:\Users\Joe\Desktop\tessdata\”; using (TesseractProcessor processor = new TesseractProcessor()) { using (Bitmap bmp = Bitmap.FromFile(fileName) as Bitmap) { if (processor.Init(TessractData, language, (int)eOcrEngineMode.OEM_DEFAULT)) { string text = processor.Recognize(bmp); } } } } 访问冲突exception总是指向if (processor.Init(TessractData, language, […]