ios - Tesseract hOCR iOS-6ren

ios - Tesseract hOCR iOS

转载作者：行者123 更新时间：2023-12-01 16:44:11

27

4

我正在学习如何使用Tesseract API，并且对hOCR输出功能很感兴趣。目前，我正在使用此代码来扫描图像。

 Tesseract* tesseract = [[Tesseract alloc] initWithLanguage:@"eng"];
tesseract.delegate = self;
[tesseract setVariableValue:@"0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ@.-():" forKey:@"tessedit_char_whitelist"];
[tesseract setVariableValue:@"0" forKey:@"tessedit_create_hocr"];

UIImage *image = [UIImage imageNamed:@"card.jpg"];

CGFloat newWidth = 1200;
CGSize newSize = CGSizeMake(newWidth, newWidth);
image = [image resizedImage:newSize interpolationQuality:kCGInterpolationHigh];


[tesseract setImage:image]; //image to check
[tesseract recognize];

 NSLog(@"Here is the text %@", [tesseract recognizedText]);

一切都可以正常编译，但是我想知道如何存储hOCR函数返回的.html。
我可以将其存储在变量中吗？生成文件后，我需要能够在程序中访问该文件。任何有关如何在iOS上使用hOCR的见解都值得赞赏。

最佳答案

如果继续执行以下操作，则会得到NSString。

- (NSString *)getHOCRText {
        char *boxtext = _tesseract->GetHOCRText(0);
        return [NSString stringWithUTF8String:boxtext];
}

稍后，您可以将此NSString转换为NSData。

    NSData *xmlData = [xmlString dataUsingEncoding:NSASCIIStringEncoding];

这样您就可以使用NSXMLParser解析此数据

        NSXMLParser *xmlParser = [[NSXMLParser alloc] initWithData:xmlData];

希望您了解其余的解析过程。

关于ios - Tesseract hOCR iOS，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21541830/

27

4

0

文章推荐： java - 如何获取json数组中数组内部键的值

文章推荐： ios - 在第二台显示器上显示iOS屏幕

文章推荐： java - 如何在从日期选择器获取的当前日期上添加 40 周

文章推荐： ios - 如何在 map View 中将标注添加到单个注释中

ios - Tesseract hOCR iOS
我正在学习如何使用Tesseract API，并且对hOCR输出功能很感兴趣。目前，我正在使用此代码来扫描图像。 Tesseract* tesseract = [[Tesseract alloc]
html - 在哪里可以找到 HOCR 文件的样本？
我在哪里可以找到 hocr 格式的样本或文件示例？ (OCR 提取文本的格式与页面坐标一起存储。) 我一直在 Google 上寻找，但找不到任何样本。谢谢! 最佳答案您可以使用 Tesseract
ocr - Tesseract 的 hOCR 输出真的包含每个字符的边界框和置信度吗？
在 Tesseract FAQ 中，他们说你可以: How can I get the coordinates and confidence of each character? Thereare t
java - 使用 Tesseract hOCR 提取文本属性
我正在使用 Tesseract(在 Windows 上)从科学图表中提取文本，例如情节，其中有许多孤立的单词或数字，但没有句子或段落。然后我将 HTML 转换为 SVG。这很好用，只是我无法得到字体
html - HOCR 到 HTML 以进行可视化
如何转换hOCR到 HTML 以进行可视化？如果您打开原始 hOCR 文件，它只会呈现为纯文本(元素未定位) 最佳答案这个任务有不同的解决方案，我知道这三个: https://github.com
python - 从 tesseract hocr xhtml 文件中提取数据
我正在尝试使用 Python 从 Tesseract 的 hocr 输出文件中提取数据。我们仅限于 tessact 版本 3.04，因此没有可用的 image_to_data 函数或 tsv 输出。我
java - Tesseract:在 hOCR 文件中获取单词置信度 (x_wconf)
我目前使用 Java 通过命令行调用 Tesseract，输出模式设置为 hOCR。我对 C 编程几乎一无所知，虽然我可以阅读源代码，但仅此而已。我希望能够在 hOCR 文件中获取单词置信度信息。我
python - 将 HOCR 输出转换为字符串(用于正则表达式)的策略是什么？
我正在使用 Pytesseract 并希望将 HOCR 输出转换为字符串。当然，这样的功能已在 Pytesseract 中实现，但我想了解更多有关完成它的可能策略，谢谢 from pytesserac
python - 将 hOCR 转换为 HTML 表格
我正在寻找一个工具或一个想法，用 python 实现，将 hOCR 文件(由应用程序中的 tesseract 生成)转换为 html 表。这个想法是利用 hOCR 文件中的文本位置信息(在 bbox
tesseract - 从 tika-server 获取 hocr 输出
我正在使用 Apache TIKA 服务器对 PDF 文件进行 OCR。我对 hOCR 感兴趣输出，但只能成功获得纯文本格式的输出。关注 wiki和 code ，我正在尝试使用 X-Tika-OC
tesseract - 如何使用 python-tesseract 获取 Hocr 输出
我使用 pytesseract 获得了非常好的结果，但它无法保留双空格，它们对我来说非常重要。而且，所以我决定检索 hocr 输出而不是纯文本。但是，似乎没有任何方法可以使用 pytessearct
python - 使用 Python 将 hOCR 解析为 JSON
我正在使用 tesseract-ocr 并获得 hOCR 格式的输出。我需要将这个 hOCR 输出存储到数据库中(在我的例子中是 PostgreSQL)。由于我可能需要单独来自此 hOCR 的每条信
java - 从 tesseract hOCR XML 输出中选择的 XPathExpression
我有一个大致如下形状的文件: 然后我将 JDOM 2.x 与以下 XPath 查询一起使用: //htmlFile is a
android - 在 android 中为 tesseract OCR 导出 HOCR 输出
我尝试使用 tess-two ，Tesseract Tools for Android 的一个分支。我想在 tesseract 中打开 hocr 输出，来自 link ，我尝试将变量 tessedit

首页

博学

6Ren·AI

商城

ios - Tesseract hOCR iOS