python - 为什么 GCP Vision API 在 python 中返回的结果比在线演示更差-6ren

python - 为什么 GCP Vision API 在 python 中返回的结果比在线演示更差

转载作者：太空宇宙更新时间：2023-11-03 14:45:09

25

4

我编写了一个基本的 Python 脚本来调用和使用 GCP Vision API。我的目标是向它发送产品图像并检索(使用 OCR)写在这个盒子上的文字。我有一个预定义的品牌列表，因此我可以在 API 返回的文本中搜索品牌并检测它是什么。

我的 python 脚本如下:

import  io
from google.cloud import vision
from google.cloud.vision import types
import os
import cv2
import numpy as np

os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = "**************************"


def detect_text(file):
    """Detects text in the file."""
    client = vision.ImageAnnotatorClient()

    with io.open(file, 'rb') as image_file:
        content = image_file.read()

    image = types.Image(content=content)

    response = client.text_detection(image=image)
    texts = response.text_annotations
    print('Texts:')

    for text in texts:
        print('\n"{}"'.format(text.description))

        vertices = (['({},{})'.format(vertex.x, vertex.y)
                    for vertex in text.bounding_poly.vertices])

        print('bounds: {}'.format(','.join(vertices)))


file_name = "Image.jpg"
img = cv2.imread(file_name)

detect_text(file_name)

目前，我正在试验以下产品图片: (951∆×∆335分辨率)

它的品牌是 Acuvue。

问题如下。当我测试 GCP Cloud Vision API 的在线演示时，我得到了这张图片的以下文本结果:

FOR ASTIGMATISM 1-DAY ACUVUE MOIST WITH LACREON™ 30 Lenses BRAND CONTACT LENSES UV BLOCKING

(此 json 结果返回上述所有单词，包括单词 Acuvue，这对我很重要，但 json 太长，无法在此处发布)

因此，在线演示可以很好地检测产品上的文本，至少它可以准确检测单词 Acuvue(即品牌)。但是，当我在我的 python 脚本中使用相同的图像调用相同的 API 时，我得到以下结果:

Texts:

"1.DAY
FOR ASTIGMATISM
WITH
LACREONTM
MOIS
30 Lenses
BRAND CONTACT LENSES
UV BLOCKING
"
bounds: (221,101),(887,101),(887,284),(221,284)

"1.DAY"
bounds: (221,101),(312,101),(312,125),(221,125)

"FOR"
bounds: (622,107),(657,107),(657,119),(622,119)

"ASTIGMATISM"
bounds: (664,107),(788,107),(788,119),(664,119)

"WITH"
bounds: (614,136),(647,136),(647,145),(614,145)

"LACREONTM"
bounds: (600,151),(711,146),(712,161),(601,166)

"MOIS"
bounds: (378,162),(525,153),(528,200),(381,209)

"30"
bounds: (614,177),(629,178),(629,188),(614,187)

"Lenses"
bounds: (634,178),(677,180),(677,189),(634,187)

"BRAND"
bounds: (361,210),(418,210),(418,218),(361,218)

"CONTACT"
bounds: (427,209),(505,209),(505,218),(427,218)

"LENSES"
bounds: (514,209),(576,209),(576,218),(514,218)

"UV"
bounds: (805,274),(823,274),(823,284),(805,284)

"BLOCKING"
bounds: (827,276),(887,276),(887,284),(827,284)

但这并没有像演示那样检测到“Acuvue”这个词!!

为什么会这样？

我可以修复我的 python 脚本中的某些内容以使其正常工作吗？

最佳答案

From the docs :

The Vision API can detect and extract text from images. There are two annotation features that support OCR:

TEXT_DETECTION detects and extracts text from any image. For example, a photograph might contain a street sign or traffic sign. The JSON includes the entire extracted string, as well as individual words, and their bounding boxes.

DOCUMENT_TEXT_DETECTION also extracts text from an image, but the response is optimized for dense text and documents. The JSON includes page, block, paragraph, word, and break information.)

我希望 Web API 实际上使用的是后者，然后根据置信度过滤结果。

A DOCUMENT_TEXT_DETECTION response includes additional layout information, such as page, block, paragraph, word, and break information, along with confidence scores for each.

无论如何，我希望(并且我的经验一直如此)后一种方法会“更加努力地”找到所有字符串。

我认为您没有做任何“错误”的事情。只有两种并行检测方法。一个 (DOCUMENT_TEXT_DETECTION) 更强烈，针对文档进行了优化(可能针对拉直、对齐和均匀间隔的线条)，并提供了一些应用程序可能不需要的更多信息。

所以我建议您按照 Python example here 修改您的代码.

最后，我的猜测是您询问的 \342\204\242 是转义的八进制值，对应于它认为在尝试识别 ™ 符号时找到的 utf-8 字符。

如果您使用以下代码段:

b = b"\342\204\242"
s = b.decode('utf8')
print(s)

你会很高兴看到它打印出 ™。

关于python - 为什么 GCP Vision API 在 python 中返回的结果比在线演示更差，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50117524/

25

4

0

文章推荐： SSL连接加密协商

文章推荐： python - 使用 python 和 selenium 进行网络爬行

php - 返回 1 返回 0 VS 返回 true 返回 false
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
php - 什么更快？如果()返回；否则返回；或者如果()返回；返回;
在编码时，我问了自己这个问题: 这样更快吗: if(false) return true; else return false; 比这个？ if(false) return true; return
javascript - 以逻辑运算符返回(&& 返回、|| 返回)
如何在逻辑条件下进行“返回”？在这样的情况下这会很有用 checkConfig() || return false; var iNeedThis=doSomething() || return fa
正则表达式 - 如果第一个数字是 1 返回 1 但如果它是 145 返回 145 但如果它的 133 返回 133
这是我的正则表达式 demo 如问题所述: 如果第一个数字是 1 则返回 1 但如果是 145 则返回 145 但如果是 133 则返回 133 样本数据a: K'8134567 K'81345678
c - 返回-返回!在 C
在代码高尔夫问答部分查看谜题和答案时，我遇到了 this solution返回 1 的最长和最晦涩的方法引用答案， int foo(void) { return! 0; } int bar(
java - springboot 返回 responseentity 返回 JSON
我想在下面返回 JSON。 { "name": "jackie" } postman 给我错误。说明 Unexpected 'n' 这里是 Spring Boot 的新手。 1日龄。有没有正确的方法来
python "is"返回 True 但 "=="返回 False
只要“is”返回 True，“==”不应该返回 True 吗？ In [101]: np.NAN is np.nan is np.NaN Out[101]: True In [102]: np.NAN
Mysql 返回 1 如果找到或根本不存在值，如果存在其他值，返回 0
我需要获取所有在 6 号或 7 号房间或根本不在任何房间的学生的详细信息。如果他们在其他房间，简单地说，我不希望有那个记录。我的架构是: students(roll_no, name,class,.
javascript - ajax 返回 true，但 == 返回 false
我有一个表单，我将它发送到 php 以通过 ajax 插入到 mysql 数据库中。一切顺利，php 返回 "true" 值，但在 ajax 中它显示 false 消息。在这里你可以查看php代码:
android - Kotlin 中的奇怪值比较问题， "==="返回 true 但 "=="返回 false
我在 Kotlin 中遇到了一个非常奇怪的无法解释的值比较问题，以下代码打印假 data class Foo ( val a: Byte ) fun main() { val NUM
angular - testability.whenStable() 返回， testability.isStable() 返回 false
请注意，这并非特定于 Protractor。问题在于 Angular 2 的内置 Testability service Protractor 碰巧使用。 Protractor 调用 Testabil
vba - CountA 返回 0，WorksheetFunction.CountA 返回 1
在调试窗口中，以下表达式均返回 1。 Application.WorksheetFunction.CountA(Cells(4 + (i - 1) * rows_per_record, 28) & "
json - OPTIONS 返回 204，POST 返回 200 但数据库中没有输入数据
我在本地使用 jsonplaceholder ( http://jsonplaceholder.typicode.com/)。我正在通过 extjs rest 代理测试我的 GET 和 POST 调用
c# - Restsharp 返回 403 而 Postman 返回 200
这是 Postman 为成功调用我的页面而提供的(修改后的)代码段。 var client = new RestClient("http://sub.example.com/wp-json/wp/v2
php - Mysqli_query 返回 false 而 Mysqli_error 返回 NULL？
这个问题在这里已经有了答案: What to do with mysqli problems? Errors like mysqli_fetch_array(): Argument #1 must
c - Argc 返回 1，argv 返回 NULL，尽管输入了命令行参数
我想我对 C 命令行参数有点生疏。我查看了我的一些旧代码，但无论这个版本是什么，都会出现段错误。运行方式是 ./foo -n num(其中 num 是用户在命令行中输入的数字) 但不知何故它不起作用
c++ - 命名管道 CreateFile() 返回 INVALID_HANDLE_VALUE，GetLastError() 返回 ERROR_PIPE_BUSY
我已经编写了一个类来处理命名管道连接，如果我创建了一个实例，关闭它，然后尝试创建另一个实例，调用 CreateFile() 返回 INVALID_HANDLE_VALUE，并且 GetLastErro
PHP is_writable() 返回 true 但 file_put_contents() 返回 false
即使 is_writable() 返回 true，我也无法写入文件。当然，该文件存在并且显然是可读的。这是代码: $file = "data"; echo file_get_contents($fil
php - SoapClient 返回 "NULL"，但 __getLastResponse() 返回 XML
下面代码中的变量 $response 为 NULL，尽管它应该是 SOAP 请求的值。 (潮汐列表)。当我调用 $client->__getLastResponse() 时，我从 SOAP 服务获得了
c - LoadImage() 返回 NULL 和 GetLastError() 返回 0
我一直在网上的不同论坛上搜索答案，但似乎没有与我的情况相符的... 我正在使用 Windows 7，VS2010。我有一个使用定时器来调用任务栏刷新功能的应用程序。在该任务栏函数中包含对 LoadI

首页

博学

6Ren·AI

商城

python - 为什么 GCP Vision API 在 python 中返回的结果比在线演示更差